Logo PTB

Regression

Arbeitsgruppe 8.42

Inhalt

Beschreibung

Regressionsprobleme entstehen in vielen metrologischen Anwendungen. Hierzu zählen zum Beispiel alltägliche Kalibrationsaufgaben (siehe  Anhang H.3 des  Opens external link in new windowGUM), die Auswertung von Ringvergleichen,  die Charakterisierung von Sensoren [Opens external link in new windowMatthews et al., 2014], die Bestimmung von Elementarkonstanten [Opens external link in new windowBodnar et al., 2014] sowie Interpolations- und  Prognoseprobleme [Opens external link in new windowWübbeler et al., 2012]. Regressionen dienen dabei der Schätzung des funktionalen Zusammenhangs zwischen Variablen.

Gaußsche Regression
Abb.1: Illustration eines typischen linearen Regressionsproblems mit normalverteilten Messfehlern. Dargestellt sind die mittlere Regressionskurve (durchgezogenen Linie) und dessen punktweise 95% Überdeckungs- intervalle (gestrichelte Linien). Die dünne vertikale Linie zeigt die Prognose an einem neuen x-Wert und sein 95% Überdeckungsintervall. Die Punkte repräsentieren die Messdaten.

Definition und Beispiele

Regressionsprobleme haben oft die Form

$$
\begin{equation*}
y_i = f_{\boldsymbol{\theta}}(x_i) + \varepsilon_i , \quad i=1, \ldots, n \,,
\end{equation*}
$$

das heißt, die Messungen $\boldsymbol{y}=(y_1, \ldots, y_n)^\top$ werden beschrieben durch eine Funktion $f_{\boldsymbol{\theta}}$, die an den Werten $\boldsymbol{x}=(x_1, \ldots, x_n)^\top$ berechnet wird und von unbekannten Parametern $\boldsymbol{\theta}=(\theta_1, \ldots, \theta_p)^\top$ abhängt. Dem Messfehler $\pmb{\varepsilon}=(\varepsilon_1, \ldots, \varepsilon_n)^\top$ werden Wahrscheinlichkeiten aus einer Verteilung $p(\pmb{\varepsilon} | \boldsymbol{\theta}, \boldsymbol{\sigma})$ zugeordnet.

Regressionen können beispielsweise die Beziehung zwischen einem rückführbaren, hochgenauen Referenzgerät mit Werten $x$ und einem zu kalibrierenden Gerät mit Werten $y$ beschreiben. Die Paare $(x_i,y_i)$ bezeichnen dann die simultanen Messungen, die die zwei Geräte für die gleiche Messgröße anzeigen, zum Beispiel für die Temperatur.

Ein einfaches Beispiel ist die Gaußsche Geradenregression (siehe Abb. 1)

$$
\begin{equation} \label{int_reg_eq1}
y_i = \theta_1 + \theta_2 x_i + \varepsilon_i , \quad \varepsilon_i \stackrel{iid}{\sim} \text{N}(0, \sigma^2), \quad i=1, \ldots, n \,.
\end{equation}
$$

Das grundlegende Ziel von Regressionsaufgaben ist die Schätzung der unbekannten Parameter $\pmb{\theta}$ der Regressionsfunktion und möglicherweise auch der unbekannten Parameter $\pmb{\sigma}$ der Fehlerverteilung. Sind diese Regressionsparameter geschätzt, kann die Form der Regressionskurve ausgewertet, Prognosen für inter- oder extrapolierende  $x$-Werte erstellt oder die Regressionsfunktion umgekehrt werden, um $x$-Werte neuer Messungen vorherzusagen.

Nach oben

Forschung

Entscheidungen, die auf Regressionsanalysen basieren, erfordern eine zuverlässige Auswertung der Messunsicherheiten. Der gegenwärtige Stand der Unsicherheitsauswertungen in der Metrologie (siehe GUM und seine Ergänzungen) ist für Regressionen jedoch wenig geeignet. Ein Grund ist, dass die GUM-Richtlinien auf einem Model basieren, welches die Messgröße direkt aus den Eingangsgrößen ableitet. Regressionsmodelle lassen sich  jedoch nicht eindeutig durch solche Messfunktionen beschreiben. Anhand eines Beispiels schlägt Annex H.3 des GUM trotzdem eine Möglichkeit zur Analyse von Regressionsproblemen vor. Diese Auswertung  beinhaltet sowohl Elemente aus der klassischen Statistik (kleinste Quadrate) als auch der Bayesschen Statistik, so dass die Ergebnisse nicht auf "state-of-knowledge" Verteilungen basieren und sich im Allgemeinen von einem rein klassischen oder rein Bayesschen Ansatz unterscheiden, wie in [Opens external link in new windowElster et al., 2011] gezeigt wurde.

Auf dem Gebiet der Unsicherheitsberechnung für Regressionsprobleme werden in der Metrologie deshalb Richtlinien und zusätzliche Forschung benötigt. Das Joint Committee for Guides in Metrology (JCGM) erkennt diesen Bedarf an. Im Rahmen des EMRP-Projektes NEW04 [Initiates file downloadElster et al., 2015] wurden unter Leitung der PTB Arbeitsgruppe 8.42 Richtlinien für die Bayessche Inferenz von Regressionsproblemen erarbeitet. Diese Richtlinie enthält auch Musterlösungen für spezifische Regressionsprobleme mit bekannten Werten x. Sie kann auf der Opens external link in new windowInternetseite des NEW04-Projektes kostenlos heruntergeladen werden. Für Regressionsprobleme mit Gauß-verteilten Messfehlern und linearer Regressionsfunktion (siehe Formel (1)) werden in [Opens external link in new windowKlauenberg et al., 2015_2] Hinweise gegeben, wie für eine Bayessche Analyse auf extensive numerische Berechnungen (z.B. Markov Chain Monte Carlo Methoden) verzichtet werden kann.


Außerdem werden in der  PTB Arbeitsgruppe 8.42 Untersuchungen zu metrologischen Anwendungen durchgeführt, in denen Regressionsprobleme auftreten. Zum Beispiel

  • für Analysen in der Magnetfeldfluktuationsthermometrie, wird in [Opens external link in new windowWübbeler et al., 2012] ein Bayesscher und in [Opens external link in new windowWübbeler et al., 2013] ein vereinfachter Ansatz zur Interpolation und Prognose vorgeschlagen und validiert,
  • für die Bestimmung von Elementarkonstanten, wird in [Opens external link in new windowBodnar et al., 2014] eine sogenannte objektive Bayessche Inferenz entwickelt und mit der oft angewandten Birge ratio Methode verglichen,
  • für die Analyse von immunologischen Tests (ELISA), werden in [Opens external link in new windowKlauenberg et al., 2015] informative prior-Verteilungen konstruiert, die vielfältig anwendbar sind,
  • für die Kalibrierung von Durchflussmessgeräten, wird in [Opens external link in new windowKok et al., 2015] eine Bayessche Analyse betrachtet, die auch Randbedingungen der Regressionskurve berücksichtigt.
Nach oben

Software

Um eine einfache Anwendung der in der Arbeitsgruppe entwickelten Methoden zu ermöglichen, stehen die folgenden Software-Implementationen kostenfrei zur Verfügung.

 

MCMC-Software für die Analyse von Magnetfeldfluktuationsthermometrie

Bayessche Lösungsansätze für Regressionsprobleme erfordern meist den Einsatz numerischer Methoden wie das Markov-Chain-Monte-Carlo-Verfahren (MCMC). Für Analysen in der Magnetfeldfluktuationsthermometrie hat die PTB Arbeitsgruppe 8.42 ein MATLAB-Softwarepaket entwickelt, um MCMC für die posterior-Verteilung der Kalibrationsparameter durchzuführen und um anschließend Temperaturen zu schätzen.
Diese Software ist im elektronischen Supplement der dazugehörigen Publikation erhältlich.

Zugehörige Publikation

G. Wübbeler, F. Schmähling, J. Beyer, J. Engert, and C. Elster (2012). Analysis of magnetic field fluctuation thermometry using Bayesian inference. Meas. Sci. Technol. 23, 125004 (9pp), [DOI: 1018088/0957-0233/23/12/125004].

 

WinBUGS-Software für die Analyse von Immunassay-Daten

Der Bayessche Ansatz ermöglicht das Einbeziehen von zusätzlichem Vorwissen (prior knowledge) für Regressionsprobleme, erfordert aber oft den Einsatz von numerischen Methoden wie dem Markov-Chain-Monte-Carlo-Verfahren (MCMC). Für die Analyse von Immunassay-Daten hat die PTB Arbeitsgruppe 8.42 WinBUGS-Softwarecode entwickelt, um MCMC für die posterior-Verteilungen der Kalibrationsparameter und der unbekannten Konzentration durchzuführen.
Diese Software steht im A Guide to Bayesian Inference for Regression Problems zur Verfügung.

Zugehörige Publikationen

K. Klauenberg, M. Walzel, B. Ebert, and C. Elster (2015). Informative prior distributions for ELISA analyses. Biostatistics 16, 454-464, [DOI: 10.1093/biostatistics/kxu057].

C. Elster, K. Klauenberg, M. Walzel, G. Wübbeler, P. Harris, M. Cox, C. Matthews, I. Smith, L. Wright, A. Allard, N. Fischer, S. Cowen, S. Ellison, P. Wilson, F. Pennecchi, G. Kok, A. van der Veen, and L. Pendrill (2015). A Guide to Bayesian Inference for Regression Problems Deliverable of EMRP project NEW04 “Novel mathematical and statistical approaches to uncertainty evaluation”, [Initiates file downloaddownload (pdf)].

 

Verwerfungsmethode (Rejection sampling) für die Kalibration von Durchflussmessgeräten

Unter bestimmten Voraussetzungen führen Bayessche Ansätze für lineare Regressionsprobleme mit normalverteilten Messfehlern zu analytischen Lösungen. Sollen aber bei der Kalibration von Durchflussmessgeräten auch Randbedingungen für die Werte der Regressionskurve einbezogen werden, ist es erforderlich, eine Monte-Carlo-Methode mit einem Acceptance-Rejection-Schritt zu kombinieren, um Stichproben aus der posterior-Verteilung zu erhalten.
MATLAB-Quellcode, der diesen Algorithmus implementiert,  steht im A Guide to Bayesian Inference for Regression Problems zur Verfügung.

Zugehörige Publikationen

G. J. P. Kok, A. M. H. van der Veen, P. M. Harris, I.M. Smith, C. Elster (2015). Bayesian analysis of a flow meter calibration problem. Metrologia 52, 392-399,  [DOI: 10.1088/0026-1394/52/2/392].

C. Elster, K. Klauenberg, M. Walzel, G. Wübbeler, P. Harris, M. Cox, C. Matthews, I. Smith, L. Wright, A. Allard, N. Fischer, S. Cowen, S. Ellison, P. Wilson, F. Pennecchi, G. Kok, A. van der Veen, and L. Pendrill (2015). A Guide to Bayesian Inference for Regression Problems Deliverable of EMRP project NEW04 “Novel mathematical and statistical approaches to uncertainty evaluation”, [Initiates file downloaddownload (pdf)].

 

Software für Bayessche Normale lineare Regression

Unter bestimmten Voraussetzungen führen Bayessche Ansätze für lineare Regressionsprobleme mit normalverteilten Messfehlern zu analytischen Lösungen. In Verbindung mit einem Tutorium stellt die PTB Arbeitsgruppe 8.42 Software bereit für die Berechnung der posterior-Verteilung aller Regressionsparameter, der Regressionskurve und Prognosen, sowie der Schätzwerte, der meisten Unsicherheiten und Überdeckungsintervalle. Die Software bietet auch graphische Darstellungsmöglichkeiten dieser Größen an.

MATLAB- sowie R-Quellcode hierfür können kostenlos heruntergeladen werden:

Zugehörige Publikationen

K. Klauenberg, G. Wübbeler, B. Mickan, P. M. Harris, and C. Elster. (2015). A Tutorial on Bayesian Normal Linear Regression. Metrologia, 52, 878–892. [DOI: 10.1088/0026-1394/52/6/878].

C. Elster, K. Klauenberg, M. Walzel, G. Wübbeler, P. Harris, M. Cox, C. Matthews, I. Smith, L. Wright, A. Allard, N. Fischer, S. Cowen, S. Ellison, P. Wilson, F. Pennecchi, G. Kok, A. van der Veen, and L. Pendrill (2015). A Guide to Bayesian Inference for Regression Problems Deliverable of EMRP project NEW04 “Novel mathematical and statistical approaches to uncertainty evaluation”, [Initiates file downloaddownload (pdf)].

Ein einführendes Beispiel für Markov Chain Monte Carlo (MCMC)

Die Ausswertung von posterior-Verteilungen Bayesscher Analysen ist numerisch oft sehr aufwendig, aber notwendig (z.B. wenn der Guide to the Expression of Uncertainty in Measurement GUM nicht anwendbar ist). Markov Chain Monte Carlo (MCMC) Methoden sind eine flexible und vielseitige Möglichkeit, wie die beteiligten hoch-dimensionalen Integrale gelöst und damit posterior-Verteilungen approximiert werden können. Die PTB Arbeitsgruppe 8.42 hat eine knappe Einführung zu MCMC Methoden entwickelt, die anhand eines einfachen Beispiels aus der Metrologie und wenigen Zeilen Programmcode den Einstieg in dieses mächtige Instrument ermöglicht. MATLAB- sowie R-Quellcode stehen in Markov chain Monte Carlo methods. MATLAB- sowie R-Quellcode hierfür befinden sich in der zugehörigen Publikation.

Zugehörige Publikation

K. Klauenberg und C. Elster Markov chain Monte Carlo methods: an introductory example. Metrologia, 53(1), S32, 2016. [DOI: 10.1088/0026-1394/53/1/S32]

Nach oben

Publikationen

C. Elster and G. Wübbeler
Comput. Stat., 32(1),
51--69,
2017.
M. Dierl, T. Eckhard, B. Frei, M. Klammer, S. Eichstädt and C. Elster
Journal of the Optical Society of America A, 33(7),
1370--1376,
2016.
C. Elster and G. Wübbeler
Metrologia, 53(1),
S10,
2016.
K. Klauenberg and C. Elster
Metrologia, 53(1),
S32,
2016.
C. Elster, K. Klauenberg, M. Walzel, P. M. Harris, M. G. Cox, C. Matthews, L. Wright, A. Allard, N. Fischer, S. Ellison, P. Wilson, F. Pennecchi, G. J. P. Kok, A. Van der Veen and L. Pendrill
EMRP NEW04,
, 2015
K. Klauenberg, M. Walzel, B. Ebert and C. Elster
Biostatistics, 16(3),
454--64,
2015.
G. J. P. Kok, A. M. H. van der Veen, P. M. Harris, I. M. Smith and C. Elster
Metrologia, 52(2),
392-399,
2015.
K. Klauenberg, G. Wübbeler, B. Mickan, P. Harris and C. Elster
Metrologia, 52(6),
878--892,
2015.
O. Bodnar and C. Elster
Metrologia, 51(5),
516--521,
2014.
S. Eichstädt and C. Elster
Journal of Physics: Conference Series, 490(1),
012230,
2014.
S. Heidenreich, H. Gross, M.-A. Henn, C. Elster and M. Bär
J. Phys. Conf. Ser., 490(1),
012007,
2014.
C. Matthews, F. Pennecchi, S. Eichstädt, A. Malengo, T. Esward, I. M. Smith, C. Elster, A. Knott, F. Arrhén and A. Lakka
Metrologia, 51(3),
326-338,
2014.
G. Wübbeler and C. Elster
Measurement Science and Technology, 24(11),
115004,
2013.
G. Wübbeler, F. Schmähling, J. Beyer, J. Engert and C. Elster
Measurement Science and Technology, 23(12),
125004,
2012.
C. Elster and B. Toman
Metrologia, 48(5),
233--240,
2011.
I. Lira, C. Elster and W. Wöger
Metrologia, 44(5),
379--384,
2007.
Export als:
BibTeX, XML
Nach oben