Logo der Physikalisch-Technischen Bundesanstalt

Regression

Arbeitsgruppe 8.42

Beschreibung

Regressionsprobleme entstehen in vielen metrologischen Anwendungen. Hierzu zählen zum Beispiel alltägliche Kalibrationsaufgaben (siehe  Anhang H.3 des  Opens external link in new windowGUM), die Auswertung von Ringvergleichen,  die Charakterisierung von Sensoren [Opens external link in new windowMatthews et al., 2014], die Bestimmung von Elementarkonstanten [Opens external link in new windowBodnar et al., 2014] sowie Interpolations- und  Prognoseprobleme [Opens external link in new windowWübbeler et al., 2012]. Regressionen dienen dabei der Schätzung des funktionalen Zusammenhangs zwischen Variablen.

Gaußsche Regression
Abb.1: Illustration eines typischen linearen Regressionsproblems mit normalverteilten Messfehlern. Dargestellt sind die mittlere Regressionskurve (durchgezogenen Linie) und dessen punktweise 95% Überdeckungs- intervalle (gestrichelte Linien). Die dünne vertikale Linie zeigt die Prognose an einem neuen x-Wert und sein 95% Überdeckungsintervall. Die Punkte repräsentieren die Messdaten.

Definition und Beispiele

Regressionsprobleme haben oft die Form

$$
\begin{equation*}
y_i = f_{\boldsymbol{\theta}}(x_i) + \varepsilon_i , \quad i=1, \ldots, n \,,
\end{equation*}
$$

das heißt, die Messungen $\boldsymbol{y}=(y_1, \ldots, y_n)^\top$ werden beschrieben durch eine Funktion $f_{\boldsymbol{\theta}}$, die an den Werten $\boldsymbol{x}=(x_1, \ldots, x_n)^\top$ berechnet wird und von unbekannten Parametern $\boldsymbol{\theta}=(\theta_1, \ldots, \theta_p)^\top$ abhängt. Dem Messfehler $\pmb{\varepsilon}=(\varepsilon_1, \ldots, \varepsilon_n)^\top$ werden Wahrscheinlichkeiten aus einer Verteilung $p(\pmb{\varepsilon} | \boldsymbol{\theta}, \boldsymbol{\sigma})$ zugeordnet.

Regressionen können beispielsweise die Beziehung zwischen einem rückführbaren, hochgenauen Referenzgerät mit Werten $x$ und einem zu kalibrierenden Gerät mit Werten $y$ beschreiben. Die Paare $(x_i,y_i)$ bezeichnen dann die simultanen Messungen, die die zwei Geräte für die gleiche Messgröße anzeigen, zum Beispiel für die Temperatur.

Ein einfaches Beispiel ist die Gaußsche Geradenregression (siehe Abb. 1)

$$
\begin{equation} \label{int_reg_eq1}
y_i = \theta_1 + \theta_2 x_i + \varepsilon_i , \quad \varepsilon_i \stackrel{iid}{\sim} \text{N}(0, \sigma^2), \quad i=1, \ldots, n \,.
\end{equation}
$$

Das grundlegende Ziel von Regressionsaufgaben ist die Schätzung der unbekannten Parameter $\pmb{\theta}$ der Regressionsfunktion und möglicherweise auch der unbekannten Parameter $\pmb{\sigma}$ der Fehlerverteilung. Sind diese Regressionsparameter geschätzt, kann die Form der Regressionskurve ausgewertet, Prognosen für inter- oder extrapolierende  $x$-Werte erstellt oder die Regressionsfunktion umgekehrt werden, um $x$-Werte neuer Messungen vorherzusagen.

Nach oben

Forschung

Entscheidungen, die auf Regressionsanalysen basieren, erfordern eine zuverlässige Auswertung der Messunsicherheiten. Der gegenwärtige Stand der Unsicherheitsauswertungen in der Metrologie (siehe GUM und seine Ergänzungen) ist für Regressionen jedoch wenig geeignet. Ein Grund ist, dass die GUM-Richtlinien auf einem Model basieren, welches die Messgröße direkt aus den Eingangsgrößen ableitet. Regressionsmodelle lassen sich  jedoch nicht eindeutig durch solche Messfunktionen beschreiben. Anhand eines Beispiels schlägt Annex H.3 des GUM trotzdem eine Möglichkeit zur Analyse von Regressionsproblemen vor. Diese Auswertung  beinhaltet sowohl Elemente aus der klassischen Statistik (kleinste Quadrate) als auch der Bayesschen Statistik, so dass die Ergebnisse nicht auf "state-of-knowledge" Verteilungen basieren und sich im Allgemeinen von einem rein klassischen oder rein Bayesschen Ansatz unterscheiden, wie in [Opens external link in new windowElster et al., 2011] gezeigt wurde.

Auf dem Gebiet der Unsicherheitsberechnung für Regressionsprobleme werden in der Metrologie deshalb Richtlinien und zusätzliche Forschung benötigt. Das Joint Committee for Guides in Metrology (JCGM) erkennt diesen Bedarf an. Im Rahmen des EMRP-Projektes NEW04 [Initiates file downloadElster et al., 2015] wurden unter Leitung der PTB Arbeitsgruppe 8.42 Richtlinien für die Bayessche Inferenz von Regressionsproblemen erarbeitet. Diese Richtlinie enthält auch Musterlösungen für spezifische Regressionsprobleme mit bekannten Werten x. Sie kann auf der Opens external link in new windowInternetseite des NEW04-Projektes kostenlos heruntergeladen werden. Für Regressionsprobleme mit Gauß-verteilten Messfehlern und linearer Regressionsfunktion (siehe Formel (1)) werden in [Opens external link in new windowKlauenberg et al., 2015_2] Hinweise gegeben, wie für eine Bayessche Analyse auf extensive numerische Berechnungen (z.B. Markov Chain Monte Carlo Methoden) verzichtet werden kann.

Häufig beinhalten Regressionsprobleme auch Unsicherheiten in den x-Werten. Im Rahmen des EMPIR Projektes Opens external link in new window17NRM05 EMUE wurden drei übertragbare Beispiele entwickelt, die verschiedene Aspekte der Anpassung von Geraden illustrieren:

  • Für die GUM-konforme Kalibrierung von Ultraschalldüsen wird in [Opens external link in new windowMartens et.al., 2020a] demonstriert, wie alle beteiligten Unsicherheiten quantifiziert werden können. Zudem wird die Wichtigkeit betont, vorhandene Korrelationen zu berücksichtigen.
  • Anhand von zwei Verfahren zur Messung von Hämoglobin wird in [Opens external link in new windowMartens et.al., 2020b] die Quantifizierung von Unsicherheiten beim Methodenvergleich demonstriert. Insbesondere wird beispielhaft gezeigt, wie Korrelationen berücksichtigt werden können und wie sie Schätzwerte und Unsicherheiten der Regression beeinflussen.
  • Für die Kalibrierung eines Drehmomentmesssystems und bekannte x-Werte werden in [Opens external link in new windowMartens et.al., 2020c] die Ansätze nach GUM und Bayes verglichen. Der Bayesschen Ansatz wird empfohlen, da die Variabilität der Beobachtungen wenig bekannt und unterschiedlich sein kann. Explizite Formeln werden angegeben.

Außerdem werden in der  PTB Arbeitsgruppe 8.42 Untersuchungen zu metrologischen Anwendungen durchgeführt, in denen Regressionsprobleme auftreten. Zum Beispiel

  • für Analysen in der Magnetfeldfluktuationsthermometrie, wird in [Wübbeler et al., 2012] ein Bayesscher und in [Opens external link in new windowWübbeler et al., 2013] ein vereinfachter Ansatz zur Interpolation und Prognose vorgeschlagen und validiert,
  • für Analysen in der Magnetfeldfluktuationsthermometrie, wird in [Opens external link in new windowWübbeler et al., 2012] ein Bayesscher und in [Opens external link in new windowWübbeler et al., 2013] ein vereinfachter Ansatz zur Interpolation und Prognose vorgeschlagen und validiert,
  • für die Bestimmung von Elementarkonstanten, wird in [Opens external link in new windowBodnar et al., 2014] eine sogenannte objektive Bayessche Inferenz entwickelt und mit der oft angewandten Birge ratio Methode verglichen,
  • für die Analyse von immunologischen Tests (ELISA), werden in [Opens external link in new windowKlauenberg et al., 2015] informative prior-Verteilungen konstruiert, die vielfältig anwendbar sind,
  • für die Kalibrierung von Durchflussmessgeräten, wird in [Opens external link in new windowKok et al., 2015] eine Bayessche Analyse betrachtet, die auch Randbedingungen der Regressionskurve berücksichtigt.
Nach oben

Software

Nach oben

Publikationen

Publikations Einzelansicht

Artikel

Titel: A tutorial on Bayesian Normal linear regression
Autor(en): K. Klauenberg, G. Wübbeler, B. Mickan, P. Harris;C. Elster
Journal: Metrologia
Jahr: 2015
Band: 52
Ausgabe: 6
Seite(n): 878--892
DOI: 10.1088/0026-1394/52/6/878
Marker: 8.42, Regression, Unsicherheit
Zusammenfassung: Regression is a common task in metrology and often applied to calibrate instruments, evaluate inter-laboratory comparisons or determine fundamental constants, for example. Yet, a regression model cannot be uniquely formulated as a measurement function, and consequently the Guide to the Expression of Uncertainty in Measurement (GUM) and its supplements are not applicable directly. Bayesian inference, however, is well suited to regression tasks, and has the advantage of accounting for additional a priori information, which typically robustifies analyses. Furthermore, it is anticipated that future revisions of the GUM shall also embrace the Bayesian view.Guidance on Bayesian inference for regression tasks is largely lacking in metrology. For linear regression models with Gaussian measurement errors this tutorial gives explicit guidance. Divided into three steps, the tutorial first illustrates how a priori knowledge, which is available from previous experiments, can be translated into prior distributions from a specific class. These prior distributions have the advantage of yielding analytical, closed form results, thus avoiding the need to apply numerical methods such as Markov Chain Monte Carlo. Secondly, formulas for the posterior results are given, explained and illustrated, and software implementations are provided. In the third step, Bayesian tools are used to assess the assumptions behind the suggested approach.These three steps (prior elicitation, posterior calculation, and robustness to prior uncertainty and model adequacy) are critical to Bayesian inference. The general guidance given here for Normal linear regression tasks is accompanied by a simple, but real-world, metrological example. The calibration of a flow device serves as a running example and illustrates the three steps. It is shown that prior knowledge from previous calibrations of the same sonic nozzle enables robust predictions even for extrapolations.

Zurück zur Listen Ansicht

Nach oben