Health Data Science is a health discipline engaged in three tasks: Description, Prediction, and Counterfactual Prediction. In this dissertation, I explored similarities and differences in the statistical methods for probability estimation within the framework of these tasks, relying on clinical and public health relevant applications. Description focuses on studying the occurrence of health events in populations using surveillance systems. The probability of a new event, or incidence proportion, cannot be directly computed using information from surveillance systems. However, it is possible to estimate the incidence rate, which can be used to approximate the incidence proportion of a theoretical cohort. We estimated the all-cause mortality of the Italian city Nembro, which was severely affected by the COVID-19 pandemic. We used data from national and local registries to estimate the monthly all-cause mortality rates from 2012 to April 2020. We found that the all-cause mortality rate in Nembro increased dramatically in March 2020: it was 154.4 per 1,000 person-years, which corresponded approximately to a 1.3% probability of dying within one month. The use of prediction models to estimate the probability of an event is widespread in medicine. The main challenge in Prediction is making sure that a model performs well for individuals outside of the development setting. Therefore, it is crucial to assess the transportability of a model. We conducted an external validation of the SCORE OP, a risk score recently developed to predict the risk of fatal cardiovascular events in European older persons. We assessed discrimination and calibration (using projections for the 10-year versions) of the SCORE OP using data from the Berlin Initiative Study. We found that the SCORE OP overestimated the true risk for older persons within Berlin. Counterfactual Prediction aims at answering “what if” questions, estimating the probability of an outcome in different worlds in which different interventions are applied. This task is rooted in counterfactual thinking, and relies on prior causal knowledge summarized in causal graphs. In clinical examples and simulations, we examined the role of these elements (focusing on the principle of independent mechanisms and the Markov Blanket) in informing modeling strategies for probability estimation in the factual world. Each Health Data Science task deals with the probability estimation problem differently, according to its challenges and objectives. Recently, the exchange of tools, statistical techniques, and theoretical concepts between Prediction and Counterfactual Prediction has made important scientific advancements possible and opened several research tracks for future exploration.
Health Data Science ist eine Gesundheitsdisziplin, die sich mit drei Aufgaben befasst: Beschreibung, Vorhersage und kontrafaktische Vorhersage. In meiner Dissertation untersuchte ich Ähnlichkeiten und Unterschiede in den Methoden dieser drei Aufgaben, wobei ich mich auf klinische und gesundheitsrelevante Anwendungen stützte. Die Beschreibung konzentriert sich auf die Untersuchung des Auftretens von Gesundheitsereignissen in Populationen unter Verwendung von Surveillance. Die Wahrscheinlichkeit eines neuen Ereignisses kann jedoch nicht direkt anhand von Surveillance Daten berechnet werden. Es ist es jedoch möglich, die Inzidenzrate, die zur Annäherung an den Inzidenzanteil einer theoretischen geschlossenen Kohorte verwendet werden kann, abzuschätzen. Als Anwendung schätzten wir die Gesamtmortalität von Nembro, einer italienischen Kleinstadt, die von der COVID-19-Pandemie schwer getroffen wurde. Wir verwendeten Daten aus nationalen und lokalen Registern, um die monatlichen Gesamtmortalitätsraten der Einwohner von Nembro von 2012 bis April 2020 zu schätzen. Wir stellten fest, dass die Gesamtmortalitätsrate in Nembro im März 2020 dramatisch anstieg. Sie betrug 154,4 pro 1.000 Personenjahre, was einer Sterbewahrscheinlichkeit von 1,3% entsprach. Die Verwendung von Risikovorhersagemodellen zur Schätzung der Wahrscheinlichkeit eines Ereignisses ist in der Medizin sehr verbreitet. Die größte Herausforderung bei der Vorhersage besteht darin, sicherzustellen, dass das Modell auch bei Personen funktioniert, die nicht zur Entwicklung des Models herangezogen wurden. Daher ist es wichtig, externe Validierungen durchzuführen, um die Nutzung des Modells in anderen Settings sicherzusellen. Wir haben eine externe Validierung des SCORE OP, eines Risikoscores zur Vorhersage des Risikos tödlicher kardiovaskulärer Ereignisse bei älteren Menschen in Europa, durchgeführt. Wir bewerteten die Diskrimination und Kalibrierung des SCORE OP unter Verwendung von Daten aus der Berliner Initiative Studie. Wir stellten fest, dass die SCORE OP-Gleichungen das tatsächliche Risiko bei älteren Menschen in Berlin erheblich überschätzt und nicht angewandt werden sollte.