A valid sample size calculation is a key aspect for ethical medical research. While the sample size must be large enough to detect an existing relevant effect with sufficient power, it is at the same time crucial to include as few patients as possible to minimize exposure to study related risks and time to potential market approval. Different parameter assumptions, like the expected effect size and the outcome’s variance, are required to calculate the sample size. However, even with high medical knowledge it is often not easy to make reasonable assumptions on these parameters. Published results from the literature may vary or may not be comparable to the current situation. Adaptive designs offer a possible solution to deal with those planning difficulties. At an interim analysis, the standardized treatment effect is estimated and used to adapt the sample size. In the literature, there exists a variety of strategies for recalculating the sample size. However, the definition of performance criteria for those strategies is complex since the second stage sample size is a random variable. It is also known since long that most existing sample size recalculation strategies have major shortcomings, such as a high variability in the recalculated sample size.
Within Thesis Article 1, me and my coauthors developed a new performance score for comparing different sample size recalculation rules in a fair and transparent manner. This performance score is the basis to develop improved sample size recalculation strategies in a second step. In Thesis Article 2, me and my supervisor propose smoothing corrections to be combined with existing sample size recalculation rules to reduce the variability. Thesis Article 3 deals with the determination of the second stage sample size as the numerical solution of a constrained optimization problem, which is solved by a new R-package named adoptr. To illustrate the relation of the three Thesis Articles, all new approaches are applied to a clinical trial example to show the methods’ benefits in comparison to an established sample size recalculation strategy.
The global aim of defining high-performance sample size recalculation rules was approached considerably by my work. The performance of adaptive designs with sample size recalculation can now be compared by means of a single comprehensive score. Moreover, our new smoothing corrections define one possibility to improve an existing sample size recalculation rule with respect to this new performance score. The new software further allows to directly determine an optimal second stage sample size with respect to predefined optimality criteria.
I was able to reduce methodological shortcomings in sample size recalculation by four aspects: providing new methods for 1) performance evaluation, 2) performance improvement, 3) performance optimization and 4) software solutions. In addition, I illustrate how these methods can be combined and applied to a clinical trial example.
Hintergrund Eine valide Fallzahlberechnung ist ein zentraler Aspekt für ethische medizinische Forschung. Während die Fallzahl groß genug sein muss, um einen vorliegenden relevanten Effekt mit genügend großer Power zu entdecken, ist es gleichzeitig wichtig, so wenig Patient*innen wie möglich einzuschließen, um studienbezogene Risiken sowie die Zeit bis zur Marktzulassung zu minimieren. Verschiedene Parameterannahmen, wie die erwartete Effektgröße und die Varianz des Endpunktes, werden benötigt, um die Fallzahl zu berechnen. Auch mit hoher medizinischer Expertise ist es häufig nicht einfach, die zugrundliegenden Parameterannahmen zu treffen. Publizierte Ergebnisse aus der Literatur können variieren oder auf die aktuelle Situation nicht übertragbar sein. Adaptive Designs sind eine Möglichkeit, um mit diesen Planungsunsicherheiten umzugehen. Zur Zwischenanalyse wird der Behandlungseffekt geschätzt und genutzt, um die Fallzahl anzupassen. In der Literatur gibt es eine Vielzahl an Strategien die Fallzahl anzupassen. Die Definition von Beurteilungskriterien dieser Strategien ist jedoch komplex, da die Fallzahl der zweiten Stufe eine Zufallsvariable ist. Hinzu kommt, dass viele existierende Fallzahlrekalkulations-Strategien Defizite haben, beispielsweise eine hohe Variabilität in der rekalkulierten Fallzahl. Methoden Im Promotionsartikel 1 entwickelten meine Koautor*innen und ich einen neuen Performance- Score für einen fairen und transparenten Vergleich von Fallzahlrekalkulations-Strategien. Dieser Performance-Score diente im zweiten Schritt als Basis, um verbesserte Fallzahlrekalkulations-Strategien zu entwickeln. Hierfür schlugen meine Betreuerin und ich im Promotionsartikel 2 Smoothing-Korrekturen zur Varianzreduktion vor, die mit bereits existierenden Fallzahlrekalkulations-Strategien kombiniert werden können. Im Promotionsartikel 3 wurde die Fallzahl der zweiten Stufe als numerische Lösung eines Optimierungsproblems aufgefasst, welche durch das neue R-Paket adoptr berechnet wird. Um den Zusammenhang der drei zugrundeliegenden Artikel zu illustrieren, wurden die neuen Methoden auf ein klinisches Studienbeispiel angewandt und ihre Vorteile gegenüber einer etablierten Fallzahlrekalkulations-Strategie erläutert. Ergebnisse Das übergeordnete Ziel qualitativ hochwertige Fallzahlrekalkulations-Strategien zu definieren, wurde durch meine Arbeit beträchtlich vorangetrieben. Die Performance von adaptiven Designs mit Fallzahlrekalkulation kann nun durch einen umfassenden Score beurteilt werden. Darüberhinaus stellen die neuen Smoothing-Korrekturen eine Möglichkeit dar, um Fallzahlrekalkulations-Strategien hinsichtlich des neuen Performance-Scores zu verbessern. Die neue Software erlaubt darüber hinaus, eine optimale Fallzahl der zweiten Stufe in Bezug auf vorab definierte Optimalitätskriterien zu bestimmen. Schlussfolgerungen Im Rahmen dieser Arbeit habe ich durch vier Aspekte dazu beigetragen, methodische Defizite im Bereich der Fallzahlrekalkulation zu reduzieren: 1) Performance-Bewertung, 2) Performance-Verbesserung, 3) Performance-Optimierung und 4) Software-Lösungen. Zusätzlich wird illustriert wie diese Methoden kombiniert und auf ein klinisches Studienbeispiel angewandt werden können.