Designing materials with desired properties is essential to developing new materials for today's challenges. Historically, new materials have been discovered through trial and error. Nowadays, materials can be simulated and designed on the computer before they are synthesized in the laboratory. However, despite increasingly powerful computational resources and automatized experiments, this process is still comparatively demanding.
Given the anticipated potential diversity of materials, a brute-force search for candidate materials with desired properties is impractical. In recent years, algorithms for building statistical models, especially machine learning, have been used to estimate properties from available materials data. These models relate a set of materials properties -- the so-called features of the data set -- to a property of interest. Because there is no standardized procedure for selecting a set of features related to a property of interest, materials data sets can have hundreds to thousands of features. As a result, models are often complex, placing high demands on computational resources.
This thesis proposes a systematic approach to reduce the number of features prior to statistical modeling and a framework for automatically constructing and estimating the prediction uncertainty of statistical models. The information-theoretic approach presented first allows a ranking of the identified features by quantifying the relevance of features in terms of their mutual dependence to the property of interest. Whereas traditional methods work well for discrete data, a method for continuous data is developed for the application to materials data. A framework for feature identification is designed that can be applied to information-theoretic methods as well as to machine-learning algorithms. The framework is based on the branch-and-bound algorithm and iteratively combines sets of features with the goal of identifying the features related to a property of interest with either the highest mutual dependence or the best prediction performance.
Examples with known as well as empirically identified feature-property relationships are used to compare the information-theoretic method and the developed framework with established methods. The framework is then applied to actual materials data sets. The information-theoretic method is robust in the presence of inter-correlated features and is stable with increasing numbers of data samples, but requires more data to identify the same set of features than machine-learning algorithms for feature identification. Generated machine-learning models therefore resulted in higher prediction errors. The same framework, but using machine-learning algorithms, required fewer features to achieve a comparable prediction performance to the models reported in the literature. The framework identifies different sets of features that leads to an ensemble of statistical models with similar prediction performance. A number of additional tools are developed to further identify feature inter-correlations and to estimate the prediction error within a probabilistic tolerance. These tools can be used to assess the limitations of the generated models in predicting the desired property of new materials, to determine which materials cannot be predicted, and to find the features related to the property of interest in a model-independent framework for feature identification and model construction.
Das Design von Materialien mit gewünschten Eigenschaften ist für die Entwicklung neuer Materialien für heutige Herausforderungen von entscheidender Bedeutung. Historisch gesehen wurden neue Materialien hauptsächlich durch Versuch und Irrtum entdeckt. Heutzutage können Materialien am Computer simuliert und entworfen werden, bevor sie im Labor synthetisiert werden. Doch trotz immer leistungsfähigerer Rechenressourcen und automatisierter Experimente ist dieser Prozess vergleichsweise anspruchsvoll.
Angesichts der Vielfalt an Materialien ist eine Suche durch simples Ausprobieren von Kandidatenmaterialien mit gewünschten Eigenschaften ungeeignet. In den letzten Jahren wurden Algorithmen zur Erstellung statistischer Modelle verwendet, darunter Maschinelles Lernen, um Materialeigenschaften aus verfügbaren Daten zu schätzen. Diese Modelle setzen einen Menge von Materialeigenschaften -- die sogenannten Features des Datensatzes -- in Beziehung zu der gesuchten Eigenschaft. Da es kein standardisiertes Verfahren zur Auswahl der Features in Bezug auf die interessierende Eigenschaft gibt, können Materialdatensätze Hunderte bis Tausende von Features aufweisen. Infolgedessen sind erstellte statistische Modelle oft komplex und stellen hohe Anforderungen an die Rechenressourcen dar.
In dieser Doktorarbeit wird ein systematischer Ansatz entwickelt, um die Anzahl der Features vor der statistischen Modellierung zu reduzieren, sowie ein Framework, um statistische Modelle automatisch zu erstellen und deren Vorhersageunsicherheit abzuschätzen. Der vorgestellte informationstheoretische Ansatz quantifiziert zunächst die Relevanz von Features in Bezug auf ihre gegenseitige Abhängigkeit zur gesuchten Eigenschaft, was eine Rangfolge der identifizierten Features ermöglicht. Weil herkömmliche Methoden nur für diskrete Daten geeignet sind, wird eine Methode für kontinuierliche Daten entworfen und auf Materialdaten angewendet. Darauf aufbauend wird ein Verfahren zur Identifizierung von Features entwickelt, das sowohl auf informationstheoretische Methoden als auch auf maschinelle Lernalgorithmen angewendet werden kann. Das Verfahren basiert auf dem Branch-and-Bound-Algorithmus und kombiniert iterativ Teilmengen von Features mit dem Ziel, die Features mit der höchsten gegenseitigen Abhängigkeit oder der besten Vorhersageleistung zu identifizieren.
Anhand von Beispielen mit bekannten sowie empirisch ermittelten Feature-Eigenschafts- Beziehungen wird die informationstheoretische Methode und das entwickelte Framework mit etablierten Methoden verglichen. Das Framework wird dann auf konkrete Materialdaten angewendet. Die informationstheoretische Methode ist robust bei untereinander korrelierten Features und ist stabil mit zunehmender Anzahl von Datenproben, benötigt aber mehr Datenproben zur Identifizierung derselben Anzahl an Features als maschinelle Lernalgorithmen zur Feature-Identifizierung. Die daraus generierten Machine-Learning-Modelle führen daher zu höheren Vorhersagefehlern. Das gleiche Framework, aber unter Verwendung von maschinelle Lernalgorithmen, benötigte weniger Features, um eine vergleichbare Vorhersageleistung wie bei den in der Literatur beschriebenen Modellen zu erzielen.
Das Framework identifiziert verschiedene Teilmengen von Features, die zu einem Ensemble von statistischen Modellen mit ähnlicher Vorhersageleistung führen. Eine Reihe von zusätzlichen Werkzeugen wurde entwickelt, um Feature-Interkorrelationen zu identifizieren und den Vorhersagefehler innerhalb einer probabilistischen Toleranz abzuschätzen. Diese Werkzeuge werden verwendet, um Einschränkungen der generierten Modelle bei der Vorhersage der gewünschten Eigenschaft neuer Materialien zu beurteilen, um festzustellen, welche Materialien nicht vorhergesagt werden können, und um Features zu finden, die mit der gewünschten Eigenschaft in einem modell-unabhängigen Framework für die Feature-Identifikation und Modellkonstruktion zusammenhängen.