Concerning the analysis of large molecular systems increasing amounts of simulation data and growing dimensionality have led to the demand of data- driven approaches to extract physically interpretable information from large data sets. Hence a mapping to a low dimensional manifold, representing the essential degrees of freedom of a molecular system is sought. A general obstacle to such an analysis is the curse of dimensionality. This thesis is motivated by the fact that most dimension reduction methods are either not reliable in dimensionality regimes of realistic biomolecular systems or restricted to data sets with special features. On the one hand the aim is to develop an unsupervised linear feature extraction method, that allows to extract any multimodal distributed component to a given high dimensional data density. On the other hand the development of a geometric approach to the analysis of the large scale dynamical behavior of biological active molecules is intended. To this end a very general semi-parametric framework for unsupervised feature extraction based on weak structural assumptions on the data density is introduced. We discuss and develop different iterative and non-iterative approaches to semi-parametric dimension reduction allowing for identifying a low-dimensional non-Gaussian component of the whole distribution in a structure adaptive way. The main difference between the approaches discussed consist in the reconstruction of the low dimensional, non-Gaussian target space of the method on focus. We discuss methods based on Principle Component Analysis (PCA), convex projection and semi-definite programming. It turns out that the choice of the optimization problem to be solved in order to reconstruct the target space from some estimators is decisive for the statistical sensitivity of the method to a variety of non-Gaussian components. Currently the best alternative is Sparse NonGaussian Component Analysis based on semidefinite programming. Combining this linear projective method with the so called dip index specialized on the detection of multimodality, we come up with NonGaussian Cluster Analysis (NCA). It is demonstrated that NCA used as a preprocessing step to the metastablility analysis of biomolecules is superior to comparable dimension reduction methods. Combining NCA with the state-of- the-art approach of Hidden Markov Models to metastablility analysis, results in an almost geometrical approach to high dimensional analysis of metastablility as requested.
Im ersten Teil dieser Arbeit wird eine vollständig datengesteuerte, lineare und projektive Methode der Merkmalsextraktion entwickelt. Sie beruht auf einer semiparametrischen Hypothese in Bezug auf die Datendichte und unterscheidet sich grundlegend von dem im linearen Fall typischerweise benutzten Continuous Latent Variable Model. Als Adäquatheitsbedingung wurde verlangt, daß so wenig wie möglich von der durch die Daten repräsentierten Information bei der Dimensionsreduktion verloren gehen darf. Weiter sollte die Methode auch in hohen Dimensionen sensitiv und mit wenig Zeitaufwand zu berechnen sein. Es wurde gezeigt, daß die semi-parametrischen Hypothese in verschieden effizienter Weise benutzt werden kann, Merkmale aus einer hochdimensionalen Dichte zu extrahieren. Als bester Zugang hat sich eine Methode erwiesen, die neuste Techniken der semidefiniten Programmierung benutzt. Mit den Mitteln der empirischen Prozeßtheorie wurde gezeigt, daß die Konvergenzrate des Schätzfehlers proportional zu d/N ist. Der Aufwand des kompletten SNGCA- Algorithmus hat eine analytische Komplexität von O(L log L ). Der numerische Flaschenhals besteht jedoch in der arithmetischen Komplexität von O(N^2L+L^3), die beim Abtasten des Datenraums und der Berechnung der prox-Transformation anfällt. Ein Vergleich mit anderen, gegenwärtig populären, projektiven Methoden zeigt für eine Vielzahl verschiedener Abweichungen von der Normalverteilung, daß SNGCA im Moment die überlegene Methode ist. Das zweite Unterprojekt untersucht die Reichweite eines Zugangs zur Analyse von Metastabilität bei Biomolekülen, der soweit wie möglich geometrisch ist in dem Sinne, als nur die metrischen Relationen zwischen den Datenpunkten benutzt werden, um eine Clusterstruktur in einer stationären Verteilung von Punkten zu identifizieren, welche, auf einen niedrig dimensionalen Unterraum beschränkt, die essentielle, makroskopische Dynamik z.B. eines biologisch aktiven Moleküls repräsentiert. Aufgrund des geometrischen Ursprungs des sogenannten Fluchs der Dimension, liefern herkömmliche Clusteralgorithmen, die auf der Berechnung einer Metrik in hohen Dimensionen beruhen, jedoch typischerweise irreführende Ergebnisse. Dies gilt selbst dann, wenn die betreffenden Punkte faktisch auf einer niedrigdimensionalen Mannigfaltigkeit liegen. Aus diesem Grund wurde SNGCA mit einem Index im Sinne des projection-pursuit-Ansatzes kombiniert, der ausschließlich sensitiv ist gegenüber multimodalen Komponenten der vorgegebenen Dichte. Die entstandene Methode der NonGaussian Clustering Analysis wurde als Dimensionsreduktion vor einer Metastabilitätsanalyse auf der Basis von Hidden-Markov Modellen verwendet, was einen nahezu vollständig geometrischen Zugang zur Metastabilitätsanalyse bedeutet. Ein Vergleich verschiedener, und gegenwärtig populärer Methoden mit NCA zeigt, daß letztere besser als jene geeignet ist, Clusterstrukturen in hochdimensionalen Datensätzen zu detektieren. Insbesondere weist die gut ausgeprägte Separation der reduzierten Daten in Cluster bei verschiednen Simulationen von Biomolekülen darauf hin, daß die Dimensionsreduktion die der Metastabilitätsanalyze zugrunde liegende Markovannahme approximativ erhält.