dc.contributor.author
Diederichs, Elmar
dc.date.accessioned
2018-06-07T23:04:52Z
dc.date.available
2009-11-30T13:34:31.627Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/10017
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-14215
dc.description.abstract
Concerning the analysis of large molecular systems increasing amounts of
simulation data and growing dimensionality have led to the demand of data-
driven approaches to extract physically interpretable information from large
data sets. Hence a mapping to a low dimensional manifold, representing the
essential degrees of freedom of a molecular system is sought. A general
obstacle to such an analysis is the curse of dimensionality. This thesis is
motivated by the fact that most dimension reduction methods are either not
reliable in dimensionality regimes of realistic biomolecular systems or
restricted to data sets with special features. On the one hand the aim is to
develop an unsupervised linear feature extraction method, that allows to
extract any multimodal distributed component to a given high dimensional data
density. On the other hand the development of a geometric approach to the
analysis of the large scale dynamical behavior of biological active molecules
is intended. To this end a very general semi-parametric framework for
unsupervised feature extraction based on weak structural assumptions on the
data density is introduced. We discuss and develop different iterative and
non-iterative approaches to semi-parametric dimension reduction allowing for
identifying a low-dimensional non-Gaussian component of the whole distribution
in a structure adaptive way. The main difference between the approaches
discussed consist in the reconstruction of the low dimensional, non-Gaussian
target space of the method on focus. We discuss methods based on Principle
Component Analysis (PCA), convex projection and semi-definite programming. It
turns out that the choice of the optimization problem to be solved in order to
reconstruct the target space from some estimators is decisive for the
statistical sensitivity of the method to a variety of non-Gaussian components.
Currently the best alternative is Sparse NonGaussian Component Analysis based
on semidefinite programming. Combining this linear projective method with the
so called dip index specialized on the detection of multimodality, we come up
with NonGaussian Cluster Analysis (NCA). It is demonstrated that NCA used as a
preprocessing step to the metastablility analysis of biomolecules is superior
to comparable dimension reduction methods. Combining NCA with the state-of-
the-art approach of Hidden Markov Models to metastablility analysis, results
in an almost geometrical approach to high dimensional analysis of
metastablility as requested.
de
dc.description.abstract
Im ersten Teil dieser Arbeit wird eine vollständig datengesteuerte, lineare
und projektive Methode der Merkmalsextraktion entwickelt. Sie beruht auf einer
semiparametrischen Hypothese in Bezug auf die Datendichte und unterscheidet
sich grundlegend von dem im linearen Fall typischerweise benutzten Continuous
Latent Variable Model. Als Adäquatheitsbedingung wurde verlangt, daß so wenig
wie möglich von der durch die Daten repräsentierten Information bei der
Dimensionsreduktion verloren gehen darf. Weiter sollte die Methode auch in
hohen Dimensionen sensitiv und mit wenig Zeitaufwand zu berechnen sein. Es
wurde gezeigt, daß die semi-parametrischen Hypothese in verschieden
effizienter Weise benutzt werden kann, Merkmale aus einer hochdimensionalen
Dichte zu extrahieren. Als bester Zugang hat sich eine Methode erwiesen, die
neuste Techniken der semidefiniten Programmierung benutzt. Mit den Mitteln der
empirischen Prozeßtheorie wurde gezeigt, daß die Konvergenzrate des
Schätzfehlers proportional zu d/N ist. Der Aufwand des kompletten SNGCA-
Algorithmus hat eine analytische Komplexität von O(L log L ). Der numerische
Flaschenhals besteht jedoch in der arithmetischen Komplexität von O(N^2L+L^3),
die beim Abtasten des Datenraums und der Berechnung der prox-Transformation
anfällt. Ein Vergleich mit anderen, gegenwärtig populären, projektiven
Methoden zeigt für eine Vielzahl verschiedener Abweichungen von der
Normalverteilung, daß SNGCA im Moment die überlegene Methode ist. Das zweite
Unterprojekt untersucht die Reichweite eines Zugangs zur Analyse von
Metastabilität bei Biomolekülen, der soweit wie möglich geometrisch ist in dem
Sinne, als nur die metrischen Relationen zwischen den Datenpunkten benutzt
werden, um eine Clusterstruktur in einer stationären Verteilung von Punkten zu
identifizieren, welche, auf einen niedrig dimensionalen Unterraum beschränkt,
die essentielle, makroskopische Dynamik z.B. eines biologisch aktiven Moleküls
repräsentiert. Aufgrund des geometrischen Ursprungs des sogenannten Fluchs der
Dimension, liefern herkömmliche Clusteralgorithmen, die auf der Berechnung
einer Metrik in hohen Dimensionen beruhen, jedoch typischerweise irreführende
Ergebnisse. Dies gilt selbst dann, wenn die betreffenden Punkte faktisch auf
einer niedrigdimensionalen Mannigfaltigkeit liegen. Aus diesem Grund wurde
SNGCA mit einem Index im Sinne des projection-pursuit-Ansatzes kombiniert, der
ausschließlich sensitiv ist gegenüber multimodalen Komponenten der
vorgegebenen Dichte. Die entstandene Methode der NonGaussian Clustering
Analysis wurde als Dimensionsreduktion vor einer Metastabilitätsanalyse auf
der Basis von Hidden-Markov Modellen verwendet, was einen nahezu vollständig
geometrischen Zugang zur Metastabilitätsanalyse bedeutet. Ein Vergleich
verschiedener, und gegenwärtig populärer Methoden mit NCA zeigt, daß letztere
besser als jene geeignet ist, Clusterstrukturen in hochdimensionalen
Datensätzen zu detektieren. Insbesondere weist die gut ausgeprägte Separation
der reduzierten Daten in Cluster bei verschiednen Simulationen von
Biomolekülen darauf hin, daß die Dimensionsreduktion die der
Metastabilitätsanalyze zugrunde liegende Markovannahme approximativ erhält.
de
dc.format.extent
XVI, 144 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
reduction of dimensionality
dc.subject
model reduction
dc.subject
variable selection
dc.subject
structural adaptation
dc.subject
semidefinite programming
dc.subject.ddc
500 Naturwissenschaften und Mathematik
dc.title
Semi-Parametric Reduction of dimensionality
dc.contributor.contact
diederic@math.fu-berlin.de
dc.contributor.firstReferee
Prof. Christof Schütte, Freie Universität Berlin
dc.contributor.furtherReferee
Prof. Vladimir Spokoiny, Weierstraß-Institut Berlin (WIAS)
dc.date.accepted
2009-07-31
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000014432-7
dc.title.subtitle
statistical detection of rare events in molecular dynamics
dc.title.translated
Semi-Parametrische Reduktion der Dimensionalität
de
dc.title.translatedsubtitle
Statistische Detektion seltener Ereignisse in der Molekueldynamik
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000014432
refubium.mycore.derivateId
FUDISS_derivate_000000006676
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access