Efficient Sparse-Group Bayesian Feature Selection for Gene Network Reconstruction

Steiger, Edgar

Efficient Sparse-Group Bayesian Feature Selection for Gene Network Reconstruction

Metadaten

dc.contributor.author

Steiger, Edgar

dc.date.accessioned

2018-08-22T12:14:16Z

dc.date.available

2018-08-22T12:14:16Z

dc.date.issued

2018

dc.identifier.uri

https://refubium.fu-berlin.de/handle/fub188/22758

dc.identifier.uri

http://dx.doi.org/10.17169/refubium-555

dc.description.abstract

Die Gesamtheit der Gene eines Organismus ist verwoben in einem ausgeklügelten Netzwerk von Interaktionen. Viele dieser Interaktionen sind unbekannt, aber das Wissen um die genaue Gennetzwerkstruktur ist unter anderem wichtig für medizinische Anwendungen. Das unterstreicht die Dringlichkeit, aus experimentellen Genexpressionsdaten das zugrundeliegende Gennetzwerk zu rekonstruieren, auch für sehr große Netzwerke mit vielen Genen. Gennetzwerkrekonstruktion kann als ein Problem von Variablenselektion in linearer Regression aufgefasst werden. Wir nehmen als zusätzliche Information über das Netzwerk (wie z.B. das gemeinsame Binden von Transkriptionsfaktoren) eine Gruppierung der Variablen hinzu. Die bisher verfügbaren Methoden für Variablenselektion mit Gruppierung haben verschiedene Nachteile: "Lasso" und seine Abwandlungen setzen die Regressionskoeffizienten zu gering an und nutzen die Gruppierungsinformation nicht voll aus, Bayes'sche Ansätze benutzen meist das langsame Gibbs-Sampling, um Parameter zu bestimmen, dies verhindert ihren Einsatz für die Gennetzwerkrekonstruktion. Wir präsentieren hier eine Bayes'sche Methode für Variablenselektion mit Gruppierungsinformation, die Spärlichkeit in den Koeffizienten zwischen und innerhalb von Gruppen durchsetzt, und außerdem die Parameter mit einem deterministischen und schnellen Algorithmus bestimmt ("Expectation Propagation"). Wir wenden unsere neue Methode für die Gennetzwerkrekonstruktion an und erweitern sie auch auf das vektorautoregressive Modell für Zeitreihendaten. Wir zeigen auf simulierten und experimentellen Daten, dass aus drei Gründen der Bayes'sche Ansatz die beste Wahl für Netzwerkrekonstruktion ist: die höchste Zahl an korrekt identifizierten Variablen, beste Voraussagekraft auf neuen Daten und eine angemessene Rechendauer. Weiterhin zeigen wir, dass auch auf Zeitreihendaten der Bayes'sche Ansatz den Lasso-Methoden überlegen ist, wobei die Resultate mit einem linearen Modell auf experimentellen Zeitreihendaten generell weniger belastbar sind. Darüber hinaus ist unsere neue Methode nicht nur auf die Rekonstruktion von Gennetzwerken beschränkt, sondern kann auf jedes Variablenselektionsproblem angewendet werden, bei dem eine Gruppierung der Variablen vorliegt.

dc.description.abstract

All the genes of an organism's genome build up an intricate network of connections between them. Many of these connections are unknown, but knowing about the structure of the network is important for e.g. medical applications. This leads to the problem of reverse engineering the (large-scale) gene regulatory network from gene expression data. Gene network reconstruction can be formulated as a problem of feature selection in a linear regression framework, and we include additional information (like co-binding of transcription factors) about the network with a grouping of features. Available methods for feature selection in the presence of grouping information have different short-comings: Lasso methods underestimate the regression coefficients and do not make good use of the grouping information, and Bayesian approaches often rely on the stochastic and slow Gibbs sampling procedure to recover the parameters, which makes them infeasible for gene network reconstruction. Here we present a Bayesian method for feature selection with grouping information (with sparsity on the between- and within group level), where the parameters are recovered by a deterministic algorithm (expectation propagation). This sparse-group framework is applied to (large-scale) gene network reconstruction from gene expression data and extended to the vector autoregressive model for time series data. We prove (on simulated and experimental data) that the Bayesian approach is the best choice for network reconstruction for three reasons: Highest number of correctly selected features, best prediction on new data and reasonable computing time. We show that a Bayesian approach to feature selection is superior to lasso methods on time series data. Results on experimental temporal data are inconclusive for the linear model. Finally we note that the presented method is very fundamental and not restricted to the reconstruction of gene regulatory networks, but can be applied to any feature selection problem with grouped features.

dc.format.extent

xi, 115 Seiten

dc.language

ger

dc.language

eng

dc.rights.uri

http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen

dc.subject

feature selection

dc.subject

spike-and-slab

dc.subject

networks

dc.subject

gene network reconstruction

dc.subject

expectation propagation

dc.subject

Variablenselektion

dc.subject

statistics

dc.subject

Statistik

dc.subject

Netzwerkrekonstruktion

dc.subject

Bayes

dc.subject.ddc

500 Natural sciences and mathematics::510 Mathematics::519 Probabilities and applied mathematics

dc.title

Efficient Sparse-Group Bayesian Feature Selection for Gene Network Reconstruction

dc.type

Dissertation

dcterms.format

Text

dc.contributor.gender

male

dc.contributor.firstReferee

Vingron, Martin

dc.contributor.furtherReferee

Herzel, Hanspeter

dc.date.accepted

2018-07-20

dc.identifier.urn

urn:nbn:de:kobv:188-refubium-22758-0

dc.title.translated

Gennetzwerkrekonstruktion mit effizienter Bayes'scher Selektion von gruppierten Variablen

refubium.affiliation

Mathematik und Informatik

dcterms.accessRights.dnb

free

dcterms.accessRights.openaire

open access

Zur Kurzanzeige

Das Dokument erscheint in:

Dissertationen FU

Dateien zu dieser Ressource

thesis-veroeffentlichung.pdf

Größe: 4.312MB

Format: PDF

Prüfsumme (MD5): 6f6287f10b36d7a74f469d224d4ef5b0

Öffnen

Efficient Sparse-Group Bayesian Feature Selection for Gene Network Reconstruction

Refubium - Repositorium der Freien Universität Berlin

Efficient Sparse-Group Bayesian Feature Selection for Gene Network Reconstruction

Metadaten

Das Dokument erscheint in:

Dateien zu dieser Ressource

Metadaten exportieren