dc.contributor.author
Bömmel, Alena van
dc.date.accessioned
2018-06-07T23:43:17Z
dc.date.available
2015-04-10T12:23:45.860Z
dc.identifier.uri
https://refubium.fu-berlin.de/handle/fub188/10881
dc.identifier.uri
http://dx.doi.org/10.17169/refubium-15079
dc.description.abstract
One of the key questions in molecular biology is how cells with the same
genetic code are able to differentiate into a large variety of cell types. The
differentiation of the cell is controlled through the regulation of gene
expression - a cellular mechanism that activates only a specific part of the
genetic information. One of the main factors of the gene regulatory mechanisms
are specific proteins called transcription factors (TFs). TFs bind with
sequence preferences to regulatory regions in the DNA to control the
expression of their target genes. They usually do not act alone but in a
combinatorial manner, thus regulating cell-type-specific gene expression. This
combinatorial cooperation of TFs is critical for the achievement of the cell
type specificity of the cell. But, the experimental techniques that are able
to detect the combinatorial cooperation of TFs on the DNA are sparse. The aim
of this thesis is to predict co-occurrence of TFs in the regulatory genomic
regions using estimated binding affinity of TFs to DNA. In detail,
transcription factors are represented by ranked lists of their target genes,
and then several rank based statistics are applied to detect significant
associations between TF pairs. In the second part, tissue-specific co-
occurrence of TFs is assessed, which is of much larger interest than general
TF co-occurrence. Including additional information about tissue specificity of
the corresponding genomic regions led to introducing a third dimension (or
third ranked lists) for the association measure. Thus, the problem of the
association of two TFs in tissue-specific promoters is translated into a 3-way
contingency table. Then, the significance of the association of the two TFs
can be assessed with the corresponding statistical tests. However, the choice
of the correct null model in the table has a major impact on the obtained
results. Since there is no general rule how to choose the underlying null
model in the analysis of the TF co-occurrence we developed a new strategy to
select the most appropriate model. These results were previously published
(Myšicková and Vingron, 2012). We then use the newly available experimental
results of the DNA accessibility assessed by DNase-seq technique over many
different cell types. This novel data set requires a new method to find
associated TFs. Here, we define a log ratio of two p-values of Fisher’s exact
test: the first one is derived from cell-type-specific open DNase-
hypersensitive sites (CTS-DHSs); the second one is derived from ubiquitous
open DHSs. Thus, TF pairs with a large log ratio are strongly associated in
the CTS-DHSs but not associated in the ubiquitous DHSs. With this approach we
ensured that the predicted associated TF pairs co-occur in a cell-type-
specific manner. With both methods, we are able to predict a large number of
co-occurring TF pairs in various human tissues. The predicted co-occurring TF
pairs are in significant agreement with other computational studies and are
enriched for known protein-protein interactions. In addition, roughly one
third of the predicted TFs have a known regulatory function in the related
tissue or cell type. Thus, these results indicate that our predicted co-
occurring TF pairs are very likely to be functional in the corresponding cell
types. In summary, this study provides new insights into the combinatorial
gene regulation by transcription factors and presents new application of the
rank-based methods to predict associated transcription factor pairs in cell
type-specific manner.
de
dc.description.abstract
Eine der wichtigsten Fragen in der Molekularbiologie ist, wie die Zellen eines
höheren Organismus mit einer identischen genetischen Information in eine große
Vielfalt von unterschiedlichen Zelltypen differenzieren. Die
Zelldifferenzierung wird durch die zellspezifische Regulierung von Genen
gesteuert. Dabei wird nur ein bestimmter Teil der genetischen Information
aktiviert, sodass nur die benötigte Proteine produziert werden. Eine der
wichtigsten Komponenten in der Genregulation sind die Transkriptionsfaktoren.
Diese DNA-bindende Proteine können die Expression ihrer Zielgene steuern. Die
Transkriptionsfaktoren agieren jedoch selten einzeln, sondern wirken mit
anderen Faktoren zusammen, um eine hohe kombinatorische Vielfältigkeit zu
erreichen. Das kombinatorische Zusammenspiel zwischen Transkriptionsfaktoren
experimentell nachzuweisen ist jedoch sehr kompliziert. Das Ziel dieser Arbeit
ist es, das kombinatorische Auftreten von Transkriptionsfaktorpaaren in den
regulatorischen Abschnitten der DNA vorherzusagen. Als Grundlage dafür werden
die zugrundeliegende DNA-Sequenz und die berechnete Bindungsaffinität der
Faktoren zu der Sequenz verwendet. Für die Vorhersage wird jeder
Transkriptionsfaktor als eine Liste der regulatorischen Abschnitte
repräsentiert, die gemäß der Bindungsaffinität geordnet ist. Mit Hilfe dieser
Listen können rangbasierte Maße für die Assoziationsbestimmung verwendet
werden. Im zweiten Teil der Arbeit wird das gemeinsame Vorkommen der
Transkriptionsfaktorpaare in zelltypspezifischer Weise vorhergesagt. Durch die
Zelltypinformation wird in die Analyse eine dritte Dimension eingeführt. Um
die assoziierten Transkriptionsfaktorpaare in den gewebespezifischen
Promotoren zu finden, werden die dreidimensionale Kontingenztabellen und die
dazugehörigen statistische Tests verwendet. Diese Ergebnisse wurden 2012
veröffentlicht (Myšicková and Vingron, 2012). Als nächstes werden die
assoziierten Transkriptionsfaktorpaare in den zelltypspezifisch offenen
regulatorischen Abschnitten vorhergesagt, die mit Hilfe der DNase I-Verdauung
und Sequenzierung (DNase-seq) bestimmt wurden. Die neuartigen DNase-seq Daten
erfordern eine neue Methode, um die assoziierten Paare zu finden. Dazu wird
ein Verhältnis von zwei p-Werten des exakten Fisher-Tests definiert: der erste
p-Wert wird von den zelltypspezifisch offenen Abschnitten und der zweite
p-Wert von den ubiquitär offenen Abschnitten abgeleitet.
Transkriptionsfaktorpaare mit einem signifikant hohen Verhältnis treten
wahrscheinlicher gemeinsam in den zelltypspezifischen Abschnitten auf als in
den ubiquitären Abschnitten. Die vorhergesagten zelltypspezifischen
Transkriptionsfaktorpaare stimmen mit Vorhersagen von anderen Methoden
überein. Zudem sind sie angereichert mit bekannten Protein-Protein-
Interaktionen. Ferner hat etwa ein Drittel der Faktoren eine bekannte Funktion
in dem jeweiligen Zelltyp. Dies deutet darauf hin, dass die vorhergesagten
Transkriptionsfaktorpaare tatsächlich eine regulatorische Funktion in dem
jeweiligen Zelltyp haben. Zusammengefasst liefert diese Arbeit neue
Erkenntnisse über die kombinatorische Genregulation durch
Transkriptionsfaktoren und präsentiert neue Anwendung der rangbasierten
Methoden zur Vorhersage assoziierter Transkriptionsfaktorpaare in
zelltypspezifischer Weise.
de
dc.format.extent
X, 169 S.
dc.rights.uri
http://www.fu-berlin.de/sites/refubium/rechtliches/Nutzungsbedingungen
dc.subject
computational biology
dc.subject
gene regulation
dc.subject
rank statistics
dc.subject
transcription factor
dc.subject
contingency table
dc.subject.ddc
500 Naturwissenschaften und Mathematik::510 Mathematik::519 Wahrscheinlichkeiten, angewandte Mathematik
dc.subject.ddc
500 Naturwissenschaften und Mathematik::570 Biowissenschaften; Biologie::576 Genetik und Evolution
dc.title
Prediction of transcription factor co-occurrence using rank based statistics
dc.contributor.firstReferee
Vingron, Martin
dc.contributor.furtherReferee
Boulesteix, Anne-Laure
dc.date.accepted
2015-02-27
dc.identifier.urn
urn:nbn:de:kobv:188-fudissthesis000000099081-7
dc.title.translated
Vorhersage des gemeinsamen Auftretens von Transkriptionsfaktoren mit Hilfe von
rangbasierten Statistiken
de
refubium.affiliation
Mathematik und Informatik
de
refubium.mycore.fudocsId
FUDISS_thesis_000000099081
refubium.mycore.derivateId
FUDISS_derivate_000000016878
dcterms.accessRights.dnb
free
dcterms.accessRights.openaire
open access