Mammalian Tfcp2l1 and Tfcp2 are grouped into the CP2 subfamily of the grainyhead/CP2 (Grh/CP2) transcription factors involved in pluripotency maintenance and self-renewal of embryonic stem cells. In addition, Tfcp2l1 has been implicated in a variety of cancers such as breast cancer, thyroid cancer, and clear cell renal cell carcinoma. Recent studies also reveal that the mammalian transcription factors Grhl1 and Grhl2 display a similar tertiary structure as the tumor suppressor TP53, although the protein sequences share only 10% identical residues. Despite the conserved tertiary structure, Grhl1/2 and TP53 have a different mode of DNA binding. This thesis presents structures of the ligand-free Tfcp2l1 and Tfcp2 DNA-binding domains (DBDs) and the DNA-bound Tfcp2l1 DBD. These structures provide insight into protein DNA recognition. The Tfcp2l1 DBD and Tfcp2 DBD structures are similar, and they belong to the immunoglobulin- (Ig-) like fold, which is shared by the Grhl1/2 DBD structures. The study confirmed that the DBD structure is highly conserved within the Grh/CP2 family. Tfcp2l1 DBD binds to a 12-mer target DNA fragment in a parsimonious binding mode, which is similar to the Grhl1-DBD:DNA complex. The specific contacts performed by residues Arg225 and Gly183 interacting with guanosine G8 supply the selectivity of protein DNA recognition. Unspecific contacts play an additional role in anchoring the protein to DNA via residue interaction with DNA phosphate groups. Tfcp2l1 DBD prefers to bind to the AAAAC5CGG8TTTT sequence rather than the C5CAG8 sequence. The conserved nucleotides cytosine C5 and guanosine G8 of the duplex DNA play a primary role in the readout of the DNA sequence by the protein, and the DNA shape supplies additional selectivity for Tfcp2l1 to readout the DNA sequence. The conformation of the target DNA may fine-tune the protein:DNA interaction. The SAM domain of Tfcp2l1 is involved in protein tetramerization, and Tfcp2l1 binds to the DNA sequence of AAACCAGN6CCAGTTT in a mode of four DBDs binding to two consensus DNA motifs. The spacing of the CCAG core motifs recognized by Tfcp2l1 is not fixed at 6 bps, but may be reduced to 5 bps without generating spatial clashes. The work described in this thesis reveals the mechanism of target DNA recognition by CP2 subfamily transcription factors. Crystal structure analyses and biophysical experiments provide insight into protein:DNA interaction involving CP2 factors and open up novel avenues for diagnosis and therapies of various epithelial cancers and kidney diseases.
Tfcp2l1 und Tfcp2 aus Säugern werden der CP2-Unterfamilie der Grainyhead/CP2 (Grh/CP2) Transkriptionsfaktoren zugeordnet, die an der Pluripotenzerhaltung und Selbsterneuerung embryonaler Stammzellen beteiligt sind. Darüber hinaus wurde Tfcp2l1 mit einer Vielzahl von Krebsarten wie Brustkrebs, Schilddrüsenkrebs und klarzelligem Nierenzellkarzinom in Verbindung gebracht. Neuere Studien zeigen auch, dass die Säuger-Transkriptionsfaktoren Grhl1 und Grhl2 eine ähnliche Tertiärstruktur aufweisen wie der Tumorsuppressor TP53, obwohl die Proteinsequenzen nur 10% identische Reste aufweisen. Trotz der konservierten Tertiärstruktur weisen Grhl1/2 und TP53 einen unterschiedlichen DNA-Bindungsmodus auf. Diese Arbeit präsentiert Strukturen der ligandenfreien Tfcp2l1- und Tfcp2-DNA-Bindungsdomänen (DBDs) und der DNA-gebundenen Tfcp2l1-DBD. Diese Strukturen geben einen Einblick in die Protein-DNA-Erkennung. Die Tfcp2l1-DBD- und Tfcp2-DBD-Strukturen sind ähnlich und weisen eine Immunglobulin- (Ig-) ähnliche Faltung auf, die von den Grhl1/2-DBD-Strukturen geteilt wird. Die Studie bestätigte, dass die DBD-Struktur innerhalb der Grh/CP2-Familie hoch konserviert ist. Tfcp211 DBD bindet an ein 12-mer DNA-Zielfragment in einem „sparsamen“ Bindungsmodus, der dem Grhl1-DBD:DNA-Komplex ähnelt. Die spezifischen Kontakte, die von den mit Guanosin-G8 wechselwirkenden Resten Arg225 und Gly183 ausgebildet werden, bestimmen die Selektivität der Protein-DNA-Erkennung. Unspezifische Kontakte spielen eine zusätzliche Rolle bei der Verankerung des Proteins an DNA über die Wechselwirkung von Resten mit DNA-Phosphatgruppen. Tfcp211 DBD bindet bevorzugt an die AAAAC5CGG8TTTT-Sequenz anstatt an die C5CAG8-Sequenz. Die konservierten Nukleotide Cytidin C5 und Guanosin G8 der Duplex-DNA spielen eine Hauptrolle beim Auslesen der DNA-Sequenz durch das Protein, und Geometrie der DNA bietet zusätzliche Selektivität für Tfcp2l1 beim Auslesen der DNA-Sequenz. Die Konformation der Ziel-DNA kann die Protein:DNA-Interaktion feinsteuern. Die SAM-Domäne von Tfcp2l1 trägt entscheidend zur Tetramerisierung des Proteins bei, und Tfcp2l1 bindet an die DNA-Sequenz von AAACCAGN6CCAGTTT in einem Modus von vier DBDs, die an zwei Konsensus-DNA-Motive binden. Der Abstand der von Tfcp2l1 erkannten CCAG-Kernmotive ist nicht strikt auf 6 bps festgelegt, sondern kann auf 5 bps reduziert werden, ohne räumliche Kollisionen zu erzeugen. Die in dieser Dissertation beschriebene Arbeit enthüllt den Mechanismus der Ziel-DNA-Erkennung durch Transkriptionsfaktoren der CP2-Unterfamilie. Kristallstrukturanalysen und biophysikalische Experimente geben Einblicke in die Protein-DNA-Interaktion mit CP2-Faktoren und eröffnen neue Wege für Diagnose und Therapie verschiedener epithelialer Krebsarten und Nierenerkrankungen