The goal of this work is to deploy a primer search tool (PriSeT) suitable for taxonomically broad, sparse, and uncurated datasets of reference sequences. I discuss the theoretical and practical challenges when sequence datasets are large. Uncurated online reference databases are often the only source available when designing new primer sequences, studying the effectiveness, and for species identification. As a case study, two different identification methods for planktonic microorganisms from freshwater samples are presented: identification via light microscopy and DNA sequencing. The sequencing approach will replace the manual method to a large extent, but still needs to be improved and requires many costly trial-and-error iterations. The robust primer search tool PriSeT is here developed and designed to shorten the optimization time and to facilitate new types of in silico analyses. I evaluate PriSeT on 18S rRNA genes from all major plankton clades and on whole RNA genomes. The resulting primer sequences are compared to published primer pairs. Finally, the workflow of an academic research group planning and conducting metabarcoding experiments is critically reviewed. I present a database schema designed to summarize key information and enable researchers to be more productive in less time. The scheme also alleviates new types of meta-analysis that are not possible when data are scattered, such as quantitative and qualitative comparisons between different studies.
In diesem Beitrag entwerfe ich ein Primer-Suchwerkzeug (PriSeT), das sich für taxonomisch breite, aber unkuratierte Sequenzdatensätze eignet. Ich erörtere die theoretischen und praktischen Herausforderungen, die damit verbunden sind. Große und unkuratierte Online- Sequenzdatenbanken sind oft die einzige verfügbare Quelle um neue Primer-Sequenzen zu entwickeln, ihre Wirksamkeit zu untersuchen oder Arten zu identifizieren. In einer Fallstudie betrachte ich zwei verschiedene Identifizierungsmethoden für Plankton aus Süßwasserproben: Identifizierung mit dem Lichtmikroskop und DNA-Sequenzierung. Der letztere Ansatz wird die manuelle Methode weitgehend ersetzen, erfordert aber viele kostspielige Iterationen. Das robuste Primersuchwerkzeug PriSeT wurde entwickelt, um die Zeit für die Sequenzoptimierung zu verkürzen und neue Arten von in silico Analysen zu ermöglichen. Ich evaluiere PriSeT an 18S rRNA-Genen aus allen wichtigen Planktonkladen und an ganzen RNA-Genomen. Die berechneten Primer-Sequenzen werden mit veröffentlichten Primer-Paaren verglichen. Schließlich wird der Arbeitsablauf einer akademischen Forschungsgruppe, die Metabarcoding-Experimente plant und durchführt, kritisch betrachtet. Ich stelle ein Daten- bankschema vor, das die wichtigsten Informationen zusammenfasst und es den Forschern ermöglicht, in kürzerer Zeit produktiver zu arbeiten. Das Schema erleichtert auch neue Arten von Meta-Analysen, die nicht möglich sind, wenn die Daten verstreut sind.