Statistische Methoden
Optimale Nutzung von Sequenzdaten zur Aufklärung der genetischen Architektur komplexer Merkmale
Christian Stricker, Chris-Carolin Schön
Laufzeit: 01.11.2016 - 31.10.2019
Projektpartner: Martin Schlather, Universität Mannheim
Förderung: Deutsche Forschungsgemeinschaft (DFG)
Projektbeschreibung:
Im Zeitalter der Hochdurchsatz-Genotypisierung und Sequenzierung stehen uns heute für eine Vielzahl von Spezies genomische Daten in bisher nicht vorstellbarem Umfang zur Verfügung. Es gilt nun, diese Daten zusammen mit vorliegenden phänotypischen Informationen und Abstammungsdaten optimal für die Aufklärung genetischer Mechanismen, die komplex vererbten Merkmalen zugrunde liegen, zu nutzen. Da bei der Verwendung der Hochdurchsatz-Daten die resultierenden statistischen Schätzmodelle massiv überparametrisiert sind, ist die Entwicklung geeigneter statistischer Verfahren notwendig. Im Kontext der genombasierten Vorhersage von Zuchtwerten wurden verschiedene Bayesianische Methoden vorgeschlagen, die es erlauben alle Regressoren in die Vorhersage einzubeziehen. Inwieweit diese Methoden sich eignen, Aussagen über unbekannte Parameter des Modells zu treffen, ist jedoch weitgehend ungeklärt.
Das Ziel dieses Vorhabens ist es, optimale statistische Methoden zur Identifizierung funktionaler Variation in hoch-dimensionalen Sequenzdatensätzen vorzuschlagen. Dazu sollen Methoden, die sich in ihren Priori-Annahmen unterscheiden, im Hinblick auf Präzision und Robustheit der Schätzung von Marker-Effekten untersucht werden. Weiterhin sollen die Modelle auf der Basis von bioinformatischem und biologischem Vorwissen durch Aggregation von Prädiktoren merkmalsspezifisch angepasst werden. Um die optimale Implementierung der vorgeschlagenen Methoden zu gewährleisten, sollen an die hier spezifizierten Fragestellungen angepasste Algorithmen entwickelt und ihre Güte untersucht werden. An einem experimentellen Datensatz bestehend aus mehr als 1000 Arabidopsis Linien, für die qualitativ hochwertige Sequenz- und phänotypische Daten vorliegen, soll beurteilt werden, inwieweit sich die untersuchten statistischen Methoden dazu eignen, Schlussfolgerungen über die genetische Architektur eines Merkmals zu ziehen. Die statistisch identifizierten genomischen Regionen, Marker-Effekte und ihr Anteil an der genetischen Varianz sollen mit dem bei Arabidopsis weitreichenden biologischen Kenntnisstand verglichen werden. Die Ergebnisse dieses Vorhabens werden dazu dienen, mittels optimaler statistischer Methoden die bereits vorhandenen und beständig wachsenden genomischen und phänotypischen Datenmengen effizient für die Erklärung der genetischen Architektur komplexer Merkmale und der ihr zugrunde liegenden genetischen Mechanismen zu nutzen.