Taschenlehrbuch Biologie - Evolution - Oekologie
Hypothesen). Der Konsens-Baum aus diesen Bäumen liefert ungefähre Bayessche Wahrscheinlichkeiten für jede einzelne Kante. Aufgrund der Tatsache, dass auch Markov-Ketten-Verfahren nur heuristische Verfahren sind, sinddie Bayessche Wahrscheinlichkeiten nicht exakt ermittelbar. Erfahrungsgemäß stellen Bayessche Wahrscheinlichkeiten in der Phylogenetik zu optimistische Einschätzungen des tatsächlichen Informationsgehaltes der Daten dar. Der Vorteil Bayesscher gegenüber Likelihood-Verfahren liegt in ihrer Effizienz und Flexibilität. Eine Maximum-Likelihood-Rekonstruktion gekoppelt mit Bootstrapping kann durchaus Monate auf einem Rechnercluster in Anspruch nehmen, im Gegensatz zu Wochen bei einer Bayesschen Analyse.
Maximum-Likelihood- und Bayessche-Verfahren gehören mittlerweile zum Standard in der Analyse molekularer Sequenzdaten.
Daneben gibt es Techniken der Stammbaumrekonstruktion, die nicht unmittelbar merkmalsbasiert auf Verwandtschaftsverhältnisse zu schließen versuchen, das sind Distanz-Verfahren. Diese Ansätze übersetzen Merkmalsunterschiede zwischen Sequenzen in numerische Ähnlichkeitsunterschiede. Für ein Set an Sequenzen kann aus diesen Ähnlichkeitsmaßen eine Verwandtschaftshypothese abgeleitet werden. Mehrere alternative Techniken zur Rekonstruktion von Distanzbäumen wurden beschrieben, von denen die sogenannte Neighbour- Joining-Technik am verbreitetsten ist. Die Neighbour-Joining-Technik ermittelt aus relativen Distanzen der Taxa den besten Stammbaum durch sukzessives Verbinden der nächstbenachbarten Taxa oder Taxa-Gruppen. Das Prozedere ist beendet, wenn alle Taxa verbunden wurden. Distanz-Verfahren sind sehr (!) schnell, aber weniger zuverlässig.
Methodisch sind Distanz-Verfahren grundsätzlich mit Merkmals-basierten Verfahren nicht vergleichbar, funktionieren aber in vielen Fällen dennoch, weil auch in molekularen Daten Ähnlichkeiten in Abhängigkeit zum Grad der Verwandtschaft bis zu einem gewissen Punkt vorhanden sind. Distanz-Verfahren gewinnen in letzter Zeit wieder an Popularität aufgrund ihrer Geschwindigkeit, was sie für die Analyse von Datensätzen aus ganzen Genomen geeignet erscheinen lässt.
Alle gebräuchlichen phylogenetischen Rekonstruktionsverfahren liefern garantiert den korrekten Baum, wenn Merkmalsvariabilität durch einfache Prozesse generiert wurde. Leider ist dies unter natürlichen Bedingungen nicht der Fall, so finden sich z. B. unterschiedliche Substitutionsraten oder unterschiedliche Nucleotidzusammensetzungen in unterschiedlichen Arten. In dieser Situation können phylogenetische Rekonstruktionsverfahren falsche Ergebnisse mit hoher Zuverlässigkeit liefern. Die scheinbare Sicherheit der Rekonstruktion kann sogar mit zusätzlichen Merkmalen noch zunehmen, d. h. das Gegenteil dessen, was man durch die Erhöhung der Stichprobe erwarten würde. Man nennt dieses Verhalten der Rekonstruktionsverfahren statistisch inkonsistent . Dieses Problem wird bei der Bearbeitung sehr großer Datensätze evident.
Im allgemeinen werden molekulare Daten mit einem weit höheren Anteil von Automatisierung gewonnen als die traditionellen morphologischen Merkmale. Dies führt bis zur Sequenzierung ganzer Genome. Viele Labore führen routinemäßig die Sequenzierung von großen Teilen des Genoms bzw. Transkriptoms durch. Zurzeit (2008) befinden sich > 2400 Genome von Pro- und Eukaryoten in Arbeit. Es ist zu erwarten, dass eine weitere Verbesserung der Labortechniken durch routinemäßige Sequenzierung zu riesigen Datensätzen führen wird. Eine phylogenetische Analyse ganzer Genome eröffnet völlig neue Perspektiven für die vergleichende Genomforschung, Entwicklungsbiologie und allgemeiner Evolutionsbiologie. Die Analyse ganzer Genome bietet die Chance, zusätzlich neue Merkmale, wie Genanordnung, Genkomposition, Intronpositionen etc., in der Phylogenetik zu verwenden. Hier schlägt die molekulare Kladistik wieder eine methodische Brücke zu morphologischen Analysen.
Die große Masse an Daten kann dazu führen, dass die morphologischen Daten in den molekularen untergehen. Ein möglicher Ausweg ist es, die morphologischen (ethologischen, physiologischen, ökologischen) Daten stärker zu wichten als die molekularen, weil sie (eventuell) komplexer sind. In den Rechenverfahren werden Merkmale mit einem höheren Wert als 1 gewichtet, indem unterstellt wird, dass von einem Zustand zum anderen (z. B. von 0 nach 1) mehr als ein Schritt notwendig war. Das Gewicht entspricht also
Weitere Kostenlose Bücher