Konsensussequenz

Als Konsensussequenz wird diejenige Sequenz von Nukleotiden oder Aminosäuren bezeichnet, welche in der Summe am wenigsten von einer gegebenen Menge von entsprechenden Mustersequenzen abweicht. Die genaue Beschaffenheit dieser Sequenz kann hierbei je nach Wahl des Abstandsmaßes, wie etwa Hamming- oder Levenshtein-Distanz, variieren.

Meist liegt der Erstellung einer Konsensussequenz die Annahme zugrunde, dass die gegebenen Sequenzen einen gemeinsamen evolutionären Ursprung haben oder ein Sequenzmotiv mit einer bestimmten biologischen Aufgabe repräsentieren, wobei es oft auch sinnvoll sein kann, mehrdeutige Konsensussequenzen zu formulieren.

Bei Nukleinsäuren können hierfür die Basensymbole der Nukleinsäure-Nomenklatur verwendet werden, also neben den eindeutigen Basensymbolen A,C,G,T,U auch beispielsweise R für eine beliebige Purinbase, Y für eine beliebige Pyrimidinbase oder N für ein beliebiges Nukleotid schlechthin.

In der Regel werden Konsensussequenzen heuristisch aus einem multiplen Sequenzalignment (MSA) erstellt. Im einfachsten Fall wird dasjenige Element in die Konsensussequenz aufgenommen, welches in der entsprechenden Spalte des MSA am häufigsten vorkommt.

Literatur

  • Rainer Merkl, Stephan Waack: Bioinformatik Interaktiv: Algorithmen und Praxis. Wiley-VCH Verlag GmbH, Weinheim 2003, ISBN 978-3-527-30662-6, S. 322 f.