Sequenzdatenbank

Im Bereich der Bioinformatik speichern und verwalten Sequenzdatenbanken Sammlungen von DNA-, RNA- oder Proteinsequenzen mit Hilfe des Computers. Eine Biochemie-Datenbank kann unter anderem Sequenzen eines einzelnen Organismus, z. B. alle Proteine der Hefe Saccharomyces cerevisiae, oder DNA-Sequenzen aller Organismen enthalten, deren Genom sequenziert wurde. In Datenbanken kann man auf verschiedene Art und Weise nach Informationen suchen: Am häufigsten ist die Suche nach DNA- oder Proteinsequenzen, die einer bereits bekannten Sequenz ähneln. Das Programm BLAST ermöglicht eine solche Abfrage.

Das größte Problem der riesigen Sequenzdatenbanken besteht darin, dass Einträge von vielen verschiedenen Quellen stammen, von individuellen Forschern bis hin zu großen Genomsequenzierungszentren. Die Qualität der Sequenzen selbst sowie der zugehörigen biologischen Annotationen variiert daher beträchtlich. Des Weiteren treten sehr häufig Redundanzen auf, da viele Labore zahlreiche Sequenzen einreichen, die identisch oder fast identisch mit bereits abgelegten Einträgen sind.

Viele Annotationen basieren zudem nicht auf Laborexperimenten, sondern auf den Ergebnissen von Ähnlichkeitsuntersuchungen (sequence similarity searches) mit vorher annotierten Sequenzen. Da eine auf diese Weise annotierte und in der Datenbank abgelegte Sequenz selbst die Grundlage zukünftiger Annotationen bilden kann, können zwischen einem bestimmten Datenbankeintrag und den tatsächlich aus einem Laborexperiment gewonnenen Information mehrere weitere Annotationen liegen. Man spricht auch vom transitive annotation problem, d. h. der Übertragung oder Weiterreichung der Annotationen. Deshalb müssen biologische Annotationen in den großen Sequenzdatenbanken mit einer gewissen Skepsis betrachtet werden, solange sie nicht entweder durch Referenzen auf einschlägige, hochwertige experimentelle Daten aus wissenschaftlichen Veröffentlichungen gestützt werden, oder durch Referenzen auf eine vom Menschen betreute Sequenzdatenbank (wie zum Beispiel Swiss-Prot).

Beispiele

  • GenBank (DNA-Datenbank)
  • UniProt (Protein-Datenbank)
  • GISAID (Sequenzdatenbank)