Thesaurus

Ein Thesaurus (altgriechisch θησαυρόςthēsaurós, deutsch ‚Schatz, Schatzhaus‘; latinisiert thēsaurus, woher auch Tresor stammt) bzw. Wortnetz ist in der Dokumentationswissenschaft ein kontrolliertes Vokabular, dessen Begriffe durch Synonymie-Beziehungen miteinander verbunden sind. Die Bezeichnung wird auch für linguistische Thesauri oder wissenschaftliche Wortschatzsammlungen, auch Schatzkammern genannt, einer Sprache verwendet.

Allgemein

Als Thesaurus bezeichnet man ein Modell, das versucht, ein Themengebiet genau zu beschreiben und zu repräsentieren. Es besteht aus einer systematisch geordneten Sammlung von Begriffen, die in thematischer Beziehung zueinander stehen. Der Thesaurus ist ein kontrolliertes Vokabular, auch Attributwertebereich genannt, für das jeweils zu beschreibende Attribut. Es werden in erster Linie Synonyme, aber auch Ober- und Unterbegriffe verwaltet. Oft werden jedoch keine Antonyme (gegenteilige Begriffe) aufgeführt.

Beispiele:

  • Bild (Synonym: Abbild, Abbildung, Bildnis; Oberbegriff: Darstellung; Unterbegriff: Spiegelbild, Gemälde)
  • Tischler (Synonym: Schreiner; Oberbegriff: Handwerker, Holzberuf; Unterbegriff: Möbeltischler, Bautischler)

Thesauri sind eine Art von Begriffssystemen.[1]

Wenn Medien entsprechend bestimmter Thesauri indexiert wurden, kann bei der Mediensuche von Bilbiothekskatalogen, mithilfe dieser Thesauri die Suchergebnisse optimiert werden. So können zum Beispiel Schlagwörter herausgesucht werden, die das Suchergebnis konkretisieren, ausweiten oder die verwandte Ergebnisse anzeigen.[2]

Geschichte

Im allgemeinen Wortsinn bezeichnete es zunächst einen „Wissensspeicher“ wie beispielsweise ein Wörterbuch oder eine Enzyklopädie. 1572 erschien der fünfbändige Thesaurus Graecae Linguae von Henricus Stephanus (Henri Estienne), das zu seiner Zeit umfassendste Wörterbuch, erwähnt auch in den Tagebüchern des Samuel Pepys (Dezember 1661). Der vor allem im englischen Sprachraum einflussreiche, 1852 von Peter Mark Roget veröffentlichte Roget’s Thesaurus of English Words and Phrases rückte die Bedeutung des Begriffs in die Richtung eines linguistischen Thesaurus.[3] In diesem hat Roget zahlreiche Herausforderungen der Linguistik behandelt, wie Synonyme, Antonyme, Meronyme oder auch Äquivokation.[1]

Im Bereich des Information-Retrieval wurde der Begriff erstmals 1957 von Hans Peter Luhn verwendet, als in den 1950er-Jahren verschiedene Systeme zur Indexierung entwickelt wurden. Zu den ersten Thesauri, die in der Praxis zur Erschließung eingesetzt wurden, gehören das System von Du Punt (1959) und der Thesaurus of ASTIA Descriptors (1960). Ein einheitliches Format für Thesauri wurde 1967 mit dem Thesaurus of Engineering and Scientific Terms (TEST) vorgelegt. Aus den bereits von Anfang an entwickelten Regeln für den Aufbau von Thesauri entwickelten sich mit der Zeit allgemeine Standards, die die Form des klassischen Thesaurus zur Dokumentation festlegen. Dazu gehören die von Derek Austin und Dale entworfenen UNESCO’s Guidelines for the Establishment and Development of Monolingual Thesauri, deren Inhalte in den ISO-Standard 2788 (1986) einflossen.[3]

Thesaurus zur Dokumentation

Polyhierarchische Thesaurus-Relationen am Beispiel des Deskriptors Stomach Cancer der Medical Subject Headings 2005 mit allen seinen Oberbegriffen

In der Dokumentationswissenschaft hat sich der Thesaurus als geeignetes Hilfsmittel zur Sacherschließung und zum Auffinden von Dokumenten erwiesen. Dabei dienen Relationen zwischen den einzelnen Begriffen zum Auffinden bei der Indexierung (Vergabe von Schlagworten) und bei der Recherche. Im Gegensatz zu einem linguistischen Thesaurus enthält ein Thesaurus zur Dokumentation ein kontrolliertes Vokabular, d. h. eindeutige Benennungen (Deskriptoren) für jeden Begriff. Unterschiedliche Schreibweisen (Photo/Foto), Synonyme bzw. als gleichbedeutend behandelte Quasi-Synonyme, Abkürzungen, Übersetzungen etc. werden durch Äquivalenzrelationen miteinander in Beziehung gesetzt. Begriffe werden außerdem durch Assoziationsrelationen und hierarchische Relationen vernetzt.

Der Thesaurus dient als Dokumentationssprache zum Indexieren, Speichern und Finden von Dokumenten. Die Relationen ermöglichen es, bei der Indexierung und Recherche passende Benennungen für gesuchte Begriffe zu finden. Bei der Suche können Thesauri durch die automatische Erweiterung der Suchanfrage auf Synonyme und Unterbegriffe hilfreich sein.

Ein Thesaurus kann damit auch allgemein zur Begriffsklärung dienen und hat im besten Fall die Funktion einer Normdatei inne. Im Gegensatz zu einer monohierarchischen Tabelle oder Datenbank kann der Thesaurus eine polyhierarchische Struktur besitzen (d. h. ein Unterbegriff kann mehrere Oberbegriffe haben).

Die Thesaurusnormen DIN 1463-1 bzw. das internationale Äquivalent ISO 2788 sehen folgende Relationsarten und dazugehörige Abkürzungen vor:

Kürzel und Bezeichnung
DIN 1463-1ISO 2788
BFBenutzt fürUFUsed for
BSBenutze SynonymUSE/SYNUse synonym
OBOberbegriffBTBroader term
UBUnterbegriffNTNarrower term
VBVerwandter BegriffRTRelated term
SBSpitzenbegriffTTTop term

Die häufigsten Relationen in einem Thesaurus sind Äquivalenz-, Assoziations- und hierarchische Relationen.

In der Regel wird ein Element einer Äquivalenzrelation, also eine Benennung, als Vorzugsbenennung festgelegt. Die Nicht-Vorzugsbenennungen erhalten einen Verweis auf die ihnen äquivalente Vorzugsbenennung.

Beispiel:
Fahrzeug verweist auf die Unterbegriffe LKW und PKW.
Auto verweist auf die Vorzugsbenennung PKW und mit einer Assoziationsbeziehung („siehe auch“) auf LKW.

Thesaurus als Sammelwerk

Verschiedene Formen von Thesauri

Früher verstand man unter einem Thesaurus ein wissenschaftliches Sammelwerk mit dem gesamten Wortschatz einer Sprache. Bekannt sind unter anderem der Thesaurus Linguae Graecae und der Thesaurus Linguae Latinae. Bei diesen Werken handelt es sich genaugenommen um Wörterbücher.

Die ersten in der Elektronischen Textverarbeitung (EDV) verwendeten Thesauri waren ebenfalls einfache Wörterbücher, welche eingegebene Vokabeln mit enthaltenen Einträgen abgleichen und dem Anwender Rückmeldungen geben konnten. Die Rückmeldungen ließen sich zunächst nur für die Erkennung von einfachen Rechtschreibfehlern verwenden und konnten mit Suchläufen, später aber im Hintergrund ermittelt werden, was dem heutigen Standard entspricht. Ursprünglich entstanden die dazu benötigten Datenbanken aus manuell in Datenformat konvertierten Wort-Sammlungen, die für kommerzielle Programme zunächst fortlaufend durch den Hersteller ergänzt und mit Aktualisierungen an den Kunden ausgeliefert wurden. Mit dem Aufkommen von individuell durch den Benutzer ergänzbaren Worteinträgen entstand die Möglichkeit, große, quasi-kollaborative nutzerbasierte Plattformen zur Sammlung neuer Einträge zu verwenden, wobei die auf einem Server liegende Datenbank durch Rücksendung der individuellen Arbeitskopien von Thesauri verschiedener Benutzer kurzzeitig sehr stark wuchsen. Auch dabei war aber eine Handsichtung notwendig, um den Eintrag häufig falsch geschriebener und deshalb irrtümlich häufig eingesendeter falscher Vokabeln zu verhindern. Aufgrund des begrenzten Vokabulars jeder Sprache sind heute jedoch für die meisten Sprachen nahezu vollständige Datensätze verfügbar, die die jeweilige Sprache erschöpfend wiedergeben. Der Eintrag neuer Wörter entspricht heute nur noch dem natürlichen Wachstum der jeweiligen Sprachen.

Zeitgleich wurden die elektronischen Thesauri zu immer komplexeren Programmen weiterentwickelt, welche auch grammatikalische Regeln und Stilregeln kontrollieren sowie Synonyme anbieten können. An ihren Grenzbereichen geben moderne Thesauri heute auch Übersetzungshilfen und lassen Texte automatisch durchsichten, wobei der Anwender zuvor zahlreiche Optionen anwählen kann.

Interkulturelle Thesauri

Eine besondere Form der Thesauri bedient Eingabehilfen für Piktogramm-Schriften wie beispielsweise die Chinesische Schrift unter Verwendung einer westlichen Computer-Tastatur. Diese Schriftzeichen lassen sich wegen ihrer Vielzahl oft nicht auf praktisch handhabbaren Tastaturen abbilden, weshalb die Thesauri dem Anwender Zeichen vorschlagen, die dann von ihm angenommen oder abgelehnt werden können.

So gibt es für die Eingabe japanischer oder chinesischer Schriftzeichen zahlreiche Methoden, die Silben oder Abkürzungen nach thesauriden Datenbankeinträgen in Schriftzeichen umwandeln. Von diesen Methoden konnte sich jedoch bislang keine standardisiert durchsetzen, weil die asiatischen Schriftsprachen sehr komplex aufgebaut sind und die Bedeutung der Zeichen oftmals kontextabhängig ist.

Der Lernaufwand zur Nutzung dieser Thesauri-basierten Programmlösungen ist für Asiaten extrem hoch, und native Sprecher benutzen meist nur jeweils eine Softwarelösung, mit der sie akzeptabel hohe Schreibgeschwindigkeiten erreichen können, welche jedoch hinter der der lateinischen Buchstabenschrift weit zurückbleibt. Lateinische Schreiber schreiben wesentlich schneller als asiatische, obwohl die Lesegeschwindigkeit bei Piktogrammschriften für kundige Leser höher ist als bei lateinischen Schriften. Einem einheitlichen Thesaurus für Piktogrammschriften stehen traditionelle, konzeptionelle und syntaktische Probleme entgegen.

Linguistische Thesauri

In einem linguistischen Thesaurus sind statt Begriffen Wörter ähnlicher und verwandter Bedeutung durch Verweise verknüpft. Diese Art von lexikalisch-semantisch organisiertem Nachschlagewerk kann unter anderem als Formulierungshilfe benutzt werden. Es gibt Nachschlagewerke dieser Art in gedruckter Form[4] oder in elektronischer Form, hier zumeist als Hintergrundressource von Textverarbeitungsprogrammen.

Beispiele

Siehe auch

Literatur

  • ISO/FDIS 25964-1: Information and documentation — Thesauri and interoperability with other vocabularies — Part 1: Thesauri for information retrieval, 2011-04
  • Guidelines for the construction, format, and management of monolingual Controlled Vocabularies (ANSI/NISO Z39.19-2005) (PDF; 2 MB)
  • Leonard Will: Publications on thesaurus construction and use. (online)
  • Gernot Wersig: Thesaurus-Leitfaden: eine Einführung in das Thesaurus-Prinzip in Theorie und Praxis. 2. erg. Aufl., Saur, 1985, ISBN 3-598-21252-6
  • Bulitta Erich und Hildegard: Wörterbuch der Synonyme und Antonyme. 18.000 Stichwörter mit 200.000 Worterklärungen. Krüger Verlag, Frankfurt am Main 1983, Fischer Taschenbuch, 5. Auflage, 2011
  • The Thesaurus: Review, Renaissance, and Revision. Haworth, 2004, ISBN 0-7890-1978-7 / ISBN 0-7890-1979-5 (entspricht der Ausgabe 3/4, Jahrgang 37, 2004 der Fachzeitschrift Cataloging & Classification Quarterly)
  • Bettina Brühl: Thesauri und Klassifikationen. Naturwissenschaften – Technik – Wirtschaft. 1. Aufl., Verlag für Berlin-Brandenburg, 2005, ISBN 3-935035-63-2

Weblinks

Wiktionary: Thesaurus – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise

  1. a b Sebastian Gabler: Thesauri – a Toolbox for Information Retrieval. In: Bibliothek Forschung und Praxis. Band 47, Nr. 2, 30. September 2023, ISSN 1865-7648, S. 189–199, doi:10.1515/bfp-2023-0003 (degruyter.com [abgerufen am 12. Januar 2024]).
  2. Recherchetipp: Was ist ein Thesaurus? In: www.wiso.uni-hamburg.de. 24. April 2018, abgerufen am 17. Januar 2024.
  3. a b Jean Aitchison, Stella Dextre Clarke: The Thesaurus: A Historical Viewpoint, with a Look to the Future. In: Cataloging & Classification Quarterly 37, 3/4, 2004, S. 5–21.
  4. Duden. Das Synonymwörterbuch. Ein Wörterbuch sinnverwandter Wörter. 4. Auflage. Dudenverlag, Mannheim/Leipzig/Wien/Zürich 2006. ISBN 978-3-411-04084-1

Auf dieser Seite verwendete Medien

MeSH-example.svg
Autor/Urheber: Der ursprünglich hochladende Benutzer war Nichtich~commonswiki auf Wikimedia Commons, Lizenz: CC BY-SA 3.0
Example of the relations in Medical Subject Headings.