Mikroprosodie

Die Mikroprosodie ist ein Teilbereich der Prosodie und beschäftigt sich mit der Analyse mikroskopischer Variationen in der Amplitude und der Frequenz eines Sprachsignals. Untersucht werden dabei hauptsächlich die aus der Übertragungstechnik bekannten Effekte jitter und shimmer. Die Analyseergebnisse sind z. B. relevant in der Früherkennung von Kehlkopfkrankheiten oder in der Sprechererkennung.

Jitter und Shimmer in der Mikroprosodie

Shimmer bezeichnet die Überlagerung der Grundfrequenz eines Sprachsignals mit einem Rauschen, sodass Unregelmäßigkeiten in der Amplitude auftreten. Ein ähnlicher Effekt, welcher häufig zusammen mit shimmer auftritt, ist jitter, eine Unregelmäßigkeit in der Grundfrequenz bzw. der Periode eines Sprachsignals.

Shimmer

Shimmer ist definiert als die durchschnittliche Differenz (in dB) zwischen aufeinanderfolgenden Amplituden des Signals, wobei Amplitude ihrerseits als der mittlere Abstand zwischen zwei Frequenzmaxima verstanden wird. Der Durchschnittswert für den Shimmer der Stimme eines gesunden Menschen liegt zwischen 0,05 und 0,22 dB. (Nach Haji et al., 1986) Shimmer ist in Verbindung mit dem Elektroglottographen gut geeignet zur Erkennung von anormalen Stimmlippenvibration (besonders bei der heiseren Stimmen).

Jitter

Jitter ist definiert als die Mikrovariation der Grundfrequenz einer Stimme, auch F0 genannt. Bei pathologischen Veränderungen der Stimme nimmt das Ausmaß der Variation zu, insbesondere bei Krankheiten, welche die Symmetrie (also die Spannung oder die Masse) der Stimmbänder betreffen. Der Jitterwert ist zu Beginn und am Ende eines gehaltenen Tones besonders hoch.

Einführung

Bei einer lang gedehnten Äußerung eines Vokals fällt im Oszillogramm auf, dass die Grundfrequenz bzw. die Periode des Vokals nicht streng periodisch ist, sondern von kleinen Störungen und Unregelmäßigkeiten (Mikrovariationen) überlagert ist. So ist die Periode nicht immer gleich lang (jitter) und auch die Amplitude des Signals schwankt leicht (shimmer). Der Effekt tritt bei allen Menschen auf, nicht nur bei Menschen mit einer Stimmstörung. Durchschnittlich weicht das Signal um 2 % der durchschnittlichen Periode bzw. Amplitude ab. Höhere Abweichungen deuten auf eine krankhafte Störung des Kehlkopfes hin.

Veränderungen dieser Mikrovariationen unterhalb der 2 % Marke sind vom menschlichen Gehör schwer zu erkennen.

Mikroprosodie in anderen Bereichen

Automatischen Analysen der menschlichen Prosodie sollten Untersuchungen der Mikroprosodie vorausgehen, damit die Prosodieerkennung nicht verfälscht wird. Zudem spielt die Mikroprosodie eine wichtige Rolle in der Spracherkennung und der Sprachsynthese, da sie zu einer natürlichen Stimme beitragen und die Wiedererkennbarkeit erleichtern.

Siehe auch A-, B- und C-Prosodie

Ursachen der Mikrovariationen

Der Einfluss des Pulsschlags

Der Puls ist eine periodische Änderung der Blutzufuhr. Dies bewirkt eine periodische Volumensänderung der Stimmlippen und somit auch eine periodische, überlagerte Stimmlippenbewegung. Untersuchungen von Orlikoff/Baken zeigen, dass sich die Schwankungen der Grundfrequenz tatsächlich periodisch wiederholen, wobei die Periodendauer etwa dem zeitlichen Abstand zwischen den Pulsschlägen entspricht. In einer Studie von Orlikoff/Baken belief sich der Beitrag des Pulsschlags zum gesamten Jitter auf 0,5–20,0 %, bei Männern auf durchschnittlich 6,9 %, bei Frauen auf durchschnittlich 2,4 %, insgesamt also auf 4,6 %. Die Dauer betrug im Schnitt bei Männern 3,7 µs, bei Frauen 0,9 µs, also im Durchschnitt 2,3 µs. Vor allem betroffen ist der musculus thyroarytaenoideus (vocalis), der zwischen Schild- und Stellknorpeln verläuft. Dem Problem, dass die gehaltene Phonation eine Atemhalteübung darstellt und sich daher dabei auch der Herzschlag ändert, wurde dadurch entgegengewirkt, dass jeder Grundfrequenzwert relativ zum Grundfrequenz-Mittelwert (also pro Herzschlag) gesehen wurde.

Nervenimpulse

Das Auftreten von Nervenimpulsen resultiert in einer rhythmischen Kontraktion der Stimmbänder. Die Impulse in den motorischen Einheiten bewirken im musculus thyroarytaenoideus ein Zucken (für diesen Muskel wurde es genauer untersucht, ist aber laut Titze für andere laryngale Muskeln in ähnlicher Weise anzunehmen).

Der so entstehende Jitter ist abhängig von

  • der Anzahl der motorischen Einheiten (viele motorische Einheiten können das Zucken einer einzigen Einheit gewissermaßen „ausgleichen“)
  • der Frequenz der Impulse (der Jitter wird geringer, wenn mehr als 50 Reize pro Sekunde erfolgen, da dann dem Muskel nicht genug Zeit bleibt zu erschlaffen und es zu einer Dauerverkürzung (Tetanus) kommt.)
  • der Längenvariation der motorischen Einheiten (je unterschiedlicher die Längen der Muskelfasern, desto größer ist der Jitter, hier liegt ein exponentieller Zusammenhang vor.)
  • der Impulsvariation (wie bei Längenvariation)

Struktur der Stimmlippen

Eine weitere Erklärung für Jitter und Shimmer ist die Struktur der Stimmlippen oder ein sogenanntes inneres Vibrieren. Je kleiner und fester (rigid) die Stimmlippen sind, desto geringer ist demzufolge die Mikrovariation. Darauf deutet ebenfalls hin, dass der Jitter mit steigender Grundfrequenz – mit welcher die Stimmlippen immer stärker angespannt werden – abnimmt. Auch sind verschiedene Werte des Jitters bei unterschiedlichen Vokalen beobachtet worden (siehe Einfluss des Alters unten).

Einflüsse und Abhängigkeiten

Zungenbewegung

Der Kehlbereich ist ein hochkomplexes System aus Bändern, Knorpeln und Muskeln, auf das sogar weitentfernte Muskelpartien Einfluss haben (z. B. wirkt sich die Körperhaltung auf die Phonation aus). Dass sich die Jitter-Werte für verschiedene Vokale deutlich unterscheiden, liegt unter anderem auch an der variierten Zungenstellung und -bewegung.

Geschlecht

Die durchschnittlichen Jitter-Werte für Männer und Frauen unterscheiden sich zwar, jedoch ist dies höchstwahrscheinlich auf die allgemein höhere Grundfrequenz der weiblichen Probanden zurückzuführen. Das Geschlecht spielt somit keine Rolle.

Gesundheit

Larynxerkrankungen haben erhöhte Jitter- und Shimmerwerte zur Folge. Aber auch schon eine Erkältung kann das Sprachsignal wegen der Bewegung der relativ großen Menge Schleims auf den Stimmlippen beeinflussen.

Alter

Jüngere Menschen weisen geringere Mikrovariationen auf als ältere. Aber eine Studie von Linville (1987) zeigt, dass dabei zwischen den jeweiligen Vokalen zu differenzieren ist. Ältere Frauen weisen z. B. beim /a/ einen höheren Jitter als bei /i/ und /u/ auf, bei jüngeren Frauen verhält es sich genau umgekehrt.

Versuche und Messverfahren zur Bestimmung von Jitter und Shimmer

Eine Möglichkeit, den Jitter und Shimmer in Probandenversuchen zu bestimmen, sind Vokalhalteversuche. Hierbei müssen Versuchsteilnehmer einen Vokal bestimmter Lautstärke möglichst lange halten. Zielgruppen könnten Raucher vs. Nichtraucher, Sänger vs. Menschen ohne Gesangsausbildung oder Kehlkopferkrankte vs. gesunde Menschen sein. Die Probanden können ein visuelles Feedback über ein Voltmeter erhalten.

Diese Laborsituation hat den Vorteil, dass Koartikulation und prosodische Erscheinungen, wie sie z. B., in der gesprochenen Sprache auftreten, ausgeschlossen werden können.

Die Äußerungen können dann über ein Mikrofon digitalisiert werden. Bisweilen wird auch ein Elektroglottograph (EGG) verwendet, der sehr gut geeignet ist, Unregelmäßigkeiten der Stimmlippenvibration, insbesondere der Amplitude, anzuzeigen. Die EGG-Anzeige erleichtert die digitale Analyse; außerdem werden noch weitere Aspekte angezeigt, deren Bedeutung bisher nicht gänzlich geklärt ist (z. B. die Art u. Weise der Stimmlippenberührung).

Vor- und Nachteile der Mikroprosodiebestimmung als diagnostisches Mittel

Vorteile

Die Vorteile der Mikroprosodiebestimmung als diagnostisches Mittel bestehen zum einen in der angenehmen, da äußerlichen und nichtinvasiven Anwendung (es wird kein Gegenstand in den Rachenraum eingeführt), zum anderen in den relativ geringen Kosten (was die Gerätschaften und ihre Anwendung betrifft).

Nachteile

Die Bestimmung von Jitter und Shimmer erfolgt in der Forschung nicht immer ganz einheitlich. Verschiedene Messgeräte und unterschiedliche Analyse-Software können zu abweichenden Ergebnissen führen. Eine Studie von Karnell et al. (1991) zeigt dies sehr deutlich am Beispiel der voice-laboratories von Chicago, Denver und Pine Brook.

Formeln zum Jitter

  • Der prozentuale Jitter-Faktor (JF) (Hollien et al., 1973): die (durchschnittliche Abweichung von der Periodendauer * 100) geteilt durch die durchschnittliche Periodendauer des Signals
  • der Pitch Perturbation Quotient (PPQ) (Davis, 1976) als das Verhältnis der Summe von Periodendifferenzen mit einem gleitenden Periodenmittelwert zur mittleren Periodendauer
  • und der Directional Perturbation Factor (DPF) (Hecker/Kreul, 1971) als die Anzahl der Vorzeichenwechsel geteilt durch die Anzahl möglicher Vorzeichenwechsel, welcher unter Verwendung der beobachteten Vorzeichenwechseln (bei Differenzen aufeinanderfolgender Perioden) und den möglichen Vorzeichenwechseln von der individuellen Grundfrequenz unabhängig ist.

Siehe auch

Literatur

  • Titze, I. (1991) A Model for Neurologic Sources of Aperiodicity in Vocal Fold Vibration, JSHR, 34:3, S. 460–472
  • Higgins, M.B.; Saxman, J.H. (1989) A comparison of intrasubject variation across sessions of three vocal fundamental perturbation indices, JASA, 86:3, 911–916
  • Haji, T. et al. (1986) Frequency and amplitude perturbation analysis of electroglottograph during sustained phonation, JASA, 80:1, S. 58–62
  • Orlikoff, R.-F.; Baken, R.J. (1989) The Effect of the Heartbeat on Vocal Fundamental Frequency Perturbation, JSHR, 32:3, S. 576–582
  • Linville, S.E. (1988) Intraspeaker variability in fundamental frequency stability: An age-related problem?, JASA, 83:2, 741–745
  • Schoentgen, J. (1990) Acoustic features of dysphonic voices, Rapport-d’Activites-de-l’Institute-de-Phonetique, 26, S. 87–112
  • Karnell, M.P. et al. (1991) Comparison of Acoustic Voice Perturbation Measures Among Three Independent Voice Laboratories, JSHR, 34, 781–789