Multiple Choice

Multiple Choice (MC,/ˈmʌltɪpl̩.tʃɔɪs/) oder deutsch Mehrfachauswahl, auch Antwort-Wahl-Verfahren, ist eine in Prüfungen, Tests, Klausuren und Umfragen verwendete Fragetechnik, bei der zu einer Frage mehrere vorformulierte Antworten zur Auswahl stehen.[1] Dabei ist es zu beachten, dass multiple choice im Englischen strikt eine gültige Antwort aus mehreren bedeutet (daher ein falscher Freund), was im Deutschen Single Choice entspricht, während mehrere gültige Antwortmöglichkeiten im Englischen als multiple response bezeichnet wird.[2][3]

Es handelt sich um eine „erzwungene Wahl“ (Forced-Choice) im Unterschied zum freien Antwortformat. Die Fragen bezeichnet man auch als geschlossene Fragen im Gegensatz zu offenen Fragen, bei denen der Proband eine freie Antwort eintragen muss. In einzelnen Tests oder Befragungen ist auch eine Kombination beider Fragetypen üblich.

Unterschiedliche Formate und Begrifflichkeiten

In manchen Disziplinen wird der Begriff „Single Choice“ (SC) oder Einfachauswahl davon noch unterschieden – für Fragen, bei denen genau eine Antwort ausgewählt werden soll, während bei „Multiple Choice“ nach dieser Definition auch mehrere Antworten ausgewählt werden können. In vielen Kontexten gilt die Verabredung, dass immer nur eine Antwort richtig sein bzw. gewählt werden kann. Grundsätzlich ist in der Instruktion darauf hinzuweisen, teilweise gilt dies als so selbstverständlich, dass darauf gar nicht explizit hingewiesen wird – so zum Beispiel bei Prüfungen an Schulen und Hochschulen in den USA oder Australien.

Grundsätzlich gibt es folgende Auswahlformate für Testaufgaben mit n Antwortmöglichkeiten und kn richtigen Antworten, d. h. mit nk nicht zutreffenden Distraktoren:

Multiple Choice: Select
eine bekannte Anzahl k Antworten trifft zu
Single Choice oder Multiple Choice: Choose
eine Antwort (k = 1) trifft zu
Binärfrage oder Entscheidungsfrage
eine von zwei dichotomen Antworten (k = 1, n = 2) trifft zu: wahr/falsch, ja/nein …
Multiple Choice: Check
eine unbekannte Anzahl Antworten (k ≥ 0) trifft zu
höchstens eine bekannte Anzahl Antworten (kc) trifft zu, bspw. im Extremfall eine (k ≤ 1) oder alle außer einer (kn−1)
mindestens eine bekannte Anzahl Antworten (ck) trifft zu, bspw. eine (k ≥ 1)
mindestens und höchstens bekannte Anzahlen Antworten (ckd) treffen zu, bspw. eine bis alle außer einer (c = 1, d = n−1)
mehr Antworten treffen zu als nicht zu (k > n2) oder umgekehrt (k < n2)

Formen

In elektronischen Formularen und GUIs ist es üblich, Einfachauswahlen mit runden, und Mehrfachauswahlen mit eckigen Boxen darzustellen. Statt eines Kreuzes kann auch ein Haken oder ähnliches gesetzt werden. Alternativ können gerade auf Touchscreens oder im Fernsehen (vgl. Quizsendungen wie Wer wird Millionär?) die gewählten und bei der Auswertung die korrekten und falschen Antworten durch Text- und Hintergrundfarben oder Umrahmungen und andere Stile dargestellt werden.

Um bei der Auswertung zwischen nicht ausgewählten und nicht bearbeiteten Antwortvorgaben unterscheiden zu können, werden mitunter zwei Kästchen pro Frage für „trifft zu“/„ja“ und „trifft nicht zu“/„nein“ verwendet. Damit handelt es sich um eine Gruppe von Entscheidungsfragen mit derselben Fragestellung.

Auf Papierformularen kann ein komplett ausgefülltes Kästchen als Korrektur und damit wie ein nicht angekreuztes gewertet werden. Manche automatische Auswerteverfahren erwarten hingegen ausgefüllte Kästchen statt Kreuze zur Antwortmarkierung.

Die vorgegebenen Antworten können alle überhaupt möglichen Antworten vollständig abdecken oder nur eine Auswahl anbieten. Mitunter wird eine komplette Abdeckung indirekt dadurch erreicht, dass eine Antwort lautet: „keine der anderen Antworten trifft zu“.

Skalen und Matrizen

Wenn die Antwortvarianten verschiedene Grade einer Bewertung darstellen (z. B. „sehr zufrieden“ bis „sehr unzufrieden“), von denen genau eine ausgewählt werden muss, spricht man in der Sozialforschung nicht von Multiple Choice, sondern von einem skalierten Frage-Verfahren.

Da bei MC-Fragen in der Sozialwissenschaft Meinung erforscht und nicht Wissen geprüft wird, gibt es auch häufig als letzte Antwortmöglichkeit „weiß nicht“ oder „keine Angabe“, da Probanden sich oft verpflichtet fühlen, irgendein Kreuz zu setzen.

In speziellen Anwendungen müssen Kreuze in einer Matrix gesetzt werden. So kann man mehr Kombinationsmöglichkeiten realisieren.

Zweistufige Testaufgaben

Im Medizinstudium war bis vor einigen Jahren ein Multiple-Choice-Format gebräuchlich, in dem zunächst verschiedene Aussagen vorgeschlagen werden, von denen eine beliebige Anzahl zutreffen kann. Anschließend folgt die eigentliche Frage, bei der nur eine Antwort die richtige ist.

Mit fünf Antwortmöglichkeiten im Beispiel liegt die Komplexität unwesentlich höher als im Fall einer einzigen richtigen unter den vier Aussagen, aber deutlich niedriger als bei freier Kombinierbarkeit inklusive der Randfälle, dass keine oder alle der Aussagen zutrifft, denn damit gäbe es 16 mögliche Antwortmuster. Selbst bei der Beschränkung darauf, dass genau eine oder zwei Aussagen zutreffen können, gäbe es bereits 10 Muster. Die Reduktion der Komplexität erleichtert also insbesondere die Korrektur und Bewertung. Im Beispiel sind die Antwortmöglichkeiten aufsteigend nach der Anzahl zutreffender Aussagen sortiert, aber dies muss nicht der Fall sein.

Bewertung von Testleistungen

Die gerechte Bewertung von MC-Aufgaben ist nicht trivial und führt leicht zu ungerechten Urteilen.

Am deutlichsten wird dies bei einem Test mit nur zwei Antwortalternativen pro Frage („trifft zu“ oder „trifft nicht zu“). Wird hier ein richtig gesetztes Kreuz mit einem Punkt bewertet, für ein falsch gesetztes jedoch kein Punkt abgezogen, erreicht ein Proband ohne jede Kenntnis durch einfaches Ankreuzen des jeweils ersten Kästchens durchschnittlich 50 % der erreichbaren Punktzahl und damit nach gängiger Auswertung ein Ausreichend bzw. Bestanden attestiert. Probanden, die mit ähnlichen Fragen in einer Klausur ohne MC geprüft werden, sind damit deutlich benachteiligt.

Dennoch werden in der Praxis MC-Tests zum Teil auf diese Weise und damit fehlerhaft ausgewertet. Die so gewonnenen Prüfungsergebnisse liegen dann ein bis zwei Notenstufen über konventionell erzielten Ergebnissen (eine so erzielte Vier entspricht bspw. einer Sechs, d. h. keinerlei nachweisbare Kenntnisse).

Zum Teil wird auch, im Bewusstsein der Problematik aber in Unkenntnis der mathematischen Zusammenhänge, unabhängig von der Anzahl der Antwortmöglichkeiten die Bestehensgrenze pauschal auf 60 % festgelegt. Dieses Vorgehen ist jedoch, außer bei genau 5 Antwortkästchen pro Frage, ebenfalls fehlerhaft (siehe unten).

SC-Bewertung

Ist genau eine der angebotenen Alternativen richtig, alle anderen falsch, ist der einfachste Weg zu einer gerechten Bewertung, für falsche Kreuze Punktabzug (Malus) anzurechnen: Bei zwei angebotenen Antwortalternativen pro Frage je einen Punkt, bei drei Alternativen einen halben Punkt, bei vier Alternativen einen Drittelpunkt usw. Unbeantwortete Fragen und solche, bei denen mehr als ein Kreuz gesetzt wurde, bleiben ohne Wertung, es wird kein Punkt gegeben und keiner abgezogen. Um dem Probanden stets die Möglichkeit zu geben, Punktabzug für nicht beantwortete Fragen zu vermeiden, sollen immer mindestens zwei Alternativen („trifft zu“ und „trifft nicht zu“) angeboten werden. Aufträge wie „Kreuzen Sie die richtigen Aussagen an“ sind generell zu vermeiden.

Berücksichtigung des statistischen Effekts durch Punktabzug (Maluspunkte) für falsche Antworten
Antwortalternativen pro FrageAbzug pro falsch gesetztes Kreuz
21
312
413
514
n1n−1

Die Berücksichtigung des statistischen Effektes durch dieses Abzugsverfahren ist juristisch angreifbar[4][5]. Alternativ kann eine rechtssichere Bewertung erzielt werden, indem statt Punktabzug für falsche Antworten ein angepasster Punkteschlüssel mit höherer Bestehensgrenze zur Anwendung kommt. Für den (häufigsten) Fall, dass der Proband für ein Bestehen eine Kenntnis von 50 % des Stoffes nachzuweisen hat, ergibt sich dann folgender korrigierter Punkteschlüssel:

Berücksichtigung des statistischen Effekts durch korrigierten Punkteschlüssel
Antwortalternativen pro FrageBestehensgrenze
275 %¾
366,6 %
462,5 %
560 %
nn+1n

In Folge eines Gerichtsurteils[5] wird jedoch bspw. an nordrhein-westfälischen Hochschulen inzwischen ein fester Notenschlüssel verwendet, der weder die Anzahl der Alternativen noch der richtigen Antworten pro Frage berücksichtigt und davon ausgeht, dass jede Aufgabe bzw. richtige Antwort unabhängig von Schwierigkeit und Komplexität mit gleich vielen Punkten (nämlich einem) bewertet wird. Die Bestehensgrenze liegt üblicherweise bei 60 % der Gesamtpunktzahl, wird aber zwangsweise angehoben werden, wenn sonst die Durchfallquote der Erstteilnehmer an einer Prüfung zu hoch wäre, weil dies als Indikator für eine unangemessen schwierige Prüfung gewertet wird. Um beide Fälle abzudecken, wird der Notenschlüssel fix über den Anteil korrekter Antworten oberhalb der flexiblen Bestehensgrenze definiert. Feiner gestufte Noten wie 1,3 und 2,7 sind nicht festgelegt, werden aber in der Regel linear in das Raster eingefügt, wobei dann die Frage ist, ob die Grenze für x für eine x,0 oder eine x,3 gilt.

Notenschlüssel
NoteMindestanteilüber der BestehensgrenzeTeilnoteweiche Interpretationharte Interpretation
190 %75 %1,09313%8313%90 %75 %
1,390 %75 %8623%6623%
280 %50 %1,78623%6623%8313%5813%
2,08313%5813%80 %50 %
2,380 %50 %7623%4123%
370 %25 %2,77623%4123%7313%3313%
3,07313%3313%70 %25 %
3,370 %25 %6623%1623%
460 %0 %3,765 %1212%6313%813%
4,060 %0 %60 %0 %
50 %5,0

MC-Bewertung

Sind bei einer Aufgabe mehrere Antworten richtig, ist wie bei mehreren Einzelfragen mit je zwei Alternativen („trifft [nicht] zu“) zu verfahren und für falsche Kreuze ein Malus von einem Punkt zu geben. Nicht oder doppelt gekreuzte Antworten bleiben ohne Folge.

Es sind daher bei jeder Antwortalternative stets zwei Kästchen vorzusehen. Anschließend werden die Einzelpunkte addiert, negative Summen werden dabei als 0 gewertet.

Um das Gewicht der Aufgabe innerhalb der Gesamtprüfung festzulegen, kann ggf. die erzielte Punktzahl auf die gewünschte Punktzahl der Aufgabe umgerechnet werden. Wenn bspw. wie im gezeigten Beispiel fünf Antwortmöglichkeiten bewertet werden müssen, könnte die Gesamtaufgabe 2 Punkte ab 4 Teilpunkten (also max. ein falsches Kreuz), 1 Punkt für 2–3 Teilpunkte und sonst keinen Punkt bringen.

Vorteile

Mit diesen Tests können viele Lernziele (mit Ausnahme von kreativen Leistungen) abgefragt werden. Darüber hinaus lassen sie sich in der Regel maschinell auswerten. Sie werden deshalb sehr häufig eingesetzt, z. B. beim IQ-Test, bei der Führerscheinprüfung und verschiedenen Qualifikationsprüfungen. Auch Prüfungen an Schulen und Universitäten werden manchmal auf diese Weise abgehalten. Bei Auswahlverfahren von Unternehmen ist dieser Test ebenfalls beliebt, da man lediglich eine Lösungsschablone benötigt.

Nachteile

Die Fähigkeit, bei unvollständigem Fachwissen aus rein formalen Hinweisen die richtige Lösung zu erschließen oder zumindest einzelne Distraktoren zu eliminieren, wird in den USA unter dem Begriff testwiseness („Testfähigkeit“) diskutiert (Millman et al. 1965). Bei schlecht konstruierten Tests half früher die Faustregel, im Zweifel die längste Antwort anzukreuzen. Einen parodistischen Test, der keinerlei sinnvolles Wissen enthält, trotzdem durch ausschließlich formales Schließen gelöst werden kann, hat die New Yorker Schulbehörde veröffentlicht[6].

Kubinger (2005) schreibt zur oft unterschätzten Auswirkung des Rateeffekts auf die diagnostische Validität von MC-Tests:

Die Wahrscheinlichkeit, dass ein Item eines Tests [Frage im MC-Test; Anm. d. Verf.] nur zufällig richtig beantwortet und insofern „gelöst“ wird, ist offensichtlich umso größer, je weniger Antwortmöglichkeiten geboten werden. Im heute verfügbaren Testinventar der psychologischen Diagnostik sind es zumeist fünf, nämlich die Lösung samt vier „Distraktoren“. Für solche Tests beträgt die A-priori-Ratewahrscheinlichkeit 1/5 = 20 %, d. h., auch Testpersonen ohne jede entsprechend vorausgesetzte Fähigkeit würden durchschnittlich 1/5 aller Items „lösen“. Verschärft wird das Problem dadurch, dass für Testpersonen mit wenigstens minderer Fähigkeit nicht alle Antwortmöglichkeiten gleich plausibel sind, so dass von den fünf häufig eine, zwei, manchmal drei gemäß Falsifikationsstrategie [entspricht hier sinngemäß in etwa: Ausschlussverfahren, siehe Falsifizierung; Anm. d. Verf.] richtiger Weise außer Betracht geraten, was die Ratewahrscheinlichkeit pro Item individuell bis auf 50 % erhöhen kann.

Multiple Choice in internationalen Vergleichen

Multiple-Choice-Aufgaben werden auch in internationalen Schulleistungsvergleichen wie TIMSS, PIRLS oder PISA eingesetzt. Dabei wird das US-amerikanische Standardformat verwendet, in dem in aller Regel vier bis fünf Antworten vorgegeben werden, von denen genau eine als richtig gewertet wird. Im deutschen Sprachraum aber, wo dieses Aufgabenformat wenig gebräuchlich ist, haben in den ersten PISA-Runden über 10 % der Schüler bei einzelnen Aufgaben mehr als eine Antwort angekreuzt.[7]

Eine kanadische Studie zeigt, dass sich der Vorteil nordamerikanischer Studenten, die aus ihrer Schulzeit her MC-Tests gewohnt sind, auch in studienbegleitenden Prüfungen noch nachweisen lässt.[8]

Weitere Probleme

Multiple-Choice-Tests fördern (partielles) Faktenwissen statt Fachwissen. Die Personen lernen das Verifizieren von Antworten statt des Lösens von Aufgaben. Eine Person, die zuverlässig die richtige Antwort aus fünf möglichen findet, kann trotzdem nicht in der Lage sein, die gestellte Aufgabe zu lösen.
Beispiel: Die Testperson löst die Aufgabe so lange, bis ihre Lösung mit einer der vorgegebenen Lösungen übereinstimmt. Macht die Testperson dabei nicht die Fehler, die die Ersteller der MC-Lösungen absichtlich gemacht haben, um die falschen Antworten zu generieren, kann die Testperson die richtige Lösung herausfinden, ohne die Aufgabe selbst eigenständig lösen zu können.

Ein drittes Problem ist das richtige Verstehen von Aufgabenstellungen, sowohl durch Mehrdeutigkeiten als auch durch fehlende linguistische Fähigkeiten der Testperson. Man testet immer eine Mischung aus Fachwissen und der Beherrschung der Sprache, in der die Aufgabe gestellt wurde, selbst wenn letzteres in der Praxis keine Rolle spielen würde, weil die Aufgabe normalerweise aus dem Kontext und nicht aus einer Aufgabenstellung heraus in der Praxis gestellt wird.

Bei SC-Auswahlantworten können sich die Distraktoren sehr in ihrer Nähe zur richtigen Antwort unterscheiden, manche sind sogar absichtlich offensichtlich falsch, andere nur in einem leicht zu übersehenden Detail falsch. Sie werden aber alle gleich bewertet, während in einer Freitextkorrektur für einige möglicherweise Teilpunkte gegeben würden.

Maßnahmen gegen das Raten

An deutschen und österreichischen Universitäten sind Multiple-Choice-Klausuren sehr verbreitet. Um die Studierenden vom Raten abzuhalten, wird die Bestehensgrenze oberhalb der Zufallswahrscheinlichkeit angesetzt oder ein negatives Punktesystem verwendet oder beides.

Die hier vorgestellten Varianten setzen entweder eine binäre Entscheidung („wahr“ oder „falsch“) oder Einfachauswahl voraus.

absolutes und relatives Verhältnis von Bonus und Malus
BonusMalusNeutralabsolutes Verhältnisrelatives Verhältnis
+1−1
+1−1±0
+1−1−½
+1−1−1
+1−1
+1−2
+1−2±0
+1−2−1
+1−½±0
+1±0
+1±0±0

Im einfachsten und verbreitetsten Verfahren erhält jede Antwort betragsmäßig dieselbe Wertung, allerdings richtige positiv und falsche negativ. Dieses System ist allerdings juristisch umstritten, denn bei dieser Art der Wertung können „Punkte abgezogen werden, die durch eine richtige Antwort erreicht worden sind“. Die Aufgabe einer Prüfung ist es „Aussagen darüber zu gewinnen, welche berufsbezogenen Kenntnisse der Prüfling hat. Einem Bewertungsverfahren, bei dem fehlerfrei erbrachte Prüfungsleistungen als nicht oder schlecht erbracht gewertet werden, weil andere Prüfungsfragen nicht richtig beantwortet worden sind, fehlt diese Eignung.“ (Zitat aus der Urteilsbegründung NRW, 14 A 2154/08[5]).

Alternativen, die die Einfluss testwiseness weiter reduzieren sollen, vergeben eine betraglich höhere negative Wertung für falsche Antworten als positive für richtige Antworten.

Häufig gehen Aufgaben mit Malus schlechtestenfalls mit null Punkten in die Gesamtwertung ein, selbst wenn die Punktesumme eigentlich negativ wäre. So kann der Notenspiegel positiv gehalten werden. Allerdings setzt das eine Aufgabenstellung voraus, in der eine Aufgabe aus mehreren Multiple-Choice-Fragen besteht. Solche Aufgaben werden oft in Prüfungen verwendet, die vorwiegend andere Aufgabentypen enthalten.

Juristische Bewertung

In Deutschland gibt es mittlerweile eine Vielzahl von Gerichtsurteilen, die die Grenzen der Verwendung des Antwort-Wahl-Verfahrens, wie es im juristischen Umfeld genannt wird, aufzeigen. Viele Urteile beziehen sich dabei auf eine absolute Bestehensgrenze, die dazu geführt hat, dass die Anzahl der bestehenden Prüflinge sich von Jahrgang zu Jahrgang zum Teil erheblich unterscheiden können; andere Urteile beziehen sich auf die Bewertung von Aufgaben.[9]

Insgesamt empfiehlt es sich daher, sich mit der Rechtsprechung zu befassen, bevor Multiple-Choice-Aufgaben konzipiert werden.

Beispiele

Welche Politiker waren in der Brandt-Regierung Bundesminister?
  1. Karl Schiller
  2. Herbert Wehner
  3. Rainer Barzel
  4. Georg Leber
  5. Erich Mende

Die Anzahl richtiger Antworten ist nicht vorgegeben. Richtig sind 1. und die 4. Antwort. 2, 3 und 5 dienen als Distraktoren.

Welches ist der größte Binnensee, der vollständig in Deutschland liegt?
  1. der Bodensee
  2. die Müritz
  3. das Steinhuder Meer

Aus dem Fragetext scheint zunächst klar, dass nur eine Antwort richtig sein kann (die 2.). Das Steinhuder Meer ist jedoch ein Binnensee und kommt somit ebenfalls in Betracht, ist jedoch kleiner als die Müritz.

Literatur

  • J. Millman, C. H. Bishop, R. Ebel: An Analysis of Test-Wiseness. In: Educational Psychological Measurement. Band 25, 1965, S. 707–726.
  • K. D. Kubinger: Objektive psychologisch-diagnostische Verfahren. In: H. Weber, T. Rammsayer (Hrsg.): Handbuch der Persönlichkeitspsychologie und Differentiellen Psychologie aus Handbuch der Psychologie. Hogrefe, Göttingen 2005, S. 158–165.

Weblinks

Einzelnachweise

  1. DORSCH Lexikon der Psychologie
  2. Multiple response. In: Writing assessment questions for online delivery: Principles and guidelines. University of Bristol. Abgerufen am 23. Juli 2017.
  3. Multiple response, itslearning. Abgerufen am 23. Juli 2017.
  4. Zeitartikel über so einen Fall http://www.zeit.de/campus/2014/06/pruefungsergebnis-klage
  5. a b c Beschluss des Oberverwaltungsgerichtes NRW vom 16. Dezember 2008, 14 A 2154/08 http://www.justiz.nrw.de/nrwe/ovgs/ovg_nrw/j2008/14_A_2154_08urteil20081216.html
  6. Test Your Testwiseness, abgerufen am 1. Oktober 2018 (PDF; 52 kB)
  7. Joachim Wuttke: Die Insignifikanz signifikanter Unterschiede. In: T. Jahnke, W. Meyerhöfer: PISA & Co –Kritik eines Programms. Zweite Auflage. Franzbecker, Hildesheim 2007, S. 171 ff.
    Auch https://web.archive.org/web/20120131005851/http://www.messen-und-deuten.de/pisa/Wuttke2007b.pdf Wuttke weist darauf hin, dass das den Test über die unmittelbar betroffenen Aufgaben hinaus verzerrt, denn es kostet viel mehr Zeit, vier oder fünf Antwortvarianten auf richtig/falsch zu prüfen, statt unter ihnen die plausibleste auszuwählen.
  8. A. Mahamed et al.: “Testwiseness” Among International Pharmacy Graduates and Canadian Senior Pharmacy Students. In: American Journal of Pharmaceutical Education. Band 70. S. 131.
  9. Urteilssammlungen - Bewertung von Multiple-Choice Prüfungen