Die statistische Auswertung von Prüfungsdaten

Die Evaluation der Prüfungs- und Aufgabenqualität anhand von Prüfungsdaten

Ob Sie den gesamten Themenbereich Prüfen durchgearbeitet haben oder auch nicht: Von Ihnen wurden höchstwahrscheinlich bereits vorempirische – theoretische und konzeptionelle – Überlegungen zur Ausarbeitung von Lehrzielen, Prüfungsaufgaben sowie Gesamtprüfungen mit Bewertungsrastern angestellt. Diese Annahmen (und weitere) können Sie mit Hilfe des folgenden Artikels im Nachgang einer Prüfung empirisch – anhand der Prüfungsdaten – verifizieren oder falsifizieren.

Prüfungsdaten sind die Grundlage zur Bewertung Studierender und erlauben Rückschlüsse auf die Qualität der Aufgaben sowie die Gesamtprüfung. Der vorliegende Artikel thematisiert entsprechend Möglichkeiten zur Berechnung von Kennwerten, die obendrein mit geringem Aufwand realisierbar sind. Im Beitrag Fragenformulierung und Evaluation bei Prüfungen im Antwort-Wahl-Verfahren wird Ihnen wiederum die Bestimmung einiger dieser Kennwerte an einem fiktiven Beispiel noch einmal demonstriert.

Die Qualitätssicherung Ihrer Prüfungen und Aufgaben können Sie auch systematisieren, indem Sie die Evaluation in einem Team von Lehrenden bearbeiten. Der Artikel Aufbau einer Aufgabendatenbank zu Prüfungen und gemeinsames Wissensmanagements in diesem Themenfeld stellt Ihnen deshalb Möglichkeiten vor, die mit dem Aufbau einer gemeinschaftlichen Aufgabendatenbank verknüpft sind.

Streben Sie eine differenzierte Analyse Ihrer Prüfungsdaten an, so müssen Sie die Prüfungsergebnisse auf Aufgabenebene erfassen. Es sind keine Aussagen über die Qualität einzelner Aufgaben möglich, wenn Sie ausschließlich die Gesamtpunktzahlen der Studierenden festhalten.

Tabelle 1: Datenmatrix für eine Prüfungen mit 3 Aufgaben (inkl. Teilaufgaben) und X Prüfungsfälle
Tabelle 1: Datenmatrix für eine Prüfungen mit 3 Aufgaben (inkl. Teilaufgaben) und X Prüfungsfälle

Stattdessen sollten Sie zu jeder Aufgabe die von den einzelnen Studierenden erreichten Punktzahlen tabellarisch dokumentieren. Als Aufgabe werden dabei auch Teilaufgaben verstanden. Teilaufgaben stellen die kleinste Analyseeinheit dar und lassen – angemessen statistisch analysiert und interpretiert – Aufschlüsse über die Qualität des Aufbaus einzelner Aufgaben zu. Wie differenziert Sie die Aufgaben aber tatsächlich erfassen, sollten Sie insbesondere auch davon abhängig machen, wie differenziert Sie die dahinterstehenden Anforderungen im Vorfeld ausgearbeitet haben. Oftmals stellt auch das Lösen/Nicht-Lösen von Teilschritten eine wichtige Information in Bezug auf die angenommenen Fähigkeiten dar. Zum Beispiel bietet sich bei umfangreichen aber wenigen Aufgaben eine Erfassung auf Teilaufgabenebene an. Haben Sie die Aufgaben dagegen eher kleinschrittig konzipiert, sind Daten auf Ebene einzelner Gesamtaufgaben ausreichend.

In Tabelle 1 ist beispielhaft eine Datenmatrix für eine Prüfung mit 3 Aufgaben und 100 Studierenden skizziert, wobei Aufgabe 2 aus zwei Teilaufgaben besteht.

Was sind die wichtigsten Kennwerte der Aufgaben- und Prüfungsanalyse?

Tabelle 2: Kennwerte und analytischer Nutzen
Tabelle 2: Kennwerte und analytischer Nutzen

Neben einfachen Maßzahlen wie Mittelwert, Standardabweichung und Minima/Maxima sind insbesondere die Aufgabenschwierigkeiten sowie die Bestimmung der Aufgabentrennschärfe und Korrelationsmaße informativ im Hinblick auf die Qualität einzelner Aufgaben und die Gesamtprüfung. In Tabelle 2 sind diese Kennwerte noch einmal hinsichtlich ihres analytischen Nutzens dargestellt. Im Anschluss finden Sie die einzelnen Kennwerte genauer erläutert. Außerdem werden Ihnen Möglichkeiten ihrer Berechnung in MS-Excel vorgestellt.

Mithilfe der zentralen statistischen Kennwerte wie dem arithmetischen Mittel, der Standardabweichung und Minima/Maxima können Sie sich einen ersten Eindruck über die Prüfungsergebnisse schaffen und zu ersten Einschätzungen zum Schwierigkeitsgrad der Aufgaben und dem Leistungsniveau sowie der Leistungsdifferenzierung der Personen gelangen.

Minimum und Maximum

Anhand der Bestimmung von Minimal- und Maximalpunktzahl von Aufgaben können Sie überprüfen, ob einzelne Aufgaben von keinem oder von allen Studierenden gelöst werden konnten. Das Minimum benennt dabei die bei einer Aufgabe mindestens erreichte Punktzahl. Das Maximum bezeichnet die maximal erreichte Punktezahl bei einer Aufgabe. Wurden bei einer Aufgabe zum Beispiel nur maximal 60 Prozent der möglichen Punkte erreicht, läge das Maximum bei 6 von 10 Punkten. In diesem Fall können Sie zu dem Schluss gelangen, dass die Aufgabe zu schwierig ist (für einen genaueren Kennwert siehe Abschnitt zur Aufgabenschwierigkeit) oder konstruktfremde ( = nicht mit der gewünschten Anforderung assoziierte) Anforderungen enthält, die die Aufgabe auch für leistungsstarke Personen nicht komplett lösbar machen. Sie sollten dementsprechend bei Aufgaben, die nicht die gesamte Punkteskala abdecken, passende Überlegungen zu möglichen Ursachen anstellen.

Anwendung

In MS-Excel lassen sich das Minimum und Maximum ähnlich der Summenfunktion bestimmen. Das heißt, es gilt ein Zielfeld auszuwählen und dann im Register „Start“ in der Gruppe „Bearbeiten“ auf den Optionenpfeil der Schaltfläche „AutoSumme“ zu klicken und die entsprechenden Zellen zu wählen (alternativ können Sie manuell die Befehle MIN() oder MAX() verwenden, wobei zwischen den Klammern jeweils ein Eingabebereich gewählt werden muss).

Es bietet sich dabei an, die Kennwerte für einzelne Aufgaben jeweils unter den Aufgabenspalten berechnen zu lassen. So sind die wichtigsten Kennwerte für die jeweiligen Aufgaben auch optisch den jeweiligen Aufgaben zugeordnet.

Arithmetisches Mittel

Das arithmetische Mittel ( = Mittelwert oder Durchschnittswert) gibt Ihnen die bei einer Aufgabe im Durchschnitt erreichte Punktzahl an. Bei Lösungen, die dichotom bewertet werden, die also entweder richtig oder falsch sind und die entsprechend mit 0 und 1 kodiert werden, ist das arithmetische Mittel gleichbedeutend mit der Aufgabenschwierigkeit. Es nimmt dann Werte zwischen 0 und 1 an. Dabei gilt: je geringer der Wert, desto schwieriger die Aufgabe (siehe Abschnitt zur Aufgabenschwierigkeit).

Der Mittelwert gibt Ihnen damit einen Hinweis auf das Leistungsniveau der Studierenden bei den jeweiligen Aufgaben, wobei Sie das Maß natürlich immer jeweils mit Blick auf die maximal erreichbaren Punktzahlen interpretieren sollten. Bei der Interpretation des Mittelwerts sollten Sie außerdem beachten, dass er von der Streuung der Werte unabhängig ist (siehe nächster Abschnitt).

Anwendung

In MS-Excel können Sie den Mittelwert einfach mittels Summenfunktion (entsprechende Schaltfläche oder mittels Formel SUM()) als die Summe aller Punkte zu einer Aufgabe, dividiert durch die Anzahl an Prüfungsfällen, bestimmen. Die Anzahl an Prüfungsfällen können Sie entweder manuell eingegeben oder mittels der ANZAHL()-Funktion in einer Zelle berechnen lassen.

Standardabweichung

Die Standardabweichung gibt die die durchschnittliche Streuung der Punktzahlen um ihren Mittelwert an. Sie gibt damit einen ersten Hinweis darauf, wie differenziert die jeweilige Aufgabe das Leistungsniveau der Studierenden wiedergibt, wie „gut“ sie also die Bewertungsspannweite der Aufgabe ausschöpft. Streut eine Aufgabe, für die 12 Punkte vergeben werden, zum Beispiel sehr gering um einen Mittelwert von 6 Punkten, so könnten sich die erreichten Punktezahlen der Studierenden zum Beispiel gehäuft im Bereich von +-1 Punkte um den Mittelwert bewegen. In diesem Fall könnte es sein, dass die Aufgabe zum Beispiel aus einem sehr (zu) einfachen und einem sehr (zu) schwierigen Teil besteht. Entsprechend könnten Sie die Aufgabe zukünftig um die Teile kürzen, die zu einfach oder zu schwierig sind. Haben Sie Ihre Prüfung nach strikten Kriterien (Anforderungen) konzipiert, so sollten Sie dabei aber unbedingt beachten, dass durch die Erhöhung des Schwierigkeitsgrads einer Aufgabe ein anderer Bewertungsmaßstab entsteht. Gegebenenfalls sollten Sie deshalb Ihren Notenschlüssel entsprechend anpassen. Auch könnten Sie Ihren Studierenden beim Einkürzen einer zu einfachen Aufgabe ein wichtiges „Erfolgserlebnis“ während der Prüfung nehmen. Sie müssen also abwägen zwischen der Zeitersparnis beim Lösen und der Funktion der Aufgabe im Gesamtkontext der Beurteilung.

Anwendung

In MS-Excel lässt sich die Standardabweichung mittels der Formel

=STABW(ZELLE:ZELLE)

berechnen. Die Varianz (als quadrierte Standardabweichung) erhalten Sie über die Formel

=VARIANZ(ZELLE:ZELLE).

Die Standardabweichung ist als die mittlere Abweichung einfacher zu interpretieren, die Varianz stellt jedoch einen notwendigen Parameter für die Berechnung weiterer Kennwerte dar.

Die Aufgabenschwierigkeit entspricht der Wahrscheinlichkeit, dass ein Studierender eine Aufgabe richtig löst. Bei dichotomen Aufgaben ist sie deshalb gleich dem Anteil der Studierenden, die die Aufgabe richtig gelöst haben. Allgemeiner stellt die Aufgabenschwierigkeit das Verhältnis der durchschnittlich bei einer Aufgabe erzielten Punktzahl im Verhältnis zur möglichen Maximalpunktzahl

\begin{aligned} \frac{Aufgabenmittelwert}{Maximalpunktzahl} \end{aligned}

dar. Die Aufgabenschwierigkeit nimmt deshalb immer Werte zwischen 0 und 1 an, wodurch auch unterschiedlich skalierte (d. h. Aufgaben mit einer unterschiedlichen Wertebereichen) Aufgaben vergleichbar werden. Dabei spricht ein höherer Wert für eine einfachere (!) Aufgabe. Grundsätzlich können Sie bei Werten > 0,8 von einfachen Aufgaben, bei Werten von 0,2 bis 0,8 von mittelschwierigen Aufgaben und bei Werten von < 0,2 von Aufgaben mit einer hohen Schwierigkeit ausgehen, wobei Sie je nach individuellem Zielkriterium auch individuelle Bereiche festlegen können. Es ist also auch hier sinnvoll, konzeptionelle Überlegungen bei der Interpretation mit einfließen zu lassen.

Zum Beispiel sollten Sie Aufgabenschwierigkeiten immer vor dem Hintergrund der erwarteten Aufgabenschwierigkeit interpretieren, insofern in diese Erwartung auch Annahmen über die Anforderungen einer Aufgabe hineinspielen. Es kann zum Beispiel vorkommen, dass eine als mittelschwierig angenommene Aufgabe tatsächlich zu einfach oder zu schwierig ausfällt. Welche Gründe führten zu dieser Fehleinschätzung? Im besten Falle finden sie heraus, dass Ihre Studierenden insgesamt ein höheres Leistungsniveau aufweisen als erwartet. Es kann jedoch auch sein, dass die Aufgabe (sollten Sie empirisch einen unerwartet geringen Schwierigkeitsgrad festgestellt haben) möglicherweise ungewollt durch „Tricks“ zu lösen ist, oder (bei einem zu gering eingeschätzten Schwierigkeitsgrad) eine unklare Aufgabenstellung enthält, die eine richtige Lösung erschwert. Halten Sie deshalb am besten bereits bei der Erstellung einer Aufgabe für sich den erwarteten Schwierigkeitsgrad fest und vergleichen Sie diesen dann in einer Tabelle mit den beobachteten ( = statistischen) Aufgabenschwierigkeiten. Sollten Sie die Aufgabe bereits schon einmal bei einer Prüfung gestellt haben, so können auch bereits berechnete Aufgabenschwierigkeiten zum Vergleich heranziehen. Dies ist vor allem dann hilfreich, wenn Sie die entsprechende Aufgabe zwischenzeitlich modifiziert haben. Beobachten Sie dann beispielsweise eine erhebliche Zunahme der Aufgabenschwierigkeit, so handelt es sich bei der Änderung vermutlich um ein schwierigkeitsgenerierendes Merkmal. Sie sollten dann überprüfen, ob sich durch dieses Merkmal auch der Zielbezug (mit Blick auf eine Fähigkeit bzw. Kompetenz) verändert hat.

Ebenso bieten Ihnen Aufgabenschwierigkeiten die Möglichkeit der Hierarchisierung von Aufgaben, insofern Sie vorab die Aufgaben konkreten Lehrzielen zugeordnet haben (Vgl. Beitrag zum Abgleich von Prüfungsaufgaben und Lehrzielen ). Zum Beispiel könnten die Aufgaben 1, 3 und 5a die Fähigkeit überprüfen, mathematisch zu argumentieren. Sie finden nun mittels Analyse der Aufgabenschwierigkeiten heraus, dass Aufgabe 1 die geringste, Aufgabe 3 eine mittlere und Aufgabe 5a eine hohe Aufgabenschwierigkeit aufweist. Insofern die Aufgaben sich alle auf dieselbe Kompetenz/Fähigkeit beziehen, können Sie nun versuchen, anhand der Unterschiede Niveaustufen zu unterscheiden und entsprechend interpretieren. Was macht Aufgabe 5a so schwierig, warum ist Aufgabe 1 eher einfach? Und weiter: Ist das richtige Lösen von Aufgabe 1 und 3 eine Voraussetzung dafür, Aufgabe 5 lösen zu können? Könnten Sie in diesem Sinne also vielleicht sogar Entwicklungsstufen einer Kompetenz beschreiben? Die Hierarchisierung von Aufgaben anhand ihrer Schwierigkeitsgrade bietet Ihnen darin eine gute Grundlage, um fachdidaktische Überlegungen über Kompetenz- und Fähigkeitsstufen anzustellen.

Anwendung

Für die Bestimmung der Aufgabenschwierigkeiten sollten Sie in MS-Excel in einem ersten Schritt unter jeder Aufgabenspalte notieren, wie viele Punkte bei der Aufgabe maximal erreicht werden konnten.

Die Aufgabenschwierigkeiten können dann folgendermaßen berechnet werden:

\begin{aligned} \text{Aufgabenschwierigkeit}=\frac{Maximalpunktzahl}{Aufgabenmittelwert} \end{aligned}

Eine Prüfung sollte Ihnen erlauben, zwischen guten und schlechten Studierenden angemessen zu differenzieren. Jede Aufgabe können Sie deshalb auch im Hinblick auf die Frage betrachten, inwieweit sie zu dieser Leistungsdifferenzierung beiträgt.

Im Idealfall verfügen Sie über ein geeignetes Außenkriterium (z. B. messbarer Erfolg in beruflichen Handlungssituationen), mit dem das Abschneiden bei einer Aufgabe mehr oder weniger gut im Zusammenhang steht. Gute Aufgaben weisen dann eine hohe Korrelation zu diesem Außenkriterium (im Sinne einer „Gesamtkompetenz“) auf. Insofern Ihnen in der Lehre jedoch in der Regel kein geeignetes Außenkriterium zur Verfügung steht, können Sie als Indikator das Abschneiden bei der Gesamtprüfung, also das Verhältnis einer Aufgabe zum Gesamtergebnis der Prüfung betrachten. Problematisch daran ist allerdings dass die Annahme, die Prüfung ziele auf die Überprüfung einer einzigen übergeordneten Fähigkeit oder Kompetenz ab, in den meisten Fällen kaum plausibel ist. Vielmehr erfordern Prüfungen zum Lösen in der Regel verschiedene Teilkompetenzen, die für sich genommen nicht unbedingt in hohem Maße miteinander in Zusammenhang stehen müssen. Entsprechend sollten Sie die folgenden Maße auch mit Vorsicht interpretieren, insofern es zum Beispiel durchaus sein kann, dass eine einzelne Aufgabe eine schlechte Trennschärfe mit Blick auf die Gesamtscore (das Gesamtergebnis), aber dennoch eine hohe Relevanz in Bezug auf eine Teilfähigkeit/-kompetenz aufweist. Sie würden dann einen Fehler begehen, wenn Sie die Aufgabe aufgrund ihrer geringen Trennschärfe aus der Prüfung entfernen würden.

Trennschärfe: Ein Maß für die Schärfe, mit der eine Aufgabe zur Leistungsdifferenzierung beiträgt

Das Maß für die Korrelation eines einzelnen Aufgabenergebnisses mit dem Gesamtergebnis der Prüfung wird als Trennschärfe bezeichnet. Eine hohe Trennschärfe liegt dann vor, wenn Studierende mit einer hohen Gesamtpunktzahl auch bei der jeweiligen Aufgabe eine hohe Punktzahl erzielen und umgekehrt. Die Trennschärfe gibt damit – im Sinne der einleitenden Erklärung – an, wie gut Sie mit einer Aufgabe zwischen guten und schlechten Kandidatinnen und Kandidaten differenzieren können. Von einer guten Trennschärfe wird in der Regel bei Werten über 0,4 gesprochen, eine akzeptable Trennschärfe liegt bei Werten zwischen 0,2 und 0,4 vor. Auch negative Trennschärfewerte sind möglich. In diesem Fall bedeutet dies, dass schlechte Studierende bei der betroffenen Aufgabe sogar besser abschneiden als gute Studierende.

An dieser Stelle wird noch einmal die Problematik sichtbar, dass für die Bestimmung der Trennschärfe der Regel das Gesamtergebnis der Prüfung als Referenz herangezogen wird. Wie bereits angedeutet sollten Sie die Trennschärfe also nur unter der Annahme interpretieren, dass tatsächlich alle Aufgaben auf eine Gesamtfähigkeit/-kompetenz zurückzuführen sind und mit dieser entsprechend korrelieren. Es ist aber erfahrungsgemäß so, dass sich die Stärken von Studierenden sehr unterschiedlich in einzelnen Teildimensionen zeigen, sodass einzelne Aufgaben nicht mehr unbedingt alle perfekt mit der Gesamtscore korrelieren. Unterscheiden Sie zum Beispiel zwischen vier Lehrzielen, so kann es durchaus sinnvoll sein, die Aufgaben jeweils in Bezug zu diesen Teildimensionen zu analysieren, also für die Trennschärfe vier verschiedene Teilscores (zum Beispiel die addierten Punktzahlen eines bestimmten Aufgabenbereichs) heranzuziehen. Eine Aufgabe zum mathematischen Argumentieren sollte dann in Bezug auf das Gesamtergebnis in dieser Teilfähigkeit eine hohe Trennschärfe aufweisen, nicht aber zwingend mit Blick auf das Gesamtergebnis der Prüfung. Bestimmen Sie die Trennschärfe einer einzelnen Aufgabe deshalb gerne auch im Verhältnis zum Teilscore aller anderen Aufgaben zu einem bestimmten Lehrziel. Unter der Verwendung eines geeigneten Statistikprogramms bietet sich zu diesem Zweck die Bestimmung der internen Konsistenz einer Skala ( = eine bestimmte Menge von Prüfungsaufgaben, die dieselbe Kompetenz/Fähigkeit beurteilen) an, da bei gängigen Programmen (zum Beispiel SPSS) die Trennschärfe des Items unter Einbezug der ausgewählten Items ausgegeben wird.

Anwendung

Auch die Trennschärfe können Sie problemlos in MS-Excel bestimmen. Hierfür müssen Sie die Korrelation der Ergebnisse aller Studierenden bei einer einzelnen Aufgabe mit den Gesamtpunktzahlen aller Studierender berechnen lassen. Dies geschieht über den Befehl

KORREL(STUD1_A1:STUD100_A1;STUD1_SUMME:STUD100_SUMME)

berechnet werden, wobei STUD1_A1 für die vom ersten Studierenden bei Aufgabe 1 erzielten Punkte stehen und STUD100_A1 für die erzielten Punkte der hundertsten Studierenden. Dabei berücksichtigt MS-Excel die Werte jeder einzelnen Person für Aufgabe 1 für die Fälle 1 bis 100. Dasselbe gilt für die Gesamtpunktzahlen, für die ebenfalls jeder Wert von Person 1 (STUD1_SUMME) bis zu Person 100 (STUD100_SUMME) einbezogen wird. Entsprechend sollten Sie vorab eine entsprechende Spalte mit den Gesamtpunktzahlen angelegt haben.

Möchten Sie die Trennschärfe in Bezug auf eine bestimmte Anforderungsdimension bestimmen, so können Sie anstelle der Spalte mit den Gesamtpunktzahlen eine Spalte über die erzielten Punkte bei den Aufgaben zu dem entsprechenden Lehrziel bilden.

Diskriminationsindex: Ein Maß für die Stärke, mit der eine Aufgabe zwischen guten und schlechten Studierenden differenziert

Eine alternative Maßzahl dafür, wie gut eine Aufgabe zur Leistungsdifferenzierung der Studierenden beiträgt, ist der sogenannte Diskriminationsindex. Für seine Berechnung sollten Sie für jede Aufgabe drei Gruppen über die erzielten Punkte bilden. Typischerweise werden dazu die oberen 27 % und die unteren 27 % bestimmt (stattdessen können Sie aber auch zum Beispiel die Terzilgrenzen oder andere verwenden). Im Anschluss sollten Sie die Aufgabenschwierigkeit für die beiden Gruppen bestimmen und daraus die Differenz bilden. Diese Differenz gibt an, wie gut die Aufgabe zwischen guten und schlechten Leistungen unterscheidet. Im Gegensatz zur Trennschärfe gibt der Diskriminationsindex jedoch nicht die Schärfe der Trennung an, sondern die Stärke.

Anwendung

Hinweis: Da die Berechnung des Diskriminationsindex mittels MS-EXCEL sehr aufwändig ist, wird an dieser Stelle auf eine Darstellung von Formeln verzichtet. In der zum Download zur Verfügung gestellten Analysevorlage können Sie die Prozedur noch einmal genauer nachvollziehen.

Im ersten Schritt berechnet die Vorlage eine entsprechende Gruppenvariable für die n-tile (also das Kriterium zur Einteilung der oberen und unteren Gruppe). Hierbei wurde das obere und untere 27%-Perzentil gewählt. Sie können die Schwellenwerte in der Vorlage an der entsprechenden Stelle aber auch individuell vorgeben.

Im Anschluss wird eine Variable für die beiden Gruppen festgelegt, in diesem Fall 1 für die „schwache“ und 3 für die „starke“ Gruppe. In einer blanken Aufgabenmatrix (Datenmatrix kopieren und Aufgabenwerte löschen) wird anschließend bestimmt, welcher Gruppe (1 = schwache und 3 = starke) jeder Fall für jede Aufgabe angehört. Hierfür wird in der Analysevorlage die WENN-DANN-Funktion genutzt.

Wenn die Punktzahl einer Person bei der betreffenden Aufgabe kleiner ist als der vorher berechnete untere Schwellenwert, dann weist Excel dieser Person den Wert 1 stellvertretend für die Zugehörigkeit zur „schwache Gruppe“ zu. Wenn die Punktzahl dagegen größer ist als der obere Schwellenwert, so wird diese Person der starken Gruppe zugewiesen. In der zur Verfügung gestellten Vorlage wurde dabei ein exklusives Kriterium gewählt, das heißt, es werden alle Werte der Gruppe zugeordnet, die größer oder kleiner als der Schwellenwert, aber nicht gleich dem Schwellenwert sind. Je nach Aufgabenpunktzahl und Fallzahl können Sie auch ein inklusives Kriterium wählen.

Anschließend bildet die Vorlage für alle Gruppen den Mittelwert der bei jeder Aufgabe erreichten Punktzahlen. Hierfür kommt die SUMMEWENN-Funktion in Kombination mit der ZÄHLENWENN-Funktion zum Einsatz.

Dann werden Sie die Aufgabenschwierigkeit innerhalb der Gruppen auf die bekannte Weise bestimmt, indem Sie die errechneten Gruppenmittelwerte durch die erreichbare Gesamtpunktzahl dividiert werden.

Der Diskriminationsindex wird abschließend als die Differenz der beiden Aufgabenschwierigkeiten für die starke und die schwache Gruppe ausgegeben.

Reliabilität und interne Konsistenz: Ein Maß für die Zuverlässigkeit der Beurteilung

Mit der internen Konsistenz (in der Regel in Form der Maßzahl Cronbach‘s α) können Sie die Reliabilität (Vgl. entsprechender Beitrag Die Reliabilität einer Beurteilung ) der Gesamtprüfung oder auch eines Teils der Prüfung bestimmen. Auch diese Kennzahl sollen Sie als eine Annäherung – also im Grunde als ein „Hilfsverfahren“ – verstehen, insofern die tatsächliche Bestimmung der Reliabilität – also wie zuverlässig eine Prüfung bei mehrmaliger Messung vergleichbare Ergebnisse liefert – eigentlich nur mit einer Testwiederholung oder einer Paralleltestung realisierbar wäre. Mathematisch kann aber gezeigt werden, dass Cronbach‘s α ein unteres Maß für die Reliabilität darstellt, die tatsächliche Reliabilität also sogar eher noch höher ausfällt. Cronbach‘s α gibt dabei – einfach gesprochen – an, inwieweit eine bestimmte Aufgabe repräsentabel für eine Gruppe von Aufgaben (oder eben auch die Gesamtprüfung) ist. Stellen Sie also in einer Prüfung zum Beispiel 5 Aufgaben zum mathematischen Argumentieren und weisen diese Aufgaben einen ähnlichen Schwierigkeitsgrad auf, so sollten die Ergebnisse der einzelnen Aufgaben hoch mit den Ergebnissen bei den anderen Aufgaben korrelieren. Dabei wird angenommen, dass diese Aufgaben dasselbe messen, wobei auch der Schwierigkeitsgrad der Aufgabe im Grunde vergleichbar sein muss (Unterschied zur Trennschärfe). Entsprechend ist die Bestimmung von Cronbach‘s α insbesondere dann sinnvoll, wenn die Vergleichbarkeit von Aufgaben überprüft werden soll, weil Sie sich zum Beispiel nicht sicher sind, ob Sie in einer Prüfung zu viele, redundante Aufgaben verwenden.

Gleichzeitig – und dies ist insbesondere wichtig – gibt Ihnen dieser Wert aber keinen Hinweis darauf, wie gut eine Aufgabe ein bestimmtes Lehrziel abbildet, also auf ihre Validität. Es ist zum Beispiel ohne weiteres denkbar, dass alle einer Anforderungsdimension zugedachten Aufgaben systematisch etwas „Falsches“ messen und gleichzeitig eine hohe interne Konsistenz (also Vergleichbarkeit untereinander) aufweisen. Weiter ist die Maßzahl in besonderem Maße von der Aufgabenanzahl abhängig: Die Kennzahl für die Reliabilität wird größer, je mehr Aufgaben in Bezug auf ein Lehrziel oder in der Gesamtprüfung enthalten sind. Bei einer Analyse der internen Konsistenz einer Aufgabengruppe oder der Gesamtprüfung mit Cronbach‘s α sollten Sie deshalb auf jeden Fall eine theoretische Annahme darüber haben, welche Aufgaben eine ähnliche Fähigkeit messen. Zum Beispiel können – im Sinne des bekannten Beispiels – alle Aufgaben, die „mathematisches Argumentieren“ auf einem bestimmten Niveau (!) abbilden sollen, auf ihre interne Konsistenz hin überprüft werden.

Verwenden Sie bei der Analyse eine Statistiksoftware wie SPSS, so erhalten Sie bei der Berechnung von Cronbach‘s α zwei Werte: (1) Ein Gesamtmaß für Cronbach‘s α, im Sinne einer Abbildung der internen Konsistenz der gewählten Aufgaben und (2) für jede Aufgabe einen alternativen Wert von Cronbach‘s α für den Fall, dass Sie diese Aufgabe aus der betrachteten Aufgabengruppe oder Gesamtprüfung entfernen. Würde sich durch das Entfernen einer Aufgabe Cronbach‘s α erhöhen, so können Sie davon ausgehen, dass das alleinige Betrachten der Ergebnisse dieser Aufgabe zu einer anderen Leistungseinschätzung würde als bei den übrigen Aufgaben. Dies gilt insbesondere dann, wenn die Ergebnisse einer Aufgabe negativ mit den Ergebnissen anderer Aufgaben korrelieren. Was die betrachteten Aufgaben genau überprüfen, können Sie jedoch – wie bereits ausgeführt – anhand Cronbach‘s α nicht beantworten. Eine Möglichkeit, Aufgaben sinnvoll zu gruppieren, wenn Sie keine Überlegungen zu ihrem Zusammenspiel gemacht haben bzw. um diese Überlegungen zu überprüfen, wird weiter unten im Abschnitt zu den „Inter-Item-Korrelationen“ vorgestellt.

Anwendung

Auch Cronbach‘s α lässt sich mit MS-Excel bestimmen. Dafür müssen einige Zwischenwerte berechnet werden. Benötigt werden:

1. Summe der Einzelvarianzen jeder Aufgabenskala \begin{aligned}\sum_{j=1}^k \sigma^2_j\end{aligned} als Zeilensumme der Einzelvarianzen

2. Anzahl der Aufgaben (k) mittels manuellem Zählen oder über die Funktion

ANZAHL(AUFGABE1:AUFGABEJ)

3. Gesamtvarianz \begin{aligned}\sigma^2\end{aligned} als Varianz der Spalte „Summe“

Auf dieser Grundlage können Sie Cronbach‘s α bestimmen. Hierfür müssen Sie die Varianz über alle Aufgaben mit der Summe der Einzelvarianzen ins Verhältnis setzen und durch die Anzahl an Variablen gewichten:

Cronbachs \begin{aligned}\alpha=\frac{k}{k-1}\cdot(1-\sum_{j=1}^{k} \frac{\sigma^2_j}{\sigma^2}), \end{aligned} wobei für k, \begin{aligned}\sum_{j=1}^k \sigma^2_j\end{aligned} und \begin{aligned}\sigma^2\end{aligned} die jeweiligen Zellen mit den entsprechenden Zwischenwerten anzugeben sind.

In diesem Fall wird Cronbach‘s α über alle Variablen, also unter Einbezug aller Aufgaben bestimmt. Die Auswertung können Sie auch analog für einzelne Aufgabengruppen vornehmen, das heißt, zum Beispiel nur über alle Aufgaben, die für ein bestimmtes Lehrziel stehen. Entsprechend sollten Sie hier die Summe der Einzelvarianzen und die Gesamtvarianzen nur für die betreffenden Aufgaben bilden.

Deutlich aufwändiger in MS-Excel ist dagegen die Bestimmung der Werte für Cronbach‘s α unter der Bedingung, dass eine bestimmte Aufgabe aus der Prüfung entfernt wird. Hierfür müssen Sie die Maßzahl für jede Aufgabe ohne Einbezug dieser Aufgabe bestimmen. Erhöht sich der Wert unter Ausschluss der betreffenden Aufgabe, so bedeutet das, dass die entsprechende Aufgabe möglicherweise etwas Anderes misst als die anderen Aufgaben. Auf eine – entsprechend komplexe und übersichtliche – Anleitung zur Berechnung in MS-Excel soll an dieser Stelle verzichtet werden. Die Berechnung alternativer Werte für Cronbach`s α unter Berücksichtigung des Ausschlusses einzelner Aufgaben ist jedoch mittels der Analysevorlage möglich, die mit diesem Beitrag zum Download angeboten wird.

Mittels einer sogenannten Interkorrelationsmatrix, die mit gängiger Statistik-Software im Zuge der Bestimmung von Cronbach‘s α mit ausgegeben werden kann, können Sie Anhaltspunkte für das sinnvolle Gruppieren von Aufgaben finden. In einer Interkorrelationsmatrix werden sämtliche Korrelationen zwischen den einzelnen Aufgaben dargestellt. Dabei ist eine hohe Korrelation zwischen zwei Aufgaben ein möglicher (aber nicht hinreichender) Indikator dafür, dass diese Aufgaben etwas Ähnliches messen. Insofern können Sie in der ausgegebenen Inter-Korrelations-Matrix spalten- oder zeilenweise für jede Aufgabe entschieden, zwischen welchen Aufgaben mögliche Ähnlichkeiten bestehen.

Im Idealfall können Sie auf diese Weise Gruppen von Aufgaben anhand der Stärke ihrer Korrelationen bilden. Dabei wird es Ihnen in der Praxis kaum möglich sein, disjunkte (also eindeutig trennbare, überschneidungsfreie) Gruppen aus Aufgaben zu bilden, die nur untereinander korrelieren. Insofern sollten Sie die Analyse der Korrelationsmatrix auf jeden Fall als heuristisches Verfahren betrachten, das Ihnen Anhaltspunkte über das Zusammenwirken von Aufgaben liefert. Eine statistische Methode, die auf diesem Prinzip aufbaut und die zum Ziel hat, Aufgaben zu Faktoren zu gruppieren, denen gemeinsame Dimensionen zugrunde liegen, ist die Faktorenanalyse. Im Vergleich zu den anderen Kennzahlen gelten herbei jedoch strengere Anforderungen, zum Beispiel an die Verteilung der Daten. Außerdem ist das Verfahren recht aufwändig und deshalb im Sinne einer heuristischen Vorgehensweise kaum zielführend.