Faires Prüfen – Validität, Reliabilität und Objektivität

Fairness ist als Anforderung in den fach- und hochschulübergreifenden rechtlichen Anforderungen an Prüfungen enthalten. Fairness hängt mit dem Sachlichkeitsgrundsatz und der Chancengleichheit zusammen, die …

Fairness ist als Anforderung in den fach- und hochschulübergreifenden rechtlichen Anforderungen an Prüfungen enthalten. Fairness hängt mit dem Sachlichkeitsgrundsatz und der Chancengleichheit zusammen, die erfüllt sein müssen (Wex, 2001). Aber was bedeutet es, sachlich und fair zu prüfen? Mit Prüfungen sollen gerechte Beurteilungen von Lernerfolgen ermöglicht werden. Prüfungsergebnisse sollen die Leistungsfähigkeit von Studierenden gültig, zuverlässig und objektiv abbilden. Ihr Grundanspruch sollte es deshalb sein, Beurteilungsfehler zu vermeiden. Psychologisch gesehen ist dies eine anspruchsvolle Aufgabe, denn der Mensch neigt in seiner Wahrnehmung zu Urteilsverzerrungen und Fehlschlüssen (sogenannten „fallacies“). Erschwerend kommt hinzu, dass Fehlbeurteilungen vielfältige Ursachen haben können. Mögliche Fehlerquellen begründen sich…

  • … in der Person des Prüfenden, wenn zum Beispiel Stereotype oder Gemütsverfassungen die Beurteilung beeinflussen, sich die inneren Maßstäbe im Laufe der Korrektur verändern (Reihenfolge- und Kontrasteffekte ), oder, wenn die Klarheit der Bewertungskriterien überschätzt wird.
  • … in der Person des oder der Beurteilten, wenn zum Beispiel die Tagesform einen Einfluss auf die Leistung hat, vorangegangene Ereignisse ihren Schatten auf die Leistung werfen etc.
  • … in Sozialgruppeneffekten, wenn zum Beispiel die Sprache der Aufgabenstellung von bestimmten Personengruppen weniger gut verstanden wird (Stichwort: Literalität als Einflussfaktor).
  • … im Kontext, indem zum Beispiel Störfaktoren im Prüfungsumfeld zu einer verminderten Leistungsfähigkeit führen.
  • … auf Ebene des Instruments, wenn eine Aufgabenstellung aus verschiedenen Gründen nicht das misst, was sie eigentlich messen soll oder eine Aufgabe bei wiederholter Messung unterschiedliche Ergebnisse liefert.

Diese Effekte sind von den Beurteilten mal mehr und mal weniger gut zu beeinflussen. Fairness ist daher ein Grundsatz, der nie vollständig zu erreichen, der aber im Sinne eines Idealtypus anzustreben ist. Insbesondere individuelle Faktoren der Beurteilten sind vor allem bei standardisierten Prüfungsformen kaum ausreichend abzuschätzen (den Gemütszustand eines Studierenden können Sie zum Beispiel – wenn überhaupt – in mündlichen Prüfungsformen berücksichtigen). Um sich im Zuge einer Prüfungsverantwortung möglichst systematisch gegen Beurteilungsfehler abzusichern, kann es für Sie deshalb sinnvoll sein, sich mit den grundlegenden Gütekriterien einer Leistungsüberprüfung (bzw. des Messens im Allgemeinen) vertraut zu machen. Wenn Sie wissen, was mit der Validität, Reliabilität und Objektivität einer Beurteilung (nicht des Instruments) gemeint ist, können Sie sich im Prüfungsprozess immer wieder selbst daraufhin befragen, inwieweit einer dieser Aspekte das Urteil negativ beeinflusst. Auch die in der Kategorie Konzeption einer Prüfung präsentierten Techniken zielen alle mehr oder weniger darauf ab, die Qualität der Beurteilung (und damit die Fairness einer Prüfung) mit Blick auf die folgenden Gütekriterien abzusichern.

Prüfen ist eine Art von Messen oder Testen. Und ähnlich wie bei einem psychologischen Test müssen Sie sich auch beim Beurteilen via (mündlicher, schriftlicher oder anderer) Prüfung einem grundlegenden Bezugsproblem stellen, völlig unabhängig davon, ob die Prüfung einen leitungsbeurteilenden oder formativen (d.h. Rückmelde-)Charakter ohne nummerische Bewertung hat. Im einen Fall sind die „AbnehmerInnen“ Ihrer Studierenden darauf angewiesen, dass Sie angemessen beurteilt haben im anderen Fall zählen die Studierenden darauf, dass Ihr Feedback Gültigkeit hat, um Ihr Lernen neu zu ordnen. Eine entscheidende Grundfrage lautet also: Wie kann ich sicherstellen, dass das, was ich überprüfe, auch tatsächlich das ist, was ich überprüfen möchte? In der klassischen Testtheorie wird dies unter dem Stichwort der „Validität“ einer Messung verhandelt. Die Herausforderung (und das Bezugsproblem) bei der Beurteilung der Validität besteht darin, dass ein bestimmtes Zielkonzept (= ein Konstrukt, z. B. eine Fähigkeit) nicht unmittelbar beobachtet werden kann (Li et al., 2006). Möchten Sie zum Beispiel überprüfen, inwieweit eine bestimmte Person ein fachliches Konzept verstanden hat, so müssen Sie Annahmen darüber treffen, woran sich das „Verstehen“ dieses Konzepts festmachen lässt. Sichtbar wäre zum Beispiel, inwieweit es einer Person gelingt, das Konzept in eigenen Worten zu erklären. Dieser Rückschluss von der manifesten Beobachtungsebene (eine Person erklärt etwas) auf die latente (= unsichtbare) Ebene (die Person hat das Konzept verstanden) ist das Bezugsproblem jeden Prüfens. Bestimmend für die Qualität dieses Rückschlusses sind gut begründete Annahmen, im Falle des Beispiels etwa, dass etwas nur dann in eigenen Worten erklärt werden kann, wenn es auch wirklich verstanden wurde.

In der Forschung gibt es nun vielfältige Techniken, diese Annahmen möglichst gut zu begründen bzw. empirisch zu überprüfen. Dazu gehören unter anderem voraussetzungsreiche und komplexe statistische Verfahren, die zum Beispiele verborgene Strukturen hinter bestimmten Antwortmustern aufdecken, um auf ihre Verwandtschaft zu schließen (z.B. die explorative Faktorenanalyse), oder aber der Vergleich zu ähnlichen Konstrukten, von denen man weiß, dass sie Gültigkeit besitzen. Entsprechend mannigfaltig ist das Konzept der Validität auch. Für Sie als Lehrende an Hochschulen reicht es in der Regel aus, sich mit Fragen der inhaltlichen Validität sowie der kognitiven Validität einer Aufgabe auseinanderzusetzen. Mit der inhaltlichen Validität ist damit die Adäquatheit der Begründung gemeint, mit der zum Beispiel ein überprüftes Konzept als ein geeignetes Konzept gelten kann. Sichergestellt werden kann dies zum Beispiel dadurch, dass es einen Bezug zu einem Bildungsstandard (relevant vor allem für Lehramtsstudiengänge), ein bewährtes Kompetenzmodell (allgemein oder fachlich-spezifisch) oder das Curriculum des Studiengangs aufweist (Messick, 1995; genaueres im Beitrag zu Gute Lehrziele als Grundlage guten Prüfens ). Die kognitive Validität ist dagegen ein Gütekriterium dafür, wie begründet die Annahmen darüber sind, welche Prozesse bei einem Studierenden beim Lösen einer Aufgabe ablaufen und wie gut diese Prozesse schließlich auf die inhaltliche Validität des Lehrziels abgestimmt sind (Leuders, 2014).

Zum Beispiel könnte ein Lehrziel vorsehen, die im Qualifikationsrahmen für Deutsche Hochschulabschlüsse für einen Bachelor-Abschluss vorgesehene Kompetenz, das Verständnis von Fachinhalten in einem beruflichen Kontext anzuwenden, im Rahmen der Veranstaltung zu fördern und das Erreichen des Ziels entsprechend zu beurteilen. Dazu wurde das Lehrziel auf einen bestimmten Themenbereich (z.B. Produktdesign für einen PKW) eingeschränkt und auf einen Prozessausschnitt (z.B. Definition der Projektziele) spezifiziert. Die inhaltliche Validität, also den Bezug zum Kompetenzstandard, wird als gegeben betrachtet. Bei der Überprüfung, so die Überlegung, soll von den Studierenden gezeigt werden, dass die Kriterien dieses Arbeitsschrittes nicht nur aufgezählt, sondern auch insoweit verstanden wurden, als damit eine typische Praxisherausforderung gemeistert werden kann. Dazu soll die Prüfungssituation entsprechend „authentisch“ gestaltet werden, es soll also keine kognitive Voraussetzung, sondern tatsächlich die eigentliche Kompetenz unter Beweis gestellt werden. Deshalb wurde eine Art Rollenspiel im Sinne einer Simulation konzipiert, die eine gemeinsame Zieldefinition mit Stakeholdern (interaktiver, kommunikativer Aspekt) sowie eine schriftliche Darlegung der Projektziele (Zielvereinbarung) vorsieht. Für jede Teilfacette dieses Prozesses wurden entsprechende Bewertungskriterien erstellt. Im Rahmen eines Testlaufs mit Studierenden ist eine anschließende Befragung geplant, wie die TesterInnen die Simulation erlebt haben. Es stellt sich heraus, dass die Überlegungen der Testpersonen mit ihren Überlegungen zu den Anforderungen übereinstimmen. Die Prüfung scheint kognitiv valide zu sein. Stattdessen hätte es aber auch sein können, dass die Simulation nicht realistisch ist und die Personen (z.B. einzelne Studierende) berichten, sie hätten die Mitarbeitenden des Lehrstuhls in der Rolle der Stakeholder nicht ernstnehmen können und dies hätte ihr Handeln (zum Beispiel mit Blick auf fehlende Konsequenzen) beeinflusst.

Dabei müssen Sie in Ihrer Lehre zur Überprüfung der Validität einer Prüfung oder einer Aufgabe keineswegs aufwändige Verfahren nutzen. Viele Techniken können Sie auch im Sinne von Heuristiken verstehen, als Verfahren also, die ein pragmatisches Vorgehen für das Einschätzen der Validität einer Aufgabe bzw. einer Gesamtprüfung entlang von einfachen Leitfragen und Entscheidungsregeln erlauben. Eine solche Annäherung ist nicht problematisch, als auch in der Forschung die Frage nach der Validität einer Messung nie endgültig geklärt werden kann, sondern sich immer nur über die Qualität der Begründung erschließen lässt. Und stellen Sie sich einfach einmal die Frage: Ist es besser, sich deshalb keine Gedanken über die Validität Ihrer Aufgaben zu machen? Relevant ist vor allem, dass sie sich als Lehrende bei der Erstellung einer Aufgabe und einer Prüfung mit der Frage nach deren Validität systematisch auseinandersetzen und geeignete Maßnahmen treffen, um diese abzusichern.

Mit Blick auf die Konzeption einer Prüfung bzw. Prüfungsaufgaben ist deshalb festzuhalten: Das Gütekriterium der Validität ist ein Maßstab dafür, wie repräsentativ eine Prüfung oder eine Aufgabe die Gesamtheit der Lehrziele oder ein bestimmtes Lehrziel abbildet (inhaltliche Validität) und inwiefern dieses Verständnis mit den bei den Studierenden ablaufenden kognitiven Prozessen kompatibel ist. Techniken, die Ihnen bei der Beantwortung dieser Frage helfen, werden in den Abschnitten Festlegung des Prüfungsgegenstands entlang von Lernzielen , Die Erstellung geeigneter Prüfungsaufgaben und Rückbindung der Aufgaben an den Prüfungsgegenstand vorgestellt. Anhand dieser Darstellung wird auch deutlich werden, dass die Sicherung der Validität nicht einmalig erfolgt, sondern eine tragende Rolle im gesamten Gestaltungs- und Auswertungsprozess einer Prüfung hat.

Auf Basis des Verständnisses der Validität einer Beurteilung lassen sich weitere Gütekriterien ableiten, die als Voraussetzung einer guten Beurteilung erfüllt sein müssen. Ein wichtiges Gütekriterium der Testtheorie ist die Reliabilität einer Beurteilung. Diese soll anhand eines weiteren (a) Beispiels erklärt werden: Angenommen, Sie als LehrendeR entwickeln zu einem bestimmten (hier allgemein formulierten) Lehrziel eine Vielzahl an Aufgaben, die dieses Lehrziel abbilden sollen. Dies stellen Sie darüber sicher, dass jede Aufgabe derselben Aufgabenlogik folgt und von einem ähnlichen Schwierigkeitsniveau ausgegangen werden kann. Damit – so überlegen Sie – können Sie davon ausgehen, dass auch nur eine Aufgabe ausreichend wäre, um die Erreichung des Lehrziels zuverlässig zu überprüfen – schließlich sollten ja theoretisch alle Aufgaben dasselbe messen. Sie treffen also eine Annahme, dass ein bestimmter Aufgabentypus einen bestimmten Typus eines „Messinstruments“ darstellt. Nun lassen Sie einen Studierenden mehrerer dieser Aufgaben zum gleichen Lehrziel hintereinander bearbeiten.

Tatsächlich zeigt sich Ihnen aber nun, dass der Studierende eine Aufgabe komplett und eine andere Aufgabe nur in Ansätzen lösen kann. Ihre Überlegung, dass es sich bei den Aufgaben um ein und dasselbe Messinstrument (hier: ein bestimmtes Aufgabenformat) handelt, kommt ins Wackeln, denn die Aufgabenform erzeugt völlig unterschiedliche Ergebnisse, ist also wenig zuverlässig, d.h. reliabel. Das Kriterium der Reliabilität gibt in diesem Zusammenhang an, inwieweit ein Instrument (z.B. eine Aufgabe) bei wiederholter Anwendung dieselben Ergebnisse liefert (Bühner, 2011). Dabei kann die Reliabilität im Falle einer Prüfungsaufgabe auch erst bei der Bewertung zum Problem werden, indem zum Beispiel zwei Korrigierende dieselbe Lösung unterschiedlich bewerten. Dabei ist Ihr Einfluss als PrüfungsverantwortlicheR auf den Bewertungsprozess besonders hoch. Aus diesem Grund werden Ihnen die in dem Beitrag Festlegen von Bewertungskriterien und Erstellung eines Bewertungsrasters vorgestellten Techniken insbesondere bei Erhöhung der Reliabilität einer Prüfung einen Dienst erweisen.

Es ist jedenfalls leicht ersichtlich, dass mit der Frage nach der Reliabilität auch die Validität einer Aufgabe/Prüfung auf dem Prüfstand steht, denn: während sich das zu überprüfende Konstrukt (zum Beispiel die Fähigkeit der Studierenden) wohl kaum über einen so kurzen Zeitraum ändern wird, also als stabil angenommen werden kann, variieren die Ergebnisse bei mangelnder Reliabilität und sind damit auch nicht mehr valide (gültig). Was Ihnen am gezeigten Beispiel auch deutlich geworden sein sollte: Die Aufnahme mehrerer Aufgaben zu einem bestimmten Lehrziel mit einem ähnlichen Schwierigkeitsgrad kann durchaus sinnvoll sein, wenn Sie damit die Reliabilität des Aufgabentyps beurteilen möchten. Eine weitere, mit relativ geringem Aufwand verbundene, (statistische) Möglichkeit, wie Sie die Reliabilität einer Prüfung bzw. eines bestimmten Aufgabentypus einschätzen können, wird im Abschnitt Rückschlüsse aus der Empirie vorgestellt.

Ähnlich kann in Bezug auf das dritte Gütekriterium eines gültigen und zuverlässigen Beurteilungsinstruments argumentiert werden: Eine Prüfung sollte unter objektiven Bedingungen stattfinden, sonst kann weder deren Reliabilität, noch deren Validität sichergestellt werden. Auch dies kann anhand des fiktiven Beispiels plausibel gemacht werden: Ihr Studierender hat die als vergleichbar angenommenen Aufgaben unterschiedlich gut gelöst. Daraus haben Sie den Schluss gezogen, dass die Reliabilität der Beurteilung durch die Aufgabe nicht besonders hoch ist und damit auch deren Validität in Frage steht. Nun finden Sie jedoch heraus, dass der/die Studierende beim Lösen der zweiten Aufgabe einen Teil dieser Aufgabe übersehen hat, da Sie inmitten der Aufgabe einen Seitenumbruch eingefügt haben und der/die Studierende einen Teil der Aufgabe schlichtweg übersehen hat. Wäre die Aufgabe komplett auf einer Seite sichtbar gewesen, so hätte er/sie die Aufgabe ähnlich gut gelöst wie die Vergleichsaufgabe. Es galten für beide Aufgaben also nicht dieselben, objektiven Bedingungen, was sich auf die Reliabilität und Validität der Beurteilung ausgewirkt hat. Unter dem Konzept der Objektivität können also Maßnahmen zusammengefasst werden, die dazu beitragen, Ursachen für Messfehler zu reduzieren, indem verschiedene Aspekte im Prüfungsprozess standardisiert werden (Bühner, 2011).

Als Fazit bleibt festzuhalten: Die Gütekriterien der klassischen Testtheorie können für Sie ein sinnvolles Orientierungsraster sein, um die Qualität einer Prüfung bzw. einzelner Aufgaben zu reflektieren und zu beurteilen. Dabei gilt: Die Validität einer Beurteilung ist deren primäres Ziel. Für diese ist die Reliabilität (= Zuverlässigkeit) der Beurteilung eine notwendige, aber nicht hinreichende Bedingung. Objektivität im Sinne einer bestmöglichen Standardisierung schließlich ist notwendig, aber nicht hinreichend, um die Reliabilität der Bewertung sicherzustellen. Liegen Ihnen also Hinweise darauf vor, dass zum Beispiel eine bestimmte Aufgabe nicht das misst, was sie messen soll, sollten Sie sorgfältig überlegen, ob die mangelhafte Validität der Aufgabe nicht ursächlich im Bereich der Reliabilität oder Objektivität zu suchen ist.

Mündliche Prüfungen sind aufgrund ihres interaktiven Echtzeitcharakters eine besondere Herausforderung, sowohl für Studierende, als auch für Sie als Dozierende. Mündliche Prüfungen sind weitaus weniger planbar und erfordern – paradoxerweise gerade deshalb – eine besonders flexible Vorausplanung. Die folgenden Tipps für mündliche Prüfungen sind für Sie als Möglichkeiten zu verstehen, die Reliabilität und Objektivität Ihrer Beurteilung zu erhöhen und damit die Validität positiv zu beeinflussen.

Hinweis 1. Beachten Sie aufmerksam Hinweise auf starke Prüfungsangst der Studierenden (vgl. Metzig & Schuster, 2009). Prüfungsangst äußert sich bei Studierenden körperlich (z.B. starkes Schwitzen, starkes Erröten, Zittern) und im Verhalten (z.B. Vermeidungstendenzen, präventive Medikamenteneinnahme, auffällige Antworten z.B. bei Fragen, die die Studierenden beantworten können müssen). Sie müssen die Prüfung in so einem Fall nicht unterbrechen, aber basieren Sie Ihr weiteres Prüfungsverhalten bewusst auf Ihren Beobachtungen. Prüfungsangst kann dazu führen, dass Studierende ihre Kompetenzen nicht mehr angemessen zeigen können und dadurch die Validität der Beurteilung gefährdet ist (Vgl. auch beeinflussende Faktoren im Abschnitt „Fairness als Prüfungsgrundsatz“). Überlegen Sie sich vor der Prüfungsdurchführung auf jeden Fall, wie Sie in Situationen mit großer Prüfungsangst handeln wollen. Sie können unter anderem den Studierenden eine Pause (zum Durchatmen oder länger) geben, ihnen einen Neustart ermöglichen oder die Prüfung in anderer Umgebung wiederholen (vgl. Rückert, 2010).

Hinweis 2. Formulieren Sie jeweils nur eine Frage (statt mehrerer) so kurz und präzise wie möglich, und bewusst offen oder geschlossen. Variieren Sie Offenheit und Geschlossenheit so, dass Sie mit einer Frage ganz bewusst entsprechende Kompetenzen/Lehrziele ansprechen. Mit präzisen Fragen, zu denen Sie klar definierte Antworten erwarten, können Sie insbesondere Teilfacetten überprüfen und die Bewertung gestaltet sich verhältnismäßig einfach. Mit offenen Fragen forcieren Sie dagegen eher konzeptuelles Verständnis.

Hinweis 3. Stellen Sie die Fragen oder Aufgaben nach einer bewusst ausgewählten Logik im Prüfungsverlauf. Viele mündliche Prüfungen orientieren sich an einem von sechs möglichen Verläufen (vgl. Stary, 2002). Egal ob Sie der Meinung sind, dass die Studierenden mit einem kurzen Referat beginnen sollen oder ob Sie von Beginn an konkrete Fragen stellen – machen Sie den angestrebten Verlauf sich selbst und den Studierenden deutlich. Sie stellen auf diese Weise sicher, dass Sie das für Sie relevante Wissen bzw. die relevanten Kompetenzen im Zeitraum der Prüfung abdecken und geben Ihren Studierenden einen Orientierungsrahmen vor.

Hinweis 4. Stellen Sie eine Atmosphäre her, die ein konzentriertes und gleichzeitig entspannte Prüfung fördert. Dies tun Sie unter anderem dadurch, indem Sie den Raum entsprechend sachlich-nüchtern in angenehmer Temperatur vorbereiten, nicht zu nah und nicht zu weit entfernt von den Studierenden sitzen (usw.), selbst rechtzeitig und ausgeruht im Raum anwesend sind und die Studierenden in ruhigem und optimistischem Ton in den Raum hereinbitten, alle Anwesenden vorstellen, das Prozedere der Prüfung kurz vorstellen, sich für die Zeit der Prüfung vollkommen darauf konzentrieren (Telefone ausstellen!). Sie sorgen damit für objektive Bedingungen und vermeiden Ablenkungen.

Hinweis 5. Trennen Sie die Leistungsmessung (-beoachtung) von der Leistungsbeurteilung (-bewertung). Bei mündlichen Prüfungen vergeben Sie im ersten Schritt (Leistungsmessung) schriftlich Punkte für die Prüfung, am besten anhand eines verbal gefüllten Punkte-Schemas mit max. 3 Abstufungen (Beispiele z.B. bei CUTLA, 2015). Erst nachdem Sie sich über die Punktevergabe sicher sind, ermitteln Sie die Note. (Vgl. auch Beiträge in der Kategorie Konzeption einer Prüfung ).

Hinweis 6. Nutzen Sie primär eine kriterienorientierte Norm für die Leistungsbeurteilung, eventuell korrigiert anhand einer individuellen Bezugsnorm (vgl. Walzik, 2012, S. 87ff.). Kriterienorientierte Bezugsnormen vergleichen den tatsächlich erreichten Leistungsverhalten mit einem vorher festgelegten Standard – Betonung auf vorher festgelegt. Machen Sie sich also bereits im Voraus Gedanken über die inhaltliche Validität Ihrer Prüfung – was möchten Sie auf welche Weise beurteilen?

Hinweis 7. Führen Sie die Beurteilung nicht allein durch, sondern mindestens zu zweit. Dabei sollte sich im ersten Schritt zunächst jede/r Prüfer/in ein Urteil allein bilden. Danach bestimmen Sie die Beurteilungsübereinstimmung: Kommen Sie und die Zweitprüfer/innen zum selben Ergebnis? Könnten Unterschiede zwischen den Urteilen durch Urteilsverzerrungen verursacht sein? Worauf können Sie sich (mit welchen Argumenten?) einigen? Wenn Sie der/die statushöhere PrüferIn sind, lassen Sie den/die BeisitzerIn zuerst ihr Urteil formulieren, da sonst leicht eine Anpassung erfolgt. Sie erhöhen dadurch die Reliabilität Ihrer Beurteilung.

Hinweis 8. Nutzen Sie das zu erstellende Protokoll sinnvoll als Quelle für die Leistungsmessung. Dies bedeutet zum einen, dass das Protokoll tatsächlich den realen Verlauf der Prüfung wiedergeben sollte (niemand hat gesagt, dass Protokollieren nicht anspruchsvoll wäre). Zum anderen müssen Sie zur fairen Leistungsmessung den gesamten Prüfungsverlauf noch einmal zur Kenntnis nehmen und nicht nur die „Highlights“ oder die letzten fünf Minuten beachten. Verlassen Sie sich also nicht auf Ihre (häufig) selektive Wahrnehmung/Erinnerung.

Hinweis 9. Reflektieren Sie Ihre eigenen wahrscheinlichen Urteilsverzerrungen: Welche Stereotype über Studierendengruppen (Beispiele: Migrationshintergrund, Geschlecht, Alter, regionale Herkunft usw.) haben Sie im Kopf? Welche Studierenden kennen Sie bereits aus eigenen Veranstaltungen? Wie nah sind Ihnen diese und mögen Sie sie – oder gerade nicht? Wie könnten Ihre Einstellungen Ihr Urteil beeinflussen? Wie ist Ihre aktuelle Stimmung? Etc. Reduzieren Sie damit den Einfluss „konstruktfremder“ Faktoren auf Ihre Beurteilung.

Hinweis 10. Lassen Sie sich Zeit mit der Leistungsmessung und -beurteilung und standardisieren Sie die Beurteilung für jede/n Studierende/n. Zum Beispiel schreiben die Prüfer/innen erst ihre Eindrücke auf und vergeben Ihre Punkte individuell; dann besprechen sie diese und einigen sich auf eine Punktzahl; dann bestimmen sie anhand der Bezugsnorm die Note; dann wird das Ergebnis der/m Studierenden verkündet; dann geben sie ihr/ihm ein pointiertes Feedback. Mit einem solchen Vorgehen garantieren Sie eine methodische Fairness (Objektivität) für alle Studierenden. Ob dies Studierenden ein paar Minuten länger auf das Ergebnis warten, ist weniger wichtig.

Hinweis 11. Besprechen Sie von Zeit zu Zeit den Prüfungsprozess, die eigenen Erfahrungen und mögliche Probleme mit den Mitprüfenden und eventuell weiteren (Fach-) Kolleg/innen. Mündliche Prüfungen sind so anfällig für subtile Verzerrungen und Fehler, dass nur die selbstkritische Reflexion der Prüfenden eine – langfristig – kompetenzorientierte und faire mündliche Prüfung ermöglicht. Natürlich gilt auch hier: Beurteilen Sie sich selbst auch nicht auf der Grundlage eines zu hohen Anspruchs.

Bühner, M. (2011). Einführung in die Test-und Fragebogenkonstruktion. München: Pearson Studium.

Center for University Teaching, Learning and Assessment der University of West Florida (CUTLA). (2015). Examples of rubrics. URL: https://uwf.edu/academic-affairs/departments/cutla/supporting-pages/examples-of-rubrics/ [09.03.2018].

Kulturministerkonferenz (2005): Qualifikationsrahmen für Deutsche Hochschulabschlüsse. Online verfügbar unter: http://www.kmk.org/fileadmin/Dateien/veroeffentlichungen_beschluesse/2005/2005_04_21-Qualifikationsrahmen-HS-Abschluesse.pdf (wird in neuem Tab geöffnet) [12.06.2017].

Leuders, T. (2014). Modellierungen mathematischer Kompetenzen–Kriterien für eine Validitätsprüfung aus fachdidaktischer Sicht. Journal für Mathematik-Didaktik, 35(1), 7-48.

Li, M., Ruiz-Primo, M. A., & Shavelson, R. J. (2006). Towards a science achievement framework: The case of TIMSS 1999. In S. Howie & T. Plomp (Eds.), Contexts of learning mathematics and science: Lessons learned from TIMSS (pp. 291-311). London: Rout

Messick, S. (1995). Validity of psychological assessment: validation of inferences from persons' responses and performances as scientific inquiry into score meaning. American psychologist, 50(9), 741-749.ledge.

Metzig, W. & Schuster, M. (2009). Prüfungsangst und Lampenfieber (4. Aufl.). Berlin: Springer.

Rückert, H.-W. (2010). Drehbuch des Scheiterns – wie gehe ich mit ängstlichen und nervösen Prüflingen um? URL: https://www.academics.de/wissenschaft/drehbuch_des_scheiterns_-_wie_gehe_ich_mit_aengstlichen_und_nervoesen_prueflingen_um_36937.html [14.06.2016]

Stary, J. (2002). „Doch nicht durch Worte nur allein…“ Die mündliche Prüfung (H 2.1). In B. Berendt, J. Wildt & B. Szczyrba (Hrsg.), Neues Handbuch Hochschullehre, Berlin: Raabe Verlag.

Walzik, S. (2012). Kompetenzorientiert prüfen. Leistungsbewertung an der Hochschule in Theorie und Praxis. Opladen: Barbara Budrich.

Wex, P. (2001). Prüfungsrecht an Hochschulen. Ein Überblick (H 1.1). In: B. Berendt, J. Wildt & B. Szczyrba (Hrsg.), Neues Handbuch Hochschullehre. Berlin: Raabe Verlag.