Festlegen von Bewertungskriterien und Erstellung eines Bewertungsrasters

Welche Funktion erfüllen Bewertungskriterien für Aufgaben?

Bewertungskriterien reichen von der Festlegung, welche Antworten als richtig, teilrichtig oder falsch gewertet werden, bis hin zu genauen Regeln für die Punktevergabe. Die Objektivität, Zuverlässigkeit und Gültigkeit der Leistungseinschätzung können Sie durch gute und transparente Bewertungskriterien deutlich erhöhen. Stellen Sie sich ein Bewertungsraster als ein nummerisches Abbild Ihrer Lehrziele vor, wobei Sie durch eine gezielte Punktevergabe auch eine Gewichtung einzelner Lehrziele vornehmen können. Bedeutend sind klare Bewertungskriterien aber vor allem auch hinsichtlich der Reliabilität einer Prüfung: Je transparenter und klarer Sie die Bewertungskriterien definiert haben, desto zuverlässiger (und damit auch valider) können Sie bei der Korrektur der Aufgaben vorgehen.

Grundsätzlich können Sie zwei Prinzipien beachten:

(1) Ihre Bewertung sollte der Struktur der Lehrziele entsprechen, das heißt, bewerten sollten Sie nur jene Aspekte einer Lösung, die einen klaren Bezug zum zu bewertenden Lehrziel aufweisen.

(2) Sie sollten das Niveau der Erreichung eines Lehrziels anhand Ihrer Bewertungskriterien unterscheiden können. Dies ist vor allem bei umfassenderen Aufgaben mit mehr als einer richtigen und einer falschen Lösung relevant. Wenn bei einer Aufgabe zum Beispiel 3 von 6 Punkten vergeben und diese Aufgabe zur Überprüfung eines bestimmten Lehrziels einsetzen, dann sollte Ihnen klar sein, was dies im Sinne der Stufe der zu erreichenden Kompetenz bedeutet. Konnte ein Studierender zum Beispiel bei einer Aufgabe zum konzeptionellen Verständnis eines ingenieurwissenschaftlichen Problems lediglich die zugrundeliegenden Definitionen und Prozeduren beschreiben, diese aber nicht in einer entsprechenden Systematik aufeinander beziehen und haben Sie ihm deshalb nur die Hälfte der Punkte für die Aufgabe gegeben, sollten Sie dies inhaltlich begründen können. Im genannten Fall können Sie sich zum Beispiel fragen: Ist es die „halbe Miete“ auf dem Weg zu einem konzeptuellen Verständnis, wenn Studierende die Grundlagen beherrschen? Alternativ könnten Sie auch erst dann Punkte vergeben, wenn tatsächlich konzeptionelles Verständnis gezeigt wurde, weil Sie die Voraussetzungen in Form von Definitionen und Prozeduren etwa in einer anderen Aufgabe bereits überprüft haben.

Es ist sinnvoll, nach der Zusammenstellung der Aufgaben zu einer Prüfung ein sogenanntes Bewertungsraster zu erstellen. In einem Bewertungsraster charakterisieren Sie mögliche Aufgabenlösungen. Im Idealfall können Sie zu jeder Aufgabe für verschiedene Lösungsniveaus genaue Regeln definiert (z. B. Teilaufgabe 1a, Niveauabstufungen mit entsprechender Punktevergabe, Definition der jeweiligen Lösungsmengen, Ankerbeispiele). Mit der Definition einer Lösungsmenge sind dabei allgemeine Erklärungen im Sinne von Zuordnungsalgorithmen gemeint, die es Ihnen erlauben, eine Antwort dynamisch einer entsprechenden Kategorie zuzuweisen. Dies ist vor allem bei offenen Antworten sinnvoll, da hier oftmals verschiedene Ausdrucksweisen etc. auf einem vergleichbaren Niveau zu bewerten sind. Alternativ dazu können Sie auch alle möglichen Lösungen und Teillösungen nennen.

1. Schritt: Erstellung einer Musterlösung

Dieser Schritt ist optional, erleichtert Ihnen aber das weitere Vorgehen. Eine Musterlösung beinhaltet „ideale“ Antworten zu allen in der Prüfung gestellten Aufgaben. Erstellen Sie dabei idealerweise bereits bei der Gestaltung der Aufgaben eine solche Musterlösung. Sie werden dadurch auch bei der Aufgabengestaltung erfahrungsgemäß reflektierter und genauer vorgehen.

2. Schritt: Festlegen von Bewertungskategorien

Überlegen Sie im nächsten Schritt, wie viele Bewertungsstufen für eine Aufgabe jeweils sinnvoll sind. Machen Sie dies davon abhängig, wie spezifisch die Aufgabe jeweils ein Lehrziel abbildet und wie differenziert Sie das erreichte Niveau jeweils erfassen möchten. Zum Beispiel kann die Fähigkeit, ein Integral aufzustellen, in mehrere Lösungsschritte unterteilt werden. Sie können entsprechend überlegen, inwieweit diese einzelnen Schritte unterschiedliche Niveaustufen der zu überprüfenden Kompetenz abbilden. Müssen zum Beispiel bei zwei aufeinanderfolgenden Schritten jeweils ähnliche Rechenregeln erinnert und angewandt werden, so könnten Sie diese zwei Schritte in einem Punkt zusammenfassen. Würden Sie stattdessen zwei Punkte vergeben, so würden Sie dadurch eine stärkere (unerwünschte?) Gewichtung der niedrigen Niveaustufe vornehmen. Alternativ könnten Sie zum Beispiel davon ausgehen, dass die Studierenden – wenn Sie zum Beispiel eine Vertiefungsveranstaltung anbieten – von Beginn an dazu in der Lage sein müssen, Integrale aufzustellen. Sie müssten diese Fähigkeit dann entsprechend in der Prüfung nicht mehr „belohnen“. Je nach der Mindestanforderung, die Sie stellen, könnte also auch eine dichotome Bewertung (richtig oder falsch) sinnvoll sein.

Beachten Sie beim Festlegen von Bewertungskategorien in allen Fällen, dass damit unterschiedliche Bewertungsskalen für die jeweiligen Aufgaben entstehen können. Durch unterschiedliche Skalierungen (also verschiedene Maximalpunktzahlen) innerhalb einer Aufgabe können schnell unerwünschte Gewichtungseffekte in der Gesamtbewertung entstehen. Sollten Sie dennoch unterschiedliche Skalenniveaus verwenden, überlegen Sie deshalb unbedingt, inwieweit im Anschluss einzelne Aufgaben noch einmal nachgewichten sollten. Zum Beispiel können Sie eine bestimmte Aufgabe doppelt zur Gesamtbewertung zählen, weil bei dieser – im Vergleich zu differenzierteren Aufgaben – nur halb so viele Punkte erreicht werden können, die Aufgabe aber mit Blick auf die zu überprüfende Leistung dasselbe Gewicht haben. Im Idealfall gelingt es Ihnen, Aufgaben (im Sinne von Teilaufgaben) so zu einer Prüfung zusammenzustellen, dass durch die Addition einzelner Punkte für jeweils eine Teilaufgabe eine für das „Gesamtmerkmal“ repräsentative Bewertung entsteht (wobei das Konzept eines „Gesamtmerkmals“ mit Blick auf die Prüfung als Test kritisch zu hinterfragen ist, meist bestehen Prüfungen aus mehreren Teilfacetten, die idealerweise auch separat bewertet werden müssten).

3. Schritt: Beschreibung der einzelnen Niveaustufen

In einem weiteren Schritt sollten Sie festlegen, unter welchen Bedingungen eine bestimmte Lösung einer entsprechenden Lösungskategorie zuzuordnen ist, was also zum Beispiel eine richtige, teilrichtige oder falsche Lösung auszeichnet. Auch hier sollten Sie Ihre Überlegungen auf Basis der Anforderungen im Sinne der Lehrziele vornehmen. Bei geschlossenen Antworten mit klar definierter Lösungsmenge ist dieser Schritt verhältnismäßig einfach. Sobald Sie jedoch offene Antworttypen einsetzen, müssen Sie sich mit unterschiedlichen Darstellungsformen bei den Lösungen auseinandersetzen. Statt einer benennbaren Menge an Lösungen müssen Sie für solche Aufgaben Entscheidungsregeln finden, die die Zuordnung einer Antwort zu einer bestimmten Kategorie erlauben (z. B. „Die Verwendung von Fachsprache wird bei der Lösung der Aufgabe mitbewertet, entsprechend ist eine Lösung, die zwar inhaltlich richtig ist, aber alltagssprachlich formuliert wurde auch nur als teilrichtig zu bewerten“). Überlegen Sie also systematisch, was genau die Aufgabe bewerten soll und wie Sie Lösungsvarianten angemessen charakterisieren können.

4. Schritt: Erstellen von Ankerbeispielen

Ankerbeispiele sind Beispiele für konkrete Lösungsvarianten. Dies können Antworten von Studierenden aus vergangenen Prüfungen, aber auch „fiktive“ Lösungen sein, die möglichst authentisch formuliert sind. Ebenso können Ankerbeispiele beim Probelöse von Aufgaben entstehen. Ankerbeispiele konkretisieren dabei noch einmal die im vorherigen Schritt festgelegten Zuordnungsregeln und machen die Zuordnung für die Korrigierenden „greifbarer“.

5. Schritt: Regeln für die Vergabe von Punkten festlegen

Ziel der Punktevergabe ist es – wie bereits erwähnt –, die Leistung eines Studierenden in einem nummerischen Wert abzubilden, sodass die das erreichte Niveau differenziert beurteilt werden kann. In der gängigen Prüfungspraxis werden dabei häufig die Punkte aufaddiert und anhand eines Notenschlüssels die Gesamtnote gebildet. Auf Basis der der vorangegangenen Erklärungen sollte Ihnen aber an dieser Stelle ersichtlich werden, dass es auf diese Weise zu Gewichtungsproblemen kommen kann, zum Beispiel durch unterschiedliche Punkteskalen bei Aufgaben. Die größte Herausforderung bei der Definition von Regeln für die Punktevergabe ist es deshalb für Sie, zu entscheiden, mit welchem Gewicht die einzelnen Aufgabenlösungen in die Gesamtnote einfließen sollen. Insofern einzelne Lehrziele häufig mal mehr und mal weniger wichtig für die Gesamtbewertung eines Studierenden sind, stelle Sie sich die Frage, welchen Anteil eine einzelne Aufgabe zur Bewertung eines jeweiligen Lehrziels beiträgt. Im Anschluss gewichten Sie die Lehrziele noch einmal mit Blick auf die Gesamtprüfung. Sie haben dann eine zweistufige Gewichtung vorgenommen.

Das Reglement an Hochschulen sieht allerdings häufig vor, dass sich die Punktevergabe am Zeitaufwand für die Lösung einer Aufgabe zu orientieren habe. Aus Sicht einer kriterienorientierten Beurteilung ist ein solches „fremdes“ Kriterium allerdings problematisch, insofern der Zeitaufwand nicht immer ein valider Maßstab mit Bezug auf die Beurteilung des Erreichens eines Lehrziels ist. Einer einfachen, aber nur mit hohem Zeitaufwand zu lösenden, Aufgabe zu einem untergeordneten Lehrziel, können auf diese Weise mehr Punkte zukommen als einer kürzeren, aber voraussetzungsreicheren, zu einem wichtigen Lehrziel. Insofern der Zeitaufwand von der jeweiligen Hochschule als Kriterium strikt vorausgesetzt wird, haben Sie dieses natürlich entsprechend mit einzubeziehen. Dies kann bedeuten, dass Sie eine Aufgabe mit geringerer Bedeutung, deren Lösung aber zeitaufwendiger ist, geschickt einkürzen, sodass sich der Zeitaufwand mit der von Ihnen angestrebten Gewichtung deckt.

Insofern Sie im Team korrigieren, sollten Sie sicherstellen, dass alle Beteiligten entsprechend mit dem Bewertungsraster vertraut sind. Denkbar ist hier eine gemeinsame Schulung oder ein Informationsblatt. Sollten trotz guter Vorbereitung während der Korrektur Antworten bewertet werden müssen, die anhand der Regeln nicht eindeutig einer Bewertungskategorie zugeordnet werden können, sollten Sie diese unbedingt als „Grenzfälle“ dem Bewertungsraster hinzufügen und – nach gemeinsamer Absprache – mit einer Entscheidungsregel versehen. Achten Sie darauf, dass Sie alle an der Korrektur beteiligten Personen auf die Änderung aufmerksam machen.

Eine weitere Maßnahme zur Erhöhung der Reliabilität stellt außerdem eine stichprobenartige Zweitkorrektur dar. Sie können damit die Zuverlässigkeit der Beurteilung absichern. Besonders sinnvoll ist dies bei offenen Aufgaben mit einer entsprechend großen Antwortmenge. Überprüfen Sie aber unbedingt, inwieweit das Zweiprüferprinzip nach dem jeweiligen Hochschulgesetz zugelassen ist.

Am folgenden Beispiel soll die Festlegung von Bewertungskriterien sowie die Erstellung eines entsprechenden Bewertungsrasters verdeutlicht werden. Es handelt sich dabei um eine Beispielsaufgabe aus den Vergleichsarbeiten Mathematik der 8. Jahrgangsstufe. Das Beispiel eignet sich insofern gut zur Plausibilisierung des Vorgehens, als es zwei typische Teilaufgaben beinhaltet, die so auch an Hochschulen häufig eingesetzt werden.

Teilaufgabe 1

Thematisiert wird – es handelt sich um eine schulische Beispielsaufgabe – der Kauf eines DVD-Players. Gefordert wird die Berechnung des Kaufpreises bei einem Barkauf.

Kauf eines DVD-Players
In einem Online-Shop im Internet ist ein Angebot für einen tragbaren DVD-Player zu finden. Der ursprüngliche Preis dieses DVD-Players von 99,99 € wird um 20 % reduziert.
Wenn man den Rechnungsbetrag vom Bankkonto abbuchen lässt, bekommt man auf diesen reduzierten Preis nochmal einen Rabatt von 5 %.
Teilaufgabe 1:
Gib den Preis für den DVD-Player an, wenn man ihn ohne Abbuchung vom Bankkonto bezahlt. Runde auf ganze Cent.
_______________ €

Die Aufgabe ist so gestellt, dass es nur ein richtiges Ergebnis geben kann. Entsprechend kann die Aufgabe entweder „richtig“ oder „falsch“ gelöst werden, was einer dichotomen Skalierung entspricht. Auch die Charakterisierung der Antwortmöglichkeiten ist in diesem Fall denkbar einfach. Die Entscheidungsregel bemisst sich ausschließlich am richtigen Ergebnis. Dabei fällt auf, dass hierbei nicht mehr unterschieden wurde, ob das Ergebnis richtig gerundet wurde oder nicht. Das Runden des Ergebnisses wird in diesem Sinne als Teil der abzubildenden Fähigkeit begriffen, insofern die Währung Euro keine weitere Differenzierung zulässt. In anderen Fällen wäre vorstellbar, auch noch eine teilrichtige Lösung zu definieren, um Beispielsweise den Rechenweg mit zu beurteilen oder besagtes Runden als gesondertes Kriterium zu bewerten. Abbildung 1 zeigt das zugehörige Bewertungsraster.

Teilaufgabe 2

In Teilaufgabe 2 gestaltet sich die Festlegung von Bewertungskriterien etwas aufwendiger. Dabei ist die Aufgabe so gestellt, dass sie die Beurteilung einer „höherschwelligen“ Fähigkeit erlaubt.

Die Teilaufgabe enthält zwei weitere Teilaufgaben, nämlich eine dichotome Einschätzung im Einfach-Wahlantwort-Format sowie eine Aufgabenstellung mit offenem Antworttypus. Die Bewertung beider Teilaufgaben erfolgt dennoch dichotom. Im Falle der ersten Teilantwort leuchtet diese Festlegung ein, insofern die Beurteilung entweder falsch oder richtig sein kann. Im Falle der Begründung sind jedoch vermutlich Antwortvarianten zu erwarten, da neben dem zur Verfügung gestellten Platz und der Aufforderung zur Begründung keine weiteren Bedingungen die Antwort einschränken. Entsprechend anspruchsvoll ist es, eine generische Entscheidungsregel für die Zuordnung in „richtig“ oder „falsch“ zu finden.

Die Ableitung erfolgte dabei aus dem zugrundeliegenden Kompetenzverständnis. Überprüft werden sollte die Fähigkeit mathematischen Argumentierens unter Nutzung einer fundierten Vorstellung des Prozentbegriffs. Als richtig sind Antworten einzustufen, die zu erkennen geben, dass sich der Grundwert nach der Preisreduzierung um 20 % verringert, woraufhin die 5 % Rabatt von dem neuen Grundwert abgezogen werden. Daraus ergibt sich auch, dass die in Teilaufgabe 1 aufgestellte Behauptung falsch ist. Es ist offengelassen, ob die Schülerinnen und Schüler die Begründung rechnerisch oder sprachlich formulieren. Teilweise richtige Lösungen, z.B. Lösungen, die zwar sinngemäß richtig sind, jedoch nicht konkret auf die Grund- oder Ausgangswerte verweisen, werden dagegen als falsch eingestuft. Die Entscheidung bei der Auswahl von nur zwei Antwortkategorien wird damit begründet, dass die der korrekte Verweis auf das Prinzip der „Grundwerte“ das geforderte Mindestniveau stellt. In diesem Sinne werden auch die beiden Teilaufgaben innerhalb der Aufgabe als eine Lösung behandelt. Es wird also weiter angenommen, dass die Begründung eine integrale Facette der zugrundeliegenden Kompetenz ist. Auf diese Weise wird gleichzeitig vermieden, dass die Ratewahrscheinlichkeit (50 % für eine richtige Antwort) im dichotomen Teil der Aufgabe zu Verzerrungen bei der Beurteilung führt.

Das entsprechende Bewertungsraster finden Sie in Abbildung 2.

Prüfen II - Abbildung 1 - Beispiel für ein Bewertungsraster

Grafik 5 - Aufgabenbeispiel aus dem VERA-Vergleichsarbeiten

Abbildung 2 - Beispiel für ein Bewertungsraster mit offenem Antwortformat

Korrekturhinweise aus den VERA-Vergleichsarbeiten Mathematik, 8. Jahrgangsstufe; abrufbar unter: http://www.iqb.hu-berlin.de/system/taskpool/getTaskFile?fileid=9779, zuletzt aufgerufen am 11.08.2017.

Allgemeine Informationen zu Vera gibt es unter: https://www.iqb.hu-berlin.de/vera [Stand: 09.03.2018]