Test-Statistiken: Unterschied zwischen den Versionen

Aus helpdesk
Zur Navigation springen Zur Suche springen
(Die Seite wurde neu angelegt: „Moodle zeigt Ihnen umfangreiche Statistiken über die Ergebnisse der Aktivität Tests Test. Die Auswertung der Test-Statistik hilft Ihnen dabei, Ihre Lehre und zukünftige Prüfungen zu verbessern: * Sie können Fragen identifizieren, die zu leicht oder zu schwierig waren. * Sie können Fragen identifizieren, deren voreingestellte Lösung möglicherweise nicht korrekt war. Weitere Informationen zu Test-Statistiken finden Sie auch in den [https://doc…“)
(kein Unterschied)

Version vom 11. Dezember 2024, 14:24 Uhr

Moodle zeigt Ihnen umfangreiche Statistiken über die Ergebnisse der Aktivität Tests Test. Die Auswertung der Test-Statistik hilft Ihnen dabei, Ihre Lehre und zukünftige Prüfungen zu verbessern:

  • Sie können Fragen identifizieren, die zu leicht oder zu schwierig waren.
  • Sie können Fragen identifizieren, deren voreingestellte Lösung möglicherweise nicht korrekt war.

Weitere Informationen zu Test-Statistiken finden Sie auch in den MoodleDocs.

Antwortübersicht

Für einen ersten Überblick können Sie sich die Antworten aller Teilnehmenden anzeigen lassen. Klicken Sie dazu im Test auf den Tab "Ergebnisse". Wählen Sie "Antworten" im Drop-Down-Menü.

Falls Sie nur die Antworten aller Teilnehmenden zu einer einzigen Frage sehen möchten, können Sie auch die Korrektur_von_Moodle-Tests#Manuelle_Korrektur manuelle Korrektur der Frage aufrufen.

Statistiken anzeigen

Um die Statistiken zu einem Test anzuzeigen:

  1. . Öffnen Sie den Test
  2. . Wählen Sie den Tab "Ergebnisse"
  3. . Wählen Sie im Drop-Down "Statistik"

Die Übersichtsseite zeigt Ihnen Statistiken zum Test insgesamt (#Test-Information) und Statistiken zu einzelnen Fragen (#Test-Strukturanalyse).

Test-Information

Als Statistiken zum Test insgesamt zeigt Moodle folgende Metriken an: (Die Metriken sind vereinfacht dargestellt.)

  • Durchschnitt (bei erstem Versuch / aller Versuche / der letzten Bewertung / der bestbewerteten Versuche): Dies ist der Durchschnittswert (arithmetisches Mittel) in Prozent. Der Wert wird für unterschiedliche Arten von Versuchen einzeln gezählt. In Klausuren ist der Wert für alle Phasen identisch, da dort nur ein Versuch gewährt wird.
    • Einzelne extrem gute bzw. schlechte Versuche beeinflussen den Durchschnitt stärker als den Median.
    • Liegt der Wert deutlich unter der Bestehensgrenze, ist der Test schwierig.
    • Liegt der Wert deutlich über der Bestehensgrenze, ist der Test einfach.
  • Median: Zeigt den Median als Prozentwert der Höchstpunktzahl an. Dieser Wert ist gegenüber Ausreißern robuster als der Durchschnitt.
    • Ein niedriger Median deutet auf einen schwierigen Test hin.
    • Ein hoher Median deutet auf einen einfachen Test hin.
  • Standardabweichung: Wie stark streuen die Gesamtergebnisse der Teilnehmenden um den Mittelwert?
    • Hohe Werte deuten auf sehr heterogen abschneidende Teilnehmende.
    • Niedrige Werte deuten auf sehr homogen abschneidende Teilnehmende.
  • Schiefe der Punkteverteilung: Wie symmetrisch ist die Punkteverteilung der Gesamtergebnisse?
    • Hoher positiver Wert: Viele Teilnehmende haben eine niedrige, nur wenige eine hohe Gesamtpunktzahl erreicht.
    • Wert nahe Null: Die Gesamtpunktzahl ist symmetrisch verteilt, starke und schwache Leistungen sind ausgewogen.
    • Hoher negativer Wert: Wenige Teilnehmende haben eine niedrige, viele eine hohe Gesamtpunktzahl erreicht.
  • Bewertungsverteilungsgraph: Bezeichnet die Wölbung (Kurtosis) der Verteilung der Gesamtpunktzahlen.
    • Hohe Werte zeigen, dass viele Ergebnisse am Durchschnitt liegen (spitz verteilt sind).
    • Niedrige Werte zeigen, dass die Ergebnisse stärker (flach) um den Durchschnitt verteilt sind.
  • Koeffizient interner Konsistenz: Misst die Zuverlässigkeit des Tests (Cronbachs Alpha) bzw. wie sehr die Fragen miteinander in Beziehung stehen.
    • Hoher Wert über 0,8: Die Testfragen sind konsistent. Über 0,8 spricht man von von einer guten Konsistenz, über 0,9 von einer exzellenten.
    • Niedriger Wert - unter 0,5: Die Fragen sind nicht konsistent.
  • Fehlerquotient: Je kleiner der Fehlerquotient, umso kleiner sind die zufälligen Unterschiede der Gesamtpunktzahl und umso eher spiegelt der Test den tatsächlichen Wissensstand wider.
  • Standardfehler: Zeigt die zufällige Abweichung einer jeden einzelnen Testbewertung an: Bei einem Standardfehler von 10% und einem Abschneiden einer Person bie 60% liegt der tatsächliche Wissensstand zwischen 50% und 70%.

Test-Strukturanalyse

Die nachfolgenden Werte beziehen sich auf einzelne Fragen. Moodle markiert in der Test-Strukturanalyse einzelne Fragen mit einem roten Hintergrund, sofern Metriken auf ein Problem hinweisen. Bei diesen Fragen lohnt sich ein Blick in die Antworten der Studierenden sowie die Bewertung, welche Antworten als Korrekt konfiguriert wurden.

  • Versuche: Wie viele Teilnehmende haben die Frage beantwortet? Haben wenige Teilnehmende die Frage überhaupt beantwortet ist sie ggf. schwierig. Wird in dem Test die Reihenfolge der Fragen nicht gemischt und befindet sich die Frage gegen Ende des Tests, hatten Teilnehmende ggf. zu wenig Zeit, sie zu bearbeiten.
  • Leichtigkeitsindex: Anteil der Testversuche, in denen die Frage korrekt beantwortet wurde. Ein hoher Wert weist auf eine leichte Frage hin.
  • Standardabweichung: Wie stark weicht die Punktzahl je Frage vom Durchschnitt ab?
  • Ratewahrscheinlichkeit: Mit welcher Wahrscheinlichkeit kann das Ergebnis erraten werden? Die Ratewahrscheinlichkeit kann durch unterschiedliche Maßnahmen unterschiedlich effektiv gesenkt werden:
    • Die Anzahl der Distraktoren erhöhen: Steigt die Anzahl der Distraktoren (falschen Frageitems), ist das Risiko größer, eine geringere Punktzahl beim Raten zu erhalten. Die Distraktoren müssen dennoch mit Bedacht formuliert werden, damit sie nicht leicht ausgeschlossen werden können.
    • Die Anzahl der Items erhöhen: Falls sich die Anzahl der Items erhöht, aber das Verhältnis von korrekten zu falschen Antworten gleich bleibt, wird die Ratewahrscheinlichkeit nicht gesenkt.
    • Fragen anpassen: Formulierungen können Studierenden unbeabsichtigt helfen, die korrekte Antwort zu finden. Passen Sie die Formulierungen der Frage und Antwortmöglichkeiten an, um ein Raten zu erschweren. Antwortoptionen sollten ähnlich elaboriert und vergleichbar lang gestaltet werden, um nicht versehentlich auf die korrekte Antwort zu verweisen.
      • Signalwörter oder absolute Formulierungen (z.B. "immer", "nie", "ausschließlich") können Studierenden dabei helfen, falsche Antworten auszuschließen, obwohl sie die richtige Antwort nicht kennen.
      • Die Länge der Antwortoptionen sollte vergleichbar sein. Als Ratestrategie könnten ansonsten die längeren Optionen gewählt werden.
      • Der Sprachstil sollte ähnlich elaboriert sein. Elaboriert formulierte Antworten könnten ansonsten alltagssprachlichen Antworten beim Raten vorgezogen werden.
      • Absurde Antworten eignen sich nicht als Distraktor, da sie leicht ausgeschlossen werden können.
      • Die Antwortoption sollte grammatikalisch zum Fragenstamm passen.
      • Vorherige Fragen sollten nicht die Antwort anderer Fragen vorwegnehmen.
      • Gegensätzliche Aussagen legen den Fokus der Ratestrategie auf dieses Antwortpaar. Mit Hilfe anderer Antworten kann die korrekte Antwort weiter eingegrenzt werden.
      • Werden Wörter aus dem Fragenstamm in der Antwortoption wiederholt, lenkt dies die Aufmerksamkeit auf diese Antwortoption.
    • Minuspunkte: Der Einsatz von negativen Punkten für falsche Antworten ist prüfungsrechtlich nicht zugelassen, sofern es sich um eine Prüfung handelt. Für Selbsttests, die nicht benotet werden oder keine Voraussetzung für eine Prüfungsteilnahme darstellen, sind Malus-Punkte hingegen möglich.
    • Alles-oder-nichts-Bewertung: (Auch 1/0 Bewertung) Hiermit erhalten Studierende entweder die volle Punktzahl, wenn sie alle Items einer Frage korrekt beantworten, ansonsten erhalten sie keine Punkte. Dieses Bewertungsschema ist nur bei Fragen sinnvoll, bei denen es "um Leben oder Tod" geht, etwa bei Fragen in der Medizin, der Statik von Brücken und ähnliche kritische Fälle, bei denen durch Nichtwissen Personen zu Schaden kommen. Bei Fragen mit geringerer Dringlichkeit ist die Bewertung zu harsch.
    • Skalierung der Bewertung: Innerhalb der Frage kann (im Fragetype kprime) anstelle der Bewertungsmethode "Teilpunkte" auch die Methode "kprime" gewählt werden (siehe [Tests#Kprime]). Damit wird strenger bewertet, was den Anreiz zum Raten mindert: Wird weniger als die Hälfte der Antwortoptionen korrekt beantwortet, werden keine Punkte vergeben. Zwischen 50% und unterhalb von 100% korrekter Antwortitems in der Frage erhalten Studierende 50% der Punkte.

Statistiken selbst berechnen

Falls Sie Statistiken lieber selbst berechnen möchten, können Sie die Ergebnisse auch als Excel-Datei (oder CSV-Datei) exportieren und dann eigenständig weiterverarbeiten.

Statistiken in der Fragensammlung

Neben den Statistiken eines [Tests] finden Sie in der Fragensammlung Statistiken zu den einzelnen Fragen, unabhängig davon, in welchem Test sie verwendet wurden. Folgende Aspekte lassen sich z.B. in der Fragensammlung vergleichen:

  • Ist eine Version der Frage leichter als eine andere?
  • Ist bei Fragen, die in einem Fragenpool als Zufallsfrage gezogen werden, eine Varianter leichter als andere?

Um die Ergebnisse Ihrer Analyse zu notieren, können Sie Fragen mit Stichworten (Tags) versehen, z.B. "einfach", "nicht verwenden", "Starterfrage" etc.