[Teaching evaluation at the Medical Faculty of Freiburg, part II: formative teaching evaluation]
Verena Peus 1Gabriele Valerius 1
Lars Sch?rer 2
Tobias Freyer 2
Mathias Berger 2
Ulrich Voderholzer 2
1 Albert Ludwigs-Universit?t Freiburg, Studiendekanat der Medizinischen Fakult?t, Freiburg, Deutschland
2 Universit?tsklinik f?r Psychiatrie und Psychosomatik, Abteilung f?r Psychiatrie und Psychotherapie, Freiburg, Deutschland
Abstract
In addition to the annual summative evaluation of the entire curriculum at the Medical Faculty of Freiburg a formative course evaluation has been developed. The primary goal was a valid and detailed analysis of the quality of structure, process and outcome concerning the several courses as a basis for quality improvement.
Method: The multidimensional questionnaire was constructed in consideration of academic and pragmatic aspects.
The student evaluation takes place at the end of the individual course. The instructor receives the results on the next working day.
Results: The internal consistency of the questionnaire as well as of its four main components supply evidence for the reliability of the procedure. Validity of content is ensured by the method of construction. The analysis of the four main components of the questionnaire shows construct validity. The assumed bias variables "interest in the subject" and "previous knowledge" did not influence the overall score. The clear improvements of the results indicate the relevance of the evaluation system.
Conclusions: The formative teaching evaluation of the Medical Faculty of Freiburg allows a valid assessment of teaching quality. At the same time it provides precise perspectives for quality improving measures. Therefore it is highly accepted and effectively used by the instructors.
Keywords
teaching evaluation, quality management in medical education, questionnaire construction, dimensions of teaching quality
Einleitung und Fragestellung
Im Sommersemester (SS) 2000 wurde an der Medizinischen Fakult?t Freiburg erg?nzend zur summativen Jahresendevaluation (s. Peus et al., Lehrevaluation der Medizinischen Fakult?t Freiburg Teil I - Das Evaluationssystem im ?berblick, in dieser Ausgabe) eine formative Lehrveranstaltungsevaluation entwickelt. Anspruch war eine Beschreibung der einzelnen Lehrveranstaltungen im Sinne der Struktur-, Prozess- und Ergebnisqualit?t als Grundlage f?r Verbesserungen. Die Implementierung eines solchen Verfahrens erfordert ein multidimensionales Konstrukt der Lehrqualit?t [3], [4], [6], [8] und ein Erhebungsinstrument, das dieses Konstrukt valide misst. Sehr umstritten ist die Frage, ob Studierende in der Lage sind, Lehrqualit?t valide zu beurteilen. Dabei soll nicht die Relevanz der Inhalte und deren Vermittlung f?r den sp?teren Klinikalltag bewertet werden, da diese Fragestellung lediglich retrospektiv im Rahmen einer Absolventenbefragung bearbeitet werden kann. Untersuchungsgegenstand ist vielmehr, inwieweit die Inhalte dem Ausbildungsstand angemessen und in eing?ngiger Weise vermittelt werden.
Viel diskutiert ist die Frage, ob das studentische Urteil tats?chlich eine Funktion didaktischer und anderer die Lehrqualit?t definierender Faktoren darstellt oder ob die Bewertung durch verschiedene andere Einfl?sse (z.B. Interesse am Thema, Uhrzeit, Geschlecht und Aussehen des Dozenten) verzerrt wird. Der Einfluss potentieller Zerrfaktoren wurde in zahlreichen internationalen Studien gepr?ft. Lediglich das Interesse am Thema wies kontinuierliche Zusammenh?nge mit der Gesamtbeurteilung auf [1], [2], [3], [7].
Im Folgenden sollen zun?chst das Fragebogenkonstruktionsverfahren und die Durchf?hrung der Evaluation dargestellt werden. Anschlie?end wird ?berpr?ft, ob die Freiburger Evaluation eine valide, unverzerrte Beurteilung der Lehrqualit?t liefert. Nachdem das Ziel jeglicher Evaluation nicht nur die Bewertung, sondern vor allem die Verbesserung der Lehre ist, wird zuletzt der Frage nachgegangen, ob die Evaluation tats?chlich zu Ver?nderungen/Verbesserungen im Lehrbetrieb gef?hrt hat.
Methoden
Itemgenerierung/Fragebogenkonstruktion
Die Methodik der Fragebogenkonstruktion wurde den Arbeiten von Rindermann [4], [6] und Stangl [8] entnommen. Orientierung boten die Inventare „Heidelberger Inventar zur Evaluation von Lehrveranstaltungen" HILVE [5] und „Lehrveranstaltungsbegleitende Evaluation" LVBE [9]. Der Fragebogen wurde in einem speziellen Gremium, bestehend aus einem Statistiker und mehreren Psychologen, didaktisch ausgebildeten Medizindozenten und mehreren Studierenden entwickelt. Zur Generierung des zu messenden Konstruktes „Lehrqualit?t" wurde zun?chst eine Umfrage durchgef?hrt. Die Stichprobe umfasste 30 Studierende verschiedener Studienjahre und 10 Dozenten aus den Abteilungen Psychiatrie und Psychotherapie und Dermatologie. Ermittelt wurden unter Verwendung offener Fragen Variablen der Lehrqualit?t und deren relative Wichtigkeit f?r die Gesamtqualit?t. Die durch die Befragung identifizierten Kategorien der Lehrqualit?t entsprachen im Wesentlichen denen Rindermanns [4], [6] und Stangls [8]. Die Integration von Umfrage, Theorie und Beispielb?gen ergab folgende Dimensionen (Erkl?rung Itemabk?rzungen Tabelle 1 [Tab. 1]):
• Didaktische Qualit?t der Lehrveranstaltung repr?sentiert durch klare Struktur, Medieneinsatz, Rhetorik, Verst?ndlichkeit, sinnvolle Einbeziehung der Patientenvorstellung;
• Soziale (interaktive) Komponente repr?sentiert durch Patientenumgang, Studentenmotivation und M?glichkeit, Fragen zu stellen;
• Leistungskomponente repr?sentiert durch Verh?ltnis von Grundlagen- und Detailwissen, Lerneffekt, Anpassung an den Ausbildungsstand der Teilnehmer, Pr?fungsrelevanz, klinische Bez?ge;
• Personale Komponenten des Dozenten repr?sentiert durch Dozentenmotivation;
• Studentische Komponenten repr?sentiert durch das Vorinteresse (zu Beginn der Veranstaltung) und Vorkenntnisse.
Der Standardfragebogen (Abbildung 1 [Abb. 1]) beinhaltet au?erdem die Abfrage einer Gesamtnote. Die Benotung der geschlossenen Fragen beruht auf einer f?nfstufigen Likert-Skala. F?r freie Kommentare steht ein Textfeld zur Verf?gung. Ein erster Probelauf in der Hauptvorlesung Psychiatrie und Psychotherapie diente der ?berpr?fung der G?tekriterien. Statistische Analysen erm?glichten die Beschr?nkung auf weniger Items mit der Intention, einer Evaluationsm?digkeit vorzubeugen. Seit dem Wintersemester (WS) 2001/2002 werden die Lehrziele im Erhebungsinstrument ber?cksichtigt. Erfragt werden Zustimmung, Qualit?t der Vermittlung und Zielerreichung (s. Abbildung 1 [Abb. 1]).
Datenerhebung/-auswertung
Der Einsatz der formativen Lehrveranstaltungsevaluation liegt in der Verantwortung der einzelnen F?cher. Die Frageb?gen werden fachspezifisch unter Wahrung eines Standardfragenpools in Zusammenarbeit von Evaluationskommission und der jeweiligen Abteilung zusammengestellt. Die Evaluation kann nach jeder Veranstaltung, nach jedem Dozentenwechsel oder nach definierten Zeitabschnitten erfolgen. Die B?gen werden zur Auswertung unmittelbar an ein externes Software-Unternehmen versandt. Die Ergebnisse liegen dem Dozenten bereits am n?chsten Werktag vor (E-Mail-Versand).
Da die formative Lehrveranstaltungsevaluation in der Abteilung f?r Psychiatrie und Psychotherapie entwickelt und etabliert wurde, wurden die im Folgenden dargestellten Untersuchungen anhand der Bewertungen der Hauptvorlesung Psychiatrie und Psychotherapie vorgenommen. Die Evaluation wird in der Abteilung seit ihrer Einf?hrung im Jahr 2000 konsequent nach jeder Vorlesungsdoppelstunde durchgef?hrt. Im Durchschnitt beteiligten sich ca. 100 Studierende des 5. Studienjahres an der Befragung. Der R?cklauf der Frageb?gen (Anzahl der abgegebenen Frageb?gen/Anzahl der vom Vorlesungsassistenten gez?hlten Teilnehmer) lag von Veranstaltung zu Veranstaltung zwischen 70% und 90%.
Ergebnisse
1. ?berpr?fung der Validit?t des Verfahrens
Validit?t setzt voraus, dass die Testg?tekriterien Objektivit?t und Reliabilit?t erf?llt sind. Auswertungs- und Interpretationsobjektivit?t sind durch die standardisierte deskriptive Statistik und die klare Zuordnung zum Schulnotensystem gegeben.
Durch die Berechnung der internen Konsistenz des Erhebungsinstrumentes sowie der durch Hauptkomponentenanalyse mit Varimaxrotation (Tabelle 2 [Tab. 2], Erkl?rung Itemabk?rzungen Tabelle 1 [Tab. 1]) identifizierten 4 Faktoren wurde die Reliabilit?t gemessen. Bei der Analyse ?ber alle Items konnte eine sehr hohe Reliabilit?t (Cronbachs α = 0,9135) nachgewiesen werden. F?r den Faktor „Didaktische Qualit?t" wurde ebenfalls eine sehr hohe Reliabilit?t (Cronbachs α = 0,9324), f?r die Faktoren „Soziale Komponente" (Cronbachs α = 0,6406) und „Studentische Variablen" (Cronbachs α = 0,5249) eine mittlere Reliabilit?t ermittelt. Der Faktor „Leistungskomponente" wies keine interne Konsistenz auf.
Inhaltliche Validit?t ist wegen des Konstruktionsverfahren durch Experten auf der Basis von Umfragen unter Studierenden und Dozenten und unter Anlehnung an den aktuellen Forschungsstand und bestehende Inventare mit nachgewiesener Validit?t gegeben.
Die Konstruktvalidit?t kann statistisch ?berpr?ft werden. Das zugrunde liegende Konstrukt Lehrqualit?t besteht aus den oben beschriebenen Dimensionen, die durch Faktorenanalysen klar best?tigt werden konnten (Tabelle 2 [Tab. 2]).
Als potentielle Zerrfaktoren wurden die Variablen „Themainteresse" und „Vorkenntnisse" (Erkl?rung Itemabk?rzungen Tabelle 1 [Tab. 1]) untersucht. Tabelle 3 [Tab. 3] zeigt die Korrelationskoeffizienten der einzelnen Items mit der Gesamtnote. Es wird deutlich, dass die Kriterien des Faktors „Didaktische Qualit?t" die h?chsten Korrelationen mit der Gesamtnote aufweisen, w?hrend die vermuteten Zerrvariablen „Themainteresse" und „Vorkenntnisse" sehr niedrige Korrelationen mit der Gesamtnote zeigen.
2. ?berpr?fung der Ver?nderungen im Lehrbetrieb
Zun?chst wurden die Items identifiziert, die am h?chsten mit der erhobenen Gesamtnote korrelieren (Tabelle 3 [Tab. 3]). Ausgeschlossen wurden die Items „Evaluation_bisher;" „Lehrziel_?berzeugt", „Lehrzielvermittlung", „Lehrziele_erreicht" und „Zustimmung" (Erkl?rung Itemabk?rzungen Tabelle 1 [Tab. 1]), da sie nicht ?ber alle Semester abgefragt wurden. Betrachtet wurden die Items „Motivierend", „Rhetorik", „Verst?ndlichkeit" und „Struktur" (Erkl?rung s. Itemabk?rzungen Tabelle 1 [Tab. 1]). Anhand dieser Items wurde die Entwicklung der Evaluationsergebnisse einzelner Dozenten dargestellt. Ein Vergleich ?ber alle Dozenten ist nicht m?glich, da viele Veranstaltungen desselben Themas von unterschiedlichen Dozenten gehalten wurden. Verglichen wurden alle Veranstaltungen, die vom selben Dozenten zum selben Thema in aufeinander folgenden Semestern gehalten wurden. Bis auf einen zeigten alle acht Dozenten deutliche, f?r die Mehrzahl der Parameter signifikante Verbesserungen ihrer Evaluationsergebnisse. Die Abbildungen 2-5 [Abb. 2] [Abb. 3] [Abb. 4] [Abb. 5] zeigen diese Entwicklung exemplarisch f?r vier Dozenten.
Diskussion
Die formative Lehrveranstaltungsevaluation der Medizinischen Fakult?t Freiburg wird sowohl wissenschaftlichen als auch pragmatischen Anspr?chen gerecht. Sie liefert eine detaillierte und valide Beurteilung der Lehrqualit?t und f?hrt zu Ver?nderungen des Dozentenverhaltens, die sich in deutlichen, gro?enteils signifikanten Verbesserungen der Evaluationsergebnisse wiederspiegeln.
Die Einf?hrung der formativen Lehrveranstaltungsevaluation war zun?chst in der Fakult?t sehr umstritten. Die Urteilsf?higkeit der Studierenden wurde in Frage gestellt, eine schnell zunehmende Evaluationsm?digkeit unter den Studierenden aufgrund der H?ufigkeit der Evaluation und eine mangelnde Akzeptanz des Verfahrens durch die Dozenten wurden bef?rchtet. Weiterhin wurde bezweifelt, ob die Ergebnisse pragmatische, handlungsrelevante Informationen liefern w?rden. Unter besonderer Ber?cksichtigung dieser Aspekte wurde dann das in dieser Arbeit untersuchte Verfahren entwickelt. Diesem liegt ein sehr dezidiertes, multidimensionales Konstrukt der Lehrqualit?t zugrunde, das Struktur-, Prozess- und Ergebnisqualit?t sowie potentielle Zerrfaktoren ber?cksichtigt. Das aufwendige Konstruktionsverfahren gew?hrleistet die Befriedigung wissenschaftlicher und pragmatischer Anspr?che durch die Integration von aktuellem Evaluationsforschungsstand, Orientierung an validierten Inventaren und Befragung von Studierenden und Dozenten der Fakult?t.
Sowohl die Faktorenanalysen als auch die Korrelationsanalysen sprechen f?r die differenzierte Urteilsf?higkeit der Studierenden. Die Berechnung der Korrelationen der einzelnen Items mit der Gesamtnote ergab, dass diese haupts?chlich eine Funktion der didaktischen Variablen ist. Die vermuteten Zerrvariablen „Themainteresse" und „Vorkenntnisse" zeigen die geringsten Zusammenh?nge mit der Gesamtnote. Die bef?rchtete Evaluationsm?digkeit kann aufgrund der kontinuierlich hohen R?cklaufzahlen ausgeschlossen werden. Diese sprechen auch f?r die wahrgenommene Relevanz des Verfahrens auf Seiten der Studierenden. Dass die Evaluation dem einzelnen Dozenten konkrete Handlungsperspektiven aufzeigt, gro?e Akzeptanz findet und intensiv als Instrument genutzt wird, zeigen die deutlichen Verbesserungen der Dozentenergebnisse bei nachfolgenden Lehrveranstaltungen mit dem selben Thema. Eine erhebliche Rolle spielt in diesem Zusammenhang sicherlich die umgehende Auswertung der Evaluation noch am selben Tag und die kontinuierliche Durchf?hrung, die die ?berpr?fung der Wirksamkeit ergriffener Ma?nahmen erm?glicht. Zur weiteren Optimierung des Verfahrens sollten die Ergebnisse zuk?nftig verst?rkt als Grundlage einer hochschuldidaktischen Weiterbildung dienen. Weiterhin ist eine Anwendung des Verfahrens in modifizierter Form z.B. im Bereich von Kursen, Pr?fungen und der ?rztlichen Weiterbildung denkbar.
Literatur
[1] Cashin WE, Downey RG. Using global student rating items for summative evaluation. J Educ Psychol. 1992;84:563-572.[2] d`Apollonia S, Abrami PC. Navigating student ratings of instruction. Am Psychol. 1997;52:1198-1208.
[3] Marsh HW. Students? evaluations of university teaching: Dimensionality, reliability, validity, potential biases, and utility. J Educ Psychol. 1984;76(5):707-754.
[4] Rindermann H. Das M?nchner multifaktorielle Modell der Lehrveranstaltungsqualit?t. Entwicklung, Begr?ndung und ?berpr?fung. Beitr Hochsch Forsch. 1998;3:189-224.
[5] Rindermann H. Lehrevaluation: Einf?hrung und ?berblick zu Forschung und Praxis der Lehrveranstaltungsevaluation an Hochschulen mit einem Beitrag zur Evaluation computerbasierten Unterrichtes. Landau: Verlag Empirische P?dagogik; 2001. p. 381-384.
[6] Rindermann, H. Die studentische Beurteilung von Lehrveranstaltungen - Forschungsstand und Implikationen. In: Spiel CH (Hrsg.): Evaluation universit?rer Lehre - zwischen Qualit?tsmanagement und Selbstzweck. M?nster: Waxmann; 2001. p. 61-88.
[7] Spiel C, G?ssler PM. Zum Einfluss von Biasvariablen auf die Bewertung universit?rer Lehre durch die Studierenden. Z Entwicklungspsychol Padagog Psychol. 2000;14:38-47.
[8] Stangl W. Die Evaluation universit?rer Lehrveranstaltungen. [homepage on the Internet]. Linz: p@psch Linz; c1998ff. Available from: http://paedpsych.jk.uni-linz.ac.at/paedpsych/Evaluation.
[9] Stangl W. Lehrveranstaltungsbegleitende Evaluation (LVBE) [homepage on the Internet). Linz: Stangl; c1996-98 Available from: http://paedpsych.jk.uni-linz.ac.at/paedpsych/evaluation/LVBE/LVBE.