Leitsymptomvorlesungen im klinischen Studienabschnitt - Effekte evaluationsbasierter Interventionen auf eine Großgruppen-Lehrveranstaltung

zma000727 10.3205/zma000727 urn:nbn:de:0183-zma0007272 Forschungsarbeit research article Leitsymptomvorlesungen im klinischen Studienabschnitt - Effekte evaluationsbasierter Interventionen auf eine Großgruppen-Lehrveranstaltung Lectures based on cardinal symptoms in undergraduate medicine - effects of evaluation-based interventions on teaching large groups Kuhnigk Kuhnigk Olaf O Dr. med. MME (Bern)

Universitätsklinikum Hamburg-Eppendorf, Klinik für Psychiatrie und Psychotherapie, Martinistraße 52, 20246 Hamburg, Deutschland, Tel.: +49 (0)40/7410-57675, Fax: +49 (0)40/7410-54702Universitätsklinikum Hamburg-Eppendorf, Klinik für Psychiatrie und Psychotherapie, Hamburg, DeutschlandUniversitätsklinikum Hamburg-Eppendorf, Prodekanat für Lehre, Hamburg, Deutschland

o.kuhnigk@uke.de author Weidtmann Weidtmann Katja K Dr. med.

Universitätsklinikum Hamburg-Eppendorf, Prodekanat für Lehre, Hamburg, Deutschland

author Anders Anders Sven S Dr. med.

Universitätsklinikum Hamburg-Eppendorf, Institut für Rechtsmedizin, Hamburg, Deutschland

s.anders@uke.uni-hamburg.de author Hüneke Hüneke Bernd B Prof. Dr. med.

Universitätsklinikum Hamburg-Eppendorf, Klinik und Poliklinik für Geburtshilfe und Pränatalmedizin, Hamburg, Deutschland

hueneke@uke.uni-hamburg.de author Santer Santer René R

Universitätsklinikum Hamburg-Eppendorf, Klinik und Poliklinik für Kinder- und Jugendmedizin, Hamburg, Deutschland

author Harendza Harendza Sigrid S PD Dr. med. MME

Universitätsklinikum Hamburg-Eppendorf, III. Medizinische Klinik, Hamburg, Deutschland

:harendza@uke.uni-hamburg.de author German Medical Science GMS Publishing House

Düsseldorf

610 Lecture evaluation audit intervention guideline didactic skills faculty development quality assurance Vorlesung Evaluation Audit Intervention Leitfaden didaktische Fertigkeiten Dozententraining Qualitätssicherung medicine Humanmedizin 20100115 20100802 20100923 20110204 germ engl 1860-3572 28 1 GMS Zeitschrift für Medizinische Ausbildung GMS Z Med Ausbild 15 In der medizinischen Hochschulausbildung ist das Veranstaltungsformat „Vorlesung“ trotz vielfacher Kritik weiterhin ein wesentliches Element bestehender Curricula. Im Rahmen der Studienreform an der Medizinischen Fakultät der Universität Hamburg im Jahr 2004 wurden im reformierten klinischen Curriculum die fachspezifischen Vorlesungen durch Leitsymptomvorlesungen (LSV) ersetzt, die sich durch alle sechs Themenblöcke der Studienjahre drei bis fünf ziehen. Da die regelmäßigen Trimesterabschlussevaluationen der Studierenden auf einen Verbesserungsbedarf der LSV hindeuteten, wurde in dieser Studie die LSV mit Terminevaluationen durch anwesende Studierende und durch geschulte Auditoren (PJ-Studierende und wissenschaftliche Mitarbeiter) untersucht. Auf der Basis dieser Ergebnisse erfolgte ein schriftliches Feedback der Evaluationsdaten an die Lehrenden in Kombination mit Informationsmaterial über eine optimale Gestaltung der LSV nach modernen didaktischen Gesichtspunkten. In einer zweiten Erhebung wurden die Effekte der Intervention untersucht. Es zeigte sich, dass auf der Ebene von Schulnoten nach der Intervention nur geringe Verbesserungen der Qualität der LSV bemerkbar waren. In der Bewertung der Einzelmerkmale, insbesondere zur didaktischen Qualität, ließen sich hingegen signifikante Verbesserungen aufzeigen. Insgesamt bewerteten Studierende die LSV in der ersten Erhebungsphase bezogen auf die Einzelmerkmale signifikant positiver als die geschulten Auditoren. Dieser Effekt war in der zweiten Erhebungsphase nicht mehr nachweisbar. Unter den Auditoren bestand eine gute Inter-Rater-Reliabilität. Durch diese Untersuchung wurde insbesondere deutlich, dass die Einbettung von Lehrveranstaltungen auf struktureller und personeller Ebene in curriculare Gesamtkonzepte regelmäßig durch Qualitätssicherungsmaßnahmen zu begleiten ist. Wie häufig und in welcher Form strukturierte Rückmeldungen nach Evaluationen erfolgen müssen, um nachhaltige Effekte auf die didaktische Qualität der Lehrveranstaltungen zu haben, müssen zukünftige Studien zeigen. Despite critical voices lectures are still an important teaching format in current medical curricula. With the curricular reform at Hamburg Medical Faculty in the year 2004, all subject specific lectures were replaced by cardinal symptom oriented lectures (LSV) in the new clinical curriculum. LSVs are taught throughout all six thematic blocks in years three to five. Since regular student evaluations after each thematic block seemed to demand improvement of the LSVs, this study was carried out using evaluations of individual LSVs by the participating students and by trained auditors (final year students and academic staff). Based on these evaluations feedback containing the individual evaluation data was given in written form to the lecturers combined with information material on planning an LSV using modern didactic techniques. In a second evaluation period, the effects of this intervention were studied. Only small improvements in the LSVs’ quality were noted regarding the level of marks achieved. When individual items were evaluated, especially the didactic quality, significant improvements were noticeable. Overall, on the basis of individual items students ranked the quality of the LSVs significantly higher than trained auditors during the first evaluation period. This effect was no longer seen after the second evaluation period. The inter rater reliability among the auditors was very good. This study shows that regular quality assurance is needed on the structural levels and for staff to accompany the process of embedding teaching formats into curricular concepts. Further investigation is needed to determine the adequate frequency of evaluation and the format of feedback to guarantee sustainable effects of the didactic quality of lectures. EinleitungVorlesungen als LernformatDas Veranstaltungsformat „Vorlesung“ ist trotz Kritik und sich daraus ergebender Studienreformen weiterhin ein für die medizinische Ausbildung wichtiges didaktisches Element . Einerseits wird am traditionell-systematischen Frontalvortrag kritisiert, dass er für die Entwicklung von eigenständigem Denken nicht förderlich sei. Andererseits bieten Vorlesungen die Möglichkeit, Gruppen von Lernenden Informationen ökonomisch und ressourceneffizient zu vermitteln, einen Einstieg in komplexere Themen zu liefern, sowie aktuelle Forschungsergebnisse und persönliche, klinische oder wissenschaftliche Erfahrungen darzustellen . Damit diese potentiellen Vorteile der Vorlesung genutzt werden können, sollte das Veranstaltungsformat „Vorlesung“ in die an Lernzielen orientierten curricularen Rahmenbedingungen eingefügt und zur Stimulation des eigenverantwortlichen Lernens der Studierenden mit anderen Lernformaten verknüpft werden . Inhaltlich hat sich hierbei vor allem das fallbezogene Unterrichtsformat bewährt .Leitsymptomvorlesungen im Hamburger CurriculumAn der Medizinischen Fakultät der Universität Hamburg erfolgte im Jahr 2004 eine umfassende Reform des klinischen Studienabschnitts, wobei das reformierte Klinische Curriculum Medizin (KliniCuM) auf eine fächerübergreifende und praxisbezogene Ausbildung abzielt . Der Unterricht der Studienjahre drei bis fünf ist in sechs Themenblöcke und ein Wahlfach aufgeteilt und am Hamburger Lernzielkatalog orientiert, der die verschiedenen Lerndimensionen und Kompetenzebenen abbildet. Systematische, fachspezifische Vorlesungen wurden im Zuge dieses Reformprozesses abgeschafft und durch Vorlesungen ersetzt, die sich fallbezogen an führenden Symptomen verschiedener Krankheiten orientieren. Das Konzept der Leitsymptomvorlesung (LSV) ist ein zentraler Bestandteil des KliniCuM, der sich als roter Faden durch alle Themenblöcke zieht und Zusammenhänge zwischen Inhalten anderer Veranstaltungen (z.B. problemorientierte Tutorien, Unterricht am Krankenbett) erkennbar macht. Erste Ergebnisse der Besuchsquoten und der Evaluationen deuteten auf eine größere Studierendenzufriedenheit mit dem neuen Format im Vergleich zu Vorlesungen vor der Studienreform hin. Allerdings zeigte sich auch früh Verbesserungsbedarf, wobei jedoch die konkreten Kritikpunkte der Studierenden an der LSV in eher allgemein gehaltenen Kommentaren der nach dem jeweiligen Trimester durchgeführten Abschlussevaluation weitgehend unklar blieben .Evaluation als InterventionsbasisStudierende sind in der Lage, die didaktische Qualität von Lehrveranstaltungen reliabel und valide zu bewerten , . Gleichzeitig wird jedoch gefordert, Lehrevaluationen nicht allein auf studentische Beurteilungen zu stützen , . Da die LSV nach den oben genannten Kriterien , für eine inhaltlich sinnvolle Nutzung dieses Lernformats konzipiert worden war, führten wir zur Qualitätskontrolle die hier vorliegende Studie durch. Diese beinhaltet eine detaillierte Untersuchung der an der LSV empfundenen Mängel und die Beobachtung der Auswirkungen einer auf dieser Mängelanalyse basierenden Intervention zur Optimierung dieser Veranstaltungsform. IntroductionLectures as a learning formatThe teaching format „lecture“ is, despite criticism and subsequent curricular reforms, still an important didactic element in undergraduate medical education . On the one hand, traditional systematic lectures are criticised for not promoting the development of independent thinking. On the other hand, they provide an opportunity to impart information to groups of learners in an economical and resource-efficient way, to deliver an introduction to complex topics, and to describe current research results and personal, clinical or scientific experiences . To benefit form the potential advantages of lectures as a teaching format they should be blended into a curricular framework and linked with other teaching formats to stimulate students’ learning on their own accord . In this respect, a case based format has proved its value .Cardinal symptom-based lectures in the Hamburg curriculumA comprehensive reform of the clinical part of the undergraduate medical curriculum at the medical faculty of the University of Hamburg was carried out in 2004 with the main focus of the reformed clinical curriculum in medicine (KliniCuM) being on better integration of the subjects and greater practical educational components . Lessons of curricular years three to five are distributed in six thematic blocks and one elective block and content is organized according to the Hamburg catalogue of learning objectives which depicts the different dimensions of learning and levels of competencies. Systematic and subject-specific lectures were abolished during the reform process and replaced by lectures which are case-based, with their contents geared to the cardinal symptoms of different diseases. The concept of these cardinal symptom-oriented lectures (LSV) is an integral part of KliniCuM which runs through all thematic blocks as a thread and reveals the content links to the other learning sessions (problem based tutorials, bedside teaching). First measurements of participant numbers and evaluation data promise greater student satisfaction with this new lecture format as compared with the lecture format prior to the reform. A need for further improvement was still visible shortly after the reform, yet concrete points of critique were formulated by the students in mostly global commentaries in the evaluations held at the end of every thematic block and remained somewhat unclear .Evaluation as basis for interventionStudents have the ability to evaluate the didactic quality of courses in a valid and reliable way , . At the same time there is a high demand to base the evaluation of teaching not only on student judgement , . Since the LSV was designed to use the value of the teaching format “lecture” according to the above mentioned criteria , , we performed this study for quality control. This included a detailed investigation of the critiques and shortcomings mentioned in the evaluations and the observations of the impact of intervention based on this analysis regarding the improvement of this teaching format. MethodenFragestellung und HypothesenIn der vorliegenden Studie wurden zwei Fragen untersucht. Erstens: Lassen sich bei Terminevaluationen durch Vorlesungsteilnehmende und Audits durch geschulte Auditoren nach einer Intervention, die auf dem Boden der erhobenen Ergebnisse durchgeführt wird, Veränderungen in der Bewertung der LSV feststellen? Zweitens: Unterscheiden sich die Bewertungen der anwesenden Studierenden von den Urteilen geschulter Auditoren?Die zentralen Hypothesen der Studie lauteten:Die LSV wird nach einer Intervention, insbesondere in den didaktischen Bewertungen, positiver beurteilt als vor der Intervention.Die Bewertungen geschulter Auditoren sind einheitlicher und insgesamt kritischer als die der Studierenden.ErhebungsinstrumenteEine Übersicht über den Ablauf der Studie, die sich in zwei Erhebungsphasen und eine dazwischen liegende Interventionsphase gliedert, ist in Abbildung 1 dargestellt. In einer Pilotphase war eine Checkliste für Audits der Leitsymptomvorlesung konzipiert und validiert worden . Sie beinhaltete sieben Merkmale zu Struktur und Inhalt der Vorlesung sowie neun Merkmale zu didaktischen Fertigkeiten der Dozierenden. Die Gruppe der Auditoren setzte sich aus acht wissenschaftlichen Mitarbeitern und 14 Studierenden im Praktischen Jahr zusammen. Es wurden jeweils Auditorenpaare aus einem wissenschaftlichen Mitarbeiter und einem Studierenden ausgelost, um eventuelle systematische Unterschiede, z.B. durch den Status (Nicht-Studierender/Studierender) begründete divergierende Perspektiven, zu kontrollieren. Vor der Pilotphase erfolgte eine dreistündige Schulung aller Auditoren, in der das Testinstrument erklärt und ein für die Evaluation standardisiertes methodisches Vorgehen eingeübt wurden. Außerdem wurde ein Fragebogen zur Terminevaluation für die in der LSV anwesenden Studierenden entworfen. Dieser enthielt sowohl zentrale Aspekte der Vorlesung wie Orientierung an Leitsymptomen, Praxisbezug oder strukturierter Aufbau, als auch Merkmale der Lehrperson, z.B. Art des Umgangs mit den Studierenden, Verständlichkeit und Anschaulichkeit des Vortrags. Die Terminevaluation dokumentierte zudem Charakteristika der Studierenden, z.B. Geschlecht und Regelmäßigkeit des Vorlesungsbesuchs. Merkmale der Fragebögen und Checklisten waren auf einer 6-stufigen Likert-Skala zu bewerten (1: „trifft gar nicht zu“ bis 6: „trifft sehr zu“). Freitextkommentare waren darüber hinaus möglich und die Gesamtbewertung der Veranstaltung erfolgte in Form einer Schulnote (1=sehr gut, 2=gut, 3=befriedigend, 4=ausreichend, 5=mangelhaft, 6=ungenügend). Die Datenerhebungsinstrumente erwiesen sich in den Pilottestungen als praktikabel und verständlich. Sie wurden für die Erhebungen nur noch geringfügig modifiziert, zum Beispiel durch Umstellung der Fragenreihenfolge oder durch Verdeutlichung von Merkmalen durch Nennung von Beispielen in Klammern.Da sich in den Pilottestungen in einigen Bereichen deutliche Unterschiede zwischen den beiden Auditorengruppen (wissenschaftliche Mitarbeiter / PJ-Studierende) ergaben, wurde vermutet, dass die initiale Schulung der Auditoren nicht alle wesentlichen Aspekte ausreichend hatte vermitteln können. Es erfolgte daher eine zweite Schulung vor Beginn der ersten Erhebungsphase mit einer erläuternden Zusammenfassung des Konzepts der LSV im KliniCuM, einer Illustration der Orientierung an Leitsymptomen und von Bezügen zwischen den Fächern des Themenblocks sowie der Vermittlung von leitsymptom-orientiertem Fachwissen anhand von konkreten Beispielen. Die Übereinstimmung der Bewertungen zwischen den beiden Auditorengruppen wurde mittels Berechnung des Intraklassenkoeffizienten ermittelt .Design und StichprobeAlle an der LSV teilnehmenden Dozierenden wurden über die Durchführung dieser Evaluationsstudie informiert. Die Dozierenden wurden nicht darüber in Kenntnis gesetzt, ob ihre Vorlesung für eine Evaluation ausgelost wurde bzw. welcher der von ihnen unterrichteten Termine ausgelost wurde. Für die erste Erhebungsphase wurde aus den insgesamt 247 Einzelterminen der LSV aller sechs Themenblöcke im Trimester April bis Juli 2006 randomisiert eine repräsentative Stichprobe ausgewählt, die ca. ein Drittel der LSV pro Themenblock umfasste (insgesamt über alle Themenblöcke n=85). Dieses Vorgehen ist als Ziehung geschichteter Stichproben zu charakterisieren und wurde gewählt, da die Grundgesamtheit (sämtliche LSV aller Themenblöcke) als sehr heterogen einzuschätzen ist, also die Merkmalsausprägungen der Grundgesamtheit große Unterschiede aufweisen könnten. Um die bestehenden Schattierungen der Grundgesamtheit in einer Stichprobe ausreichend abzubilden, müsste nach dem Prinzip der reinen Zufallsauswahl die Stichprobe sehr groß sein, um die Repräsentativität zu gewährleisten. Zur Lösung dieser Problematik wurde die Grundgesamtheit in disjunkte Klassen (Schichten) aufgeteilt. Dabei wurde angenommen, dass sich die Elemente einer jeden Schicht bezüglich der untersuchten Frage ähnlich verhalten und dass sich dementsprechend Elemente aus unterschiedlichen Schichten durch die als relevant definierten verschiedenen Eigenschaften auszeichnen [8]. In dieser Untersuchung bildeten die sechs Themenblöcke die Schichten. Von proportional geschichteten Stichproben wurde aus jeder Klasse eine reine Zufallsstichprobe durch Auslosung der einzelnen Vorlesungstermine gezogen. Die Auswertung der Daten erfolgte mit dem statistischen Auswertungsprogramm SPSS 16.0. Mittelwertvergleiche wurden anhand des t-Tests für unabhängige Stichproben durchgeführt (Signifikanzniveau p<0,05). Die statistischen Tests wurden deskriptiv verwendet.Basierend auf den Daten der ersten Erhebungsphase wurde folgende Intervention durchgeführt. Es wurden drei Gruppen ermittelt, die eine Intervention erhalten sollten: die in der Stichprobe evaluierten Lehrenden (Gruppe 1), alle an der LSV beteiligten Lehrenden und Abteilungsdirektoren, die bisher nicht evaluiert wurden (Gruppe 2), Studierende und die interessierte Öffentlichkeit (Gruppe 3). Komponenten der Intervention und ihre Zuordnung waren: Anschreiben: Alle Personen der Gruppen 1 und 2 erhielten ein persönliches Anschreiben, das über Hintergrund, Vorgehen und Ziele des Projekts sowie über die jeweiligen Feedback-Komponenten und die Ansprechpartner bei Rückfragen informierte.Allgemeines Feedback: Alle drei Gruppen erhielten eine Auswertung der Ergebnisse der ersten Erhebungsphase mit nicht personenbezogenen, allgemeinen Statistiken.Individuelles Feedback: Alle Personen der Gruppe 1 erhielten ihr personenbezogenes Feedback mit den Bewertungen und Freitextkommentaren der Auditoren und Studierenden.LSV-Leitfaden: Alle Gruppen erhielten einen auf den Daten der ersten Erhebung zusammengestellten Leitfaden als „Gold-Standard“ für die Ausgestaltung von LSV mit konkreten Tipps zu Inhalt und Form.Publikation: Gruppe 1 und 2 erhielten die Veröffentlichung „Teaching large groups“ , eine Publikation zur Ausgestaltung von Großgruppen-Lehrveranstaltungen in der medizinischen Ausbildung, die in sehr kompakter Darstellung einfach umzusetzende Anregungen für die Ausgestaltung von Vorlesungen nach modernen didaktischen Prinzipien enthält.Für alle Personen der Gruppe 3 wurden Informationen zur LSV und der LSV-Leitfaden auf die Homepage des Prodekanats für Lehre ins Internet gestellt.Für die zweite Erhebungsphase wurden die in Erhebungsphase 1 evaluierten Vorlesungen (n=78, die geringere Zahl erklärt sich durch drei Ausfälle von Audits und vier Ausfälle von Vorlesungen) auf der Basis ihrer Bewertung nach deutschen Schulnoten in drei Ligen eingeteilt (siehe Tabelle 1 ). Die Auswahl der zu evaluierenden LSV erfolgte als Ziehung von Quotenstichproben , also als bewusste Auswahl, die für die zu ziehenden Stichproben anstrebt, in der Grundgesamtheit vorliegende Strukturen nachzuahmen. Die Grundgesamtheit ist hier durch die sechs Themenblöcke und die drei Ligen definiert, wobei die Termine entsprechend repräsentativ ausgewählt wurden. Da in der Untersuchung insbesondere die Frage beantwortet werden sollte, ob sich die didaktische Qualität der LSV nach Durchführung der oben beschriebenen Intervention verbessert, wurde dies durch die studentische Evaluation der Termine per Schulnote kriterienbasiert operationalisiert. Unter Heranziehung von Überlegungen zum angestrebten minimalen Unterschied bei der studentischen Bewertung sowie zur Testpower wurde eine erforderliche Stichprobengröße von studentischen Bewertungen von n=633 ermittelt . In diesem Fall waren folgende relevante Kriterien bestmöglich erfüllt: Effektstärke d=0,3 (d=0.1: kleiner Effekt, d=0,3: mittlerer Effekt, d=0,5: großer Effekt), minimaler Mittelwertsunterschied Δ=+0,255, Teststärke 1-ß=0,8 und α=0,05. Da in der ersten Erhebungsphase pro Vorlesungstermin durchschnittlich etwa n=35 studentische Bewertungen erhoben werden konnten, ergaben sich damit n=18 notwendige Terminevaluationen im Rahmen der zweiten Erhebungsphase. Hierbei handelte es sich in 14 Fällen um dieselben Lehrpersonen wie in Erhebungsphase 1. Die Themen der 18 Vorlesungen waren in allen Fällen dieselben wie in der ersten Erhebungsphase. Für eine gleichmäßige Verteilung dieser Messungen auf die Struktur der Grundgesamtheit ergab sich die Auswahl je eines Vorlesungstermins aus jedem der sechs Themenblöcke und jeder der drei Ligen. MethodsQuestion and hypothesesTwo questions were investigated in our study. One: Are there noticeable differences in the evaluation of the LSV after an intervention based on previous evaluation results, when the new LSV is evaluated by participating students and trained auditors? Two: Is there a difference between the assessment values of participating students and trained auditors?The main hypotheses are:The LSV will receive more positive ratings after the intervention, especially regarding its didactic values.The evaluation of trained auditors will be more consistent and all in all more critical than the evaluation of the participating students.InstrumentsFigure 1 shows an overview of the study and includes two evaluation phases and one intervention phase. A checklist for the audits of the LSV was designed and validated in a pilot phase . This checklist includes seven items regarding structure and content of the lecture as well as nine items regarding the didactic qualities of the lecturers. The group of auditors comprises eight physicians and scientists and 14 students in the final year of their undergraduate studies. Pairs of auditors (one physician and one student) were allotted to control for possible systemic differences, e.g. diverging perspectives because of status (non-student/student). Prior to the pilot phase, all auditors underwent a three hour training session, including explanation of the instruments and rehearsal of standardised methodical means for the evaluation. In addition, a questionnaire was developed for the students who participated in the audited LSV. This questionnaire included central aspects of the LSV such as focus on cardinal symptoms, practical applications, and structural design of the lecture as well as items regarding the lecturer, e.g. manner of contact with the students, comprehensibility and clarity of the lecture. Furthermore, characteristics of the students, e.g. gender and continuity of visiting the LSV were also documented. The items in the questionnaires and checklists were rated on a 6-point Likert-scale (1: “I strongly agree” to 6: “I strongly disagree”). In addition, free commentaries were also possible and an overall rating of the lecture following the school grade system was given (1=very good, 2=good, 3=satisfactory, 4=sufficient, 5=poor, 6=deficient). In the pilot, the instruments were found to be feasible and comprehensible. The only minor modifications required for the final study such as readjusting the question sequence and clarification of some items by giving an example in brackets. Since the pilot phase revealed considerable differences between the two groups of auditors (physicians/students), it was assumed that the initial training of the auditors had not covered all main aspects of the study sufficiently. Therefore, a second training session took place before the first evaluation phase, including a summary of the LSV concept within KliniCuM, a delineation of the orientation along cardinal symptoms and connections between the subjects of a thematic block as well as cardinal symptom-oriented teaching of expert knowledge based upon concrete examples. The concordance of the ratings between the two groups of auditors was determined using the intra-class correlation coefficient (ICC) .Design and samplingAll lecturers participating in the LSV were informed about this study. They were not notified though whether or which of their lectures had been randomly selected for an evaluation. For the first evaluation phase, a randomised representative sample of about one third of the LSVs per thematic block (altogether n=85 from all thematic blocks) was chosen from a total of 247 individual LSVs from all six thematic blocks during the trimester April to July 2006. This approach is classified as “drawing of stratified lots” and was chosen because the population parameters (all LSVs from all thematic blocks) were considered to be very heterogeneous, meaning that the feature characteristics of the basic population could exhibit major differences.To reproduce all shades of the basic population sufficiently in a random sample, this sample needs to be very large according to the principle of a mere random selection to ensure representativeness. To address this problem, the basic population was divided into disjunctive classes (layers). It was assumed that the elements of each class will behave similarly regarding the research question and elements from different classes would be defined by their different characteristics [8]. In our study the classes are defined by the six thematic blocks. From proportionally layered samples, a random sample was drawn from each class by drawing individual lectures. SPSS 16.0 was used for the statistical evaluation of the data. Means were calculated by t-test for independent samples (level of significance p<0.05). The statistical tests were used descriptively. Based on the data from the first evaluation phase the following intervention took place. Three groups were identified to receive an intervention: the teachers who were evaluated in the random sample (group 1), all teachers and all heads of departments participating in the LSV who had not yet been evaluated (group 2), students and the general public (group 3). Components of the intervention were:Letters: all members of groups 1 and 2 were sent a personal letter describing background, approach and goals of the project as well as the respective feedback components and a contact person for questions.General feedback: all three groups received the analysis of the data of the first evaluation phase with the non-personal, general statistics.Individual feedback: all members of group 1 received their personal feedback with the rating and the free commentaries of auditors and students.LSV manual: all groups received a manual based on the data of the first evaluation phase as a gold standard for the design of an LSV including concrete hints regarding content and form.Publication: groups 1 and 2 received the paper “Teaching large groups“ , a publication about the design of teaching formats for large groups in medical education which contains easy-to-accomplish suggestions for the design of lectures following modern didactic concepts in a very consolidated description.For group 3 information regarding the LSV and the LSV manual were displayed on the homepage of the dean of education’s office in the internet.All evaluated lectures form the first evaluation phase (n=78, the smaller number is explained by three cancelled audits and four missing lectures) were subdivided in three leagues on the basis of their marks according to German school grades for the second evaluation phase (see table 1 ). Selection of the LSVs which were to be evaluated was realized by drawing quota-samples , meaning a deliberate selection which aspires for the sample to be drawn to simulate conditions of the basic population. In our case the basic population is defined by the six thematic blocks and the three leagues in which the lectures were selected representatively. Since our study particularly focused on the question whether the didactic quality of the LSV improved with the above mentioned intervention, this was operationalized by certain criteria like the students’ evaluation of the LSV by school grades at the respective points in time. Considerations regarding the smallest difference desired in the students’ ratings as well as the power analysis a required sample size of n=633 was identified . In this case the following relevant criteria were achieved: effect size d=0.3 (d=0.1: small effect, d=0.3: medium effect, d=0.5 large effect), minimal difference of the means Δ=+0,255, test power 1-ß=0.8 and α α=0.05. Since on average n=35 student ratings were collected during the first evaluation phase per LSV, n=18 lectures were required for the second evaluation phase. Fourteen lectures of the second evaluation phase were held by the same teachers as in the first evaluation phase. The topics of all 18 LSVs were exactly the same as in evaluation phase 1. To guarantee an even distribution of the measurements on the structure of the basic population one lecture from each of the six thematic blocks and every league was chosen. ErgebnisseVeränderungen in der Bewertung der LSV nach SchulnotenAuf Basis der Schulnoten zeigen bei der studentischen Terminevaluation von 18 erfassten LSV-Mittelwertvergleichen derselben Veranstaltungen in Erhebungsphase 1 und 2 fünf signifikante Verbesserungen (28%), drei signifikante Verschlechterungen (17%) und zehn unveränderte Beurteilungen (55%) (siehe Tabelle 2 ). Damit zeigen die studentischen Evaluationen für die Mehrheit der in der zweiten Erhebung erfassten LSV Termine keine Veränderung. Das oben beschriebene Kriterium eines minimalen Mittelwertunterschieds bei der Schulnote von Δ=+0,255 wird bei acht Vorlesungen erfüllt (44%). Die Bewertung der LSV anhand der Schulnotenskala durch die Auditoren ergibt ebenfalls kein einheitliches Bild bezüglich eines Effekts der Intervention (siehe Tabelle 3 ). Das prozentuale Verhältnis der Veränderungen entspricht dem oben dargestellten der studentischen Terminevaluation, wobei vier der fünf als verbessert bewerteten LSV übereinstimmen. In der ersten Erhebungsphase beurteilten in der Gruppe der Auditoren die wissenschaftlichen Mitarbeiter sechs, in der zweiten Erhebungsphase sieben von 18 Vorlesungen um eine Schulnote schlechter als die PJ-Studierenden.Didaktische Bewertung nach EinzelmerkmalenEin differenzierteres Bild als die Schulnoten liefert die Gegenüberstellung der Bewertungen durch die Auditoren auf Ebene der Einzelmerkmale aus beiden Erhebungen (siehe Tabelle 4 ). Es ergeben sich sechs signifikant bessere Beurteilungen nach der Intervention in der zweiten Erhebungsphase und alle anderen zeigen bis auf drei einen positiven Trend. Insgesamt weisen die Verbesserungen bei den Merkmalen „Orientierung an Leitsymptomen“, „Anregung zum Mitdenken“, „Entsprechung des Konzepts LSV“, „interaktive Gestaltung“, „anschauliche Darstellung“ und „Bemühung um Lernerfolg“ hohe Effektstärken auf.Im Vergleich der Bewertungen der Einzelmerkmale durch die Studierenden und Auditoren (siehe Tabelle 5 ) ergeben sich für die erste Erhebungsphase für fast alle Merkmale durchweg statistisch signifikante Mittelwertunterschiede zwischen den beiden Gruppen, wobei die Auditoren die Vorlesungen insgesamt kritischer bewerten als die Studierenden. In der zweiten Erhebungsphase findet sich nur noch bei einem Merkmal ein signifikanter Unterschied zwischen den Bewertungen von Auditoren und Studierenden. Übereinstimmung der AuditorenbewertungenWie die Berechnungen des Intraklassenkoeffizienten und der Signifikanzen ergaben, liegt die Übereinstimmung der Gruppe der Auditoren zwischen PJ-Studierenden und wissenschaftlichen Mitarbeitern auf Basis der Einzelmerkmale in der Erhebungsphase zwischen iCCmin=-0,030 und iCCmax=0,605 (siehe Tabelle 6 ). Beim überwiegenden Teil der erfassten Merkmale ist der Zusammenhang positiv signifikant. Im Gegensatz zu den Pilottestungen , bei denen v.a. bei den konzeptbezogenen Merkmalen große Differenzen zwischen den beiden Auditorengruppen bestanden, fällt die Übereinstimmung in der ersten Erhebungsphase sehr zufriedenstellend aus. In der zweiten Erhebungsphase liegt die Übereinstimmung der Auditoren zwischen iCCmin=-0,022 und iCCmax=0,771 und ist ebenfalls überwiegend positiv signifikant. Die Übereinstimmung zwischen den Auditorengruppen ist als mittelmäßig hoch zu bewerten, die Korrelationskoeffizienten weisen insgesamt eine recht breite Streuung auf. ResultsChanges in the rating of LSV as per school gradesOn the basis of school grades comparisons of the means of the student ratings of the same 18 LSV rated in evaluation phases 1 and 2 five show significant improvements (28%), three significant deteriorations (17%), and ten ratings are found unchanged (55%) (see table 2 ). Hence, the majority of student evaluations of the LSVs in the second evaluation phase do not reveal changes. The above mentioned criterion of the minimal difference of the means in school grade of Δ=+0,255 is achieved by eight lectures (44%).The evaluation of the LSV by school grade performed by the auditors does also not reveal an even picture regarding the effect of the intervention (see table 3 ). The percentage of the improvements matches the above mentioned student ratings of the individual lectures with four of five same LSVs rated as improved. In the first evaluation phase the physician and scientist auditors rated six lectures of 18 by one school grade lower than the student auditors, in the second evaluation phase seven.Rating of didactics on the basis of individual itemsA more differentiated picture compared to the one drawn by the school grades is shown by the comparison of individual items by the auditors from both evaluation phases (see table 4 ). The second evaluation phase reveals six significant improvements in ratings after the intervention and all other items except for three show a positive trend. In total, the improvements regarding the items “orientation to cardinal symptoms”, “encouragement to follow the general train of thought”, “use of LSV concept”, “interactive design”, “depictive presentation”, and “effort to support successful learning” display large effect sizes. In the first evaluation phase the comparison between student and auditor ratings (see table 5 ) on the basis of individual items shows statistically significant differences between both groups for almost all items with the auditors rating the lectures more critically than the students. Ratings from the second evaluation phase reveal a significant difference between student and auditor ratings for only one item.Conformity of auditor ratingsAs the calculation of the intra-class correlation coefficient and of the significances show the conformity of the ratings on the basis of individual items within the auditors between group of students in the final year and the group of physicians and scientists lies between iCCmin=-0,030 und iCCmax=0,605 (see table 6 ). The majority of included items show a significant positive correlation. Compared to the pilot tests , which revealed great differences between both groups of auditors especially regarding items referring to the LSV concept, conformity between both groups is very satisfying in the first evaluation phase. In the second evaluation phase the conformity between the two auditors groups lies between iCCmin=-0,022 and iCCmax=0,771 and is also mostly positive significant. The conformity between the two groups of auditors can be assessed as moderately high, the intra-class correlation coefficients display a quite broad spreading. DiskussionDie Ergebnisse der Audits und Terminevaluationen in der ersten Erhebungsphase zeichnen ein insgesamt positiveres Bild der LSV als die im Vorfeld erhobenen studentischen Beurteilungen in der Trimesterabschlussevaluation hatten erwarten lassen. Hierbei könnte es sich um eine tatsächliche Verbesserung handeln. Es ist jedoch zu berücksichtigen, dass retrospektive, zusammenfassende Evaluationen tendenziell schlechter ausfallen als Evaluationen, die direkt im Anschluss an eine Veranstaltung erhoben werden , so dass diese Beobachtung auch durch einen methodischen Effekt erklärt werden könnte. Auf Basis der Schulnoten konnte die hypothetische Verbesserung der LSV-Gesamtbewertung in der zweiten Erhebungsphase nach der Intervention nur in mäßigem Ausmaß festgestellt werden. Das geforderte Verbesserungskriterium wurde in der Terminevaluation nur bei 44% der LSV erreicht. Bei den Auditoren fanden sich sogar nur in 28% der Evaluationen verbesserte LSV. Diesem Ergebnis steht jedoch die Bewertung der Auditoren auf Ebene der Einzelmerkmale gegenüber, die ganz überwiegend positivere Beurteilungen, vor allem der didaktischen Eigenschaften der Lehrpersonen in der zweiten Erhebungsphase zeigt. Eine Schwäche liegt hier in der geringen Gesamtfallzahl, die durch die initiale Ziehung der Stichproben zu einem Teil ausgeglichen wird.Bei dem gewählten Veränderungskriterium der zu vergebenden Schulnote handelt es sich um ein relativ abstraktes Maß. Es lässt sich daher vermuten, dass diese Größe zu wenig differenziert ist, um eventuell bestehende Unterschiede der LSV nach der Intervention abzubilden, da es sich bei dem Konstrukt „Lehrqualität“ um ein komplexes Merkmal handelt . Für den Verlust von Information durch den Einsatz von Schulnoten spricht außerdem die Diskrepanz bei der Gruppe der Auditoren zwischen der summativen Kenngröße der Note und den parallel bewerteten Einzelmerkmalen, die deutliche Verbesserungen zeigen. In der ersten Erhebungsphase bewerten die geschulten Auditoren die LSV in fast allen Merkmalen signifikant kritischer als die teilnehmenden Studierenden, wie in Hypothese 2 vermutet. Die Bewertungen der Auditoren nach Einzelmerkmalen fallen in der zweiten Erhebungsphase im Gegensatz zu den studentischen Erhebungen wesentlich besser aus. Es könnte sich dabei einerseits um eine tatsächliche qualitativ-didaktische Verbesserung der LSV handeln, die von geschulten Auditoren differenzierter wahrgenommen und bewertet wurde. Andererseits muss auch ein möglicher Einfluss des Rosenthal-Effekts berücksichtigt werden , wodurch die bloße Erwartung einer Verbesserung der LSV nach der Intervention bei den Auditoren zu einer besseren Bewertung geführt haben könnte. Jedoch wird der Einsatz von geschulten Auditoren als für eine valide und forschungspraktikable Beurteilung von Lehrqualität beschrieben , . Auch in anderen Arbeiten finden sich teilweise nur moderate Übereinstimmungen von studentischen und „peer-Bewertungen“ [16]. In der zweiten Erhebungsphase fallen die Unterschiede in der Bewertung weniger deutlich aus, was insbesondere innerhalb der Gruppe der Auditoren für eine homogenere Bewertungsgrundlage nach der erfolgten Schulung sprechen könnte. Die so nachgewiesene hohe Inter-Rater-Reliabilität stützt die Validität der Daten .Weiterhin muss analysiert werden, ob die für das Projekt gewählte Intervention zur Verbesserung der LSV stark genug war. Da die Literatur keine Evidenz dafür liefert, dass studentische Evaluation allein die Lehre an Hochschulen verbessert , , wurde in dieser Studie eine über bloßes Ergebnisfeedback hinausgehende Intervention gewählt. Das Feedback an die Zielgruppe erfolgte jedoch nur in schriftlicher Form. Andere Untersuchungen zeigen, dass schriftliche Rückmeldungen von Lehrenden nur selten gelesen werden und damit kaum Auswirkungen haben können . Weitere Bemühungen wie z.B. die Durchführung von hochschuldidaktischen Beratungen , oder direkte Diskussionen mit den Lehrenden über die Ergebnisse ziehen hingegen wirkungsvollere Verbesserungen nach sich. Außerdem erhöht ein möglichst früher Zeitpunkt des Feedbacks die Wahrscheinlichkeit eines positiven Effekts bei den Lehrenden . In der vorliegenden Untersuchung war der Zeitraum zwischen Erhebung und Rückmeldung mit bis zu vier Monaten vergleichsweise lang. Allerdings wurden die personenbezogenen schriftlichen Rückmeldungen, wie im Methodenteil beschrieben, anschaulich aufbereitet und eingehend erläutert. Bekannt ist nämlich, dass schriftliche Rückmeldungen von Evaluationen ohne Erläuterungen häufig von Lehrenden nicht korrekt interpretiert und somit nicht richtig verstanden werden und daher meist wirkungslos bleiben . Ein weiterer Einflussfaktor für den eher schwachen Effekt der Intervention könnte in der Tatsache begründet liegen, dass es sich bei der LSV um eine „multi-instructor-Veranstaltung“ mit insgesamt ca. 150 Lehrpersonen in sechs Themenblöcken handelt. Ein solches Format birgt bei der Umsetzung von Veränderungen oder Verbesserungen im Vergleich mit Kursen, bei denen lediglich wenige oder gar nur einzelne Personen beteiligt sind, besondere Schwierigkeiten . Weiterhin ist bekannt, dass die in Evaluationsprojekten angebotenen Informationen und Beratungen von Lehrenden weniger genutzt werden, wenn diese nicht daran interessiert oder gewillt sind, ihre didaktischen Fertigkeiten zu verbessern .Ein weiterer Aspekt für den nicht sehr durchgreifenden Effekt der Intervention ist in der systemimmanenten Trägheit von Fakultäten bei der Umsetzung von curricularen Innovationen zu vermuten . Hinzu kommt, dass das Konzept für die LSV bis zur Intervention im Rahmen dieser Studie nicht während der curricularen Planungen schriftlich fixiert und an die Lehrenden übermittelt wurde. Damit wurde der Faktor „Kommunikation innerhalb der Fakultät“, der in Planungsprozessen von wesentlicher Bedeutung ist , bei der Einführung des neuen Curriculums nicht ausreichend beachtet. Idealer wäre es, eine Schulungsmaßnahme anzustreben, die alle an der LSV beteiligten Lehrpersonen mit dem Konzept vertraut macht . In die anschließenden Maßnahmen zur Überprüfung der Qualität der LSV sind, wie in dieser Studie erfolgt, Lehrende und Studierende einzubinden, um in der Fakultät eine möglichst hohe Akzeptanz zu erzielen . Um insgesamt die Effektivität von Lehr- und Lehrveranstaltungsevaluationen zu steigern, sind diese in ein allgemeines Verfahren zur Bestimmung und Förderung von Lehr-, Ausbildungs- und Forschungsqualität zu integrieren, da eine alleinige Einschätzung von Lehrqualität für eine Verbesserung nicht ausreichend ist . DiscussionThe results of the audits and the student evaluations during the first evaluation phase reveal a picture of the LSV that overall is more positive, as expected from the results of the previous student evaluations at the end of the thematic blocks. This could indicate actual improvement. Yet it has to be taken into account that retrospective and integrated evaluations have a tendency towards worse results compared with evaluations which are performed directly after a course . Hence, the observation of improvement could have been caused by a methodological effect. On the basis of school grades, the hypothetical improvement of the overall LSV rating could only be noted to a moderate degree in the second evaluation phase. The postulated criterion for improvement was only achieved in 44% of the LSVs rated by the students while an improvement in the auditor ratings was found in only 28% of the LSVs. In contrast, the auditors’ ratings on the basis of individual items show mostly more positive evaluations, especially with regard to the didactic skills of the teachers in the second evaluation phase. A weakness can be seen in the small total number of lectures which is counterbalanced partly by the initial drawing of the random sample.The chosen criterion for change – the school grade given – represents a relatively abstract measure. It can be assumed that this measure contains too little differentiation to reveal potential differences in the LSV after the intervention, since the construct “teaching quality” is a complex item . The loss of information by using school grades could also be confirmed by the discrepancy within the group of assessors as far as the summative parameter of the school grade and the simultaneously rated individual items are concerned, which showed a clear improvement. During the first evaluation phase the trained assessors rated the LSV in almost all items significantly more critically compared to the participating students as was assumed in hypothesis 2. In the second evaluation phase the auditors’ assessment concerning the single items turned out to be considerably better compared to the students’ ratings. On one hand this could mean that an improvement of the didactic quality of the LSV had indeed taken place which was then observed and rated by the trained auditors in a more differentiated way. On the other hand the possible influence of the Rosenthal-effect must be taken into account , where the mere expectation of an improvement of the LSV after the intervention by the auditors could have led to a better rating. However, the assignment of trained auditors has been described as being a valid and research-oriented instrument for the rating of teaching quality , . Others also found only moderate accordance of student and “peer-ratings“ . In the second evaluation phase the rating differences are less prominent which could be suggestive of a more homogenous base for the ratings according to school grade. The high inter-rater reliability hereby verified supports the validity of the data .Furthermore, there is a need to analyse whether the intervention chosen for this project was potent enough to improve the LSV. Since there is no evidence in the literature that student evaluation alone improves university teaching , , an intervention beyond the mere feedback of the evaluation data was chosen for this study. Yet the feedback to the targeted group was only given in written format. Other studies show that written feedback is rarely read by the teachers and therefore may have hardly any effect . More effective improvements could be reached by other interventions, e.g. didactic skill enhancing counselling , or direct discussions with teachers about the evaluation results . Feedback given as early as possible can improve the possibility of a positive effect on the teachers . In our study the time between data collection and feedback was comparatively long with up to four months. On the other hand the written personal feedback was, as described in the methods section, clearly edited and illustrated in detail. It is known that written feedback of evaluations without explanations is often not correctly interpreted by the teachers and hence not understood and without effect . Another influencing factor for the rather weak effect of the intervention could be down to the fact that the LSV is a multi-instructor-event with a total of approximately 150 teachers in six thematic blocks. Such a format hosts special difficulties for the realization of changes or improvements compared with courses which are taught be only a few or even a single person . Furthermore it is known, that provided information or counselling of teachers in evaluation projects is less called upon if teachers are not interested or unwilling to improve their didactic skills .Another important aspect for the less than dramatic effect of the intervention could be assumed to lie in the inactivity inherent to the system of faculties when it comes to the realization of curricular innovations . Additionally, until the intervention during this study the concept for the LSV did not exist in a written format and was sent to the teachers during the curricular planning. With that the factor “communication within the faculty”, which has a major impact during planning processes , was not regarded with enough attention when the new curriculum was implemented. It would be better to introduce a training procedure that acquaints all teaching personnel involved in the LSV with its concept . In a subsequent survey of the quality of the LSV teachers and students should be involved to gain an acceptance as high as possible within the faculty [20]. To improve the overall effectiveness of courses the have to be integrated in a general procedure to measure and support the quality of teaching and research, since the evaluation of teaching quality alone is not sufficient for its improvement . Zusammenfassung und AusblickDie vorliegende Untersuchung konnte zeigen, dass sich in der Evaluation eines neu etablierten Konzepts der LSV sowohl in der Terminevaluation durch Studierende als auch durch geschulte Auditoren nach einer Intervention didaktische Verbesserungen nachweisen ließen, die sich stärker auf der Basis differenzierter Einzelmerkmale zu lehrpersonen- und konzeptbezogenen Merkmalen als durch Schulnoten abbilden ließen. Die Studierenden bewerteten die LSV insgesamt positiver als die Auditoren, wobei eine gute Inter-Rater-Reliabilität bestand. Eine dreistündige Vorbereitung der Auditoren reicht offenbar jedoch nicht aus, um die Personen adäquat auf ihre Rolle als analysierende Feedbackgeber vorzubereiten. Außerdem ist zu berücksichtigen, dass die Generalisierbarkeit der Ergebnisse aufgrund der methodisch bedingten Stichprobenwahl mit nur 18 Vorlesungen in der zweiten Erhebungsphase eingeschränkt ist. Die Notwendigkeit der besseren inhaltlichen und strukturellen Einbettung der LSV in das curriculare Gesamtkonzept auch im Sinne einer Begleitung durch eine regelmäßige Qualitätskontrolle wurde in dieser Studie dennoch deutlich. Wie lange Wirkungen, die aufgrund des Feedbacks nach einer Evaluation eintreten, bei der Zielgruppe bestehen bleiben, sollten zukünftige Studien untersuchen. Eine rein schriftliche Information zum Design von Vorlesungen nach modernen didaktischen Kriterien scheint als Intervention für viele Dozierende kein ausreichender Stimulus zur Verbesserung oder Überarbeitung ihrer Vorlesungen zu sein. Weiterhin ist auch zu prüfen, welche Effekte bei der indirekt betroffenen Gruppe der Studierenden eintreten, z.B. Auswirkungen auf ihre Motivation und ihren Lernerfolg. Summary and outlookOur study demonstrated that the evaluation of the newly established LSV concept revealed didactic improvements after an intervention as well in the student ratings as in the ratings of trained auditors. These improvements were more notable on the basis of individual items regarding the teachers or the concept rather than on the basis of school grades awarded. Students rated the LSV altogether more positive than auditors who showed a good inter-rater reliability. Apparently, a three hour training session for the auditors is not sufficient to prepare them adequately for their role as givers of analysing feedback. Furthermore, it has to be taken into account, that the generalisability of our results is somewhat reduced because of the choice of a random sample with only 18 lectures in the second evaluation phase due to the methodology chosen. The necessity of a better integration of the LSV in the global concept of the curriculum regarding content and structure with regular quality control is visible in this study. How long the effects of feedback after an evaluation last within the target group needs to be studied in further projects. Mere written information about the lecture design according to modern didactic criteria seems to be an insufficient stimulus for intervention to many teachers to improve or change their lectures. Furthermore, it needs to be checked which effects occur in the indirectly affected group of students, e.g. effects on their motivation or learning success. DanksagungWir danken der Medizinischen Fakultät der Universität Hamburg für die Förderung dieses Projekts (L-107/2006) aus dem Förderfonds Lehre. AcknowledgementWe thank the Medical Faculty of Hamburg University for supporting this project (L-107/2006) from their teaching funds. InteressenkonfliktDie Autoren erklären, dass sie keine Interessenskonflikte in Zusammenhang mit diesem Artikel haben. Competing interestsThe authors declare that they have no competing interests. Albanese MA Schuldt SS Case D Brown D The validity of lecturer ratings by students and trained observers 1991 Acad Med 26-28 Albanese MA, Schuldt SS, Case D, Brown D. The validity of lecturer ratings by students and trained observers. Acad Med. 1991;66(5):26-28. DOI: 10.1097/00001888-199101000-00008 http://dx.doi.org/10.1097/00001888-199101000-00008 Baggott J Reaction of lecturers to analysis results of student ratings of their lecture skills 1987 J Med Educ 491-496 Baggott J. Reaction of lecturers to analysis results of student ratings of their lecture skills. J Med Educ. 1987;62:491-496. Bland CJ Starnaman S Wersal L Moorhead-Rosenberg L Zonia S Henry R Curricular change in medical schools: how to succeed 2000 Acad Med 575-594 Bland CJ, Starnaman S, Wersal L, Moorhead-Rosenberg L, Zonia S, Henry R. Curricular change in medical schools: how to succeed. Acad Med. 2000;75(6):575-594. DOI: 10.1097/00001888-200006000-00006 http://dx.doi.org/10.1097/00001888-200006000-00006 Bortz J Döring N 2006 Forschungsmethoden und Evaluation Bortz J, Döring N. Forschungsmethoden und Evaluation. Berlin: Springer; 2006. Brown G Manogue M AMEE Medical Education Guide No. 22: Refreshing lecturing: a guide for lecturers 2001 Med Teach 231-244 Brown G, Manogue M. AMEE Medical Education Guide No. 22: Refreshing lecturing: a guide for lecturers. Med Teach. 2001;23(3):231-244. DOI: 10.1080/01421590120043000 http://dx.doi.org/10.1080/01421590120043000 Butler JA Use of teaching methods within the lecture format 1992 Med Teach 11-23 Butler JA. Use of teaching methods within the lecture format. Med Teach. 1992;14(1):11-23. DOI: 10.3109/01421599209044010 http://dx.doi.org/10.3109/01421599209044010 Cantillon P Teaching large groups 2003 BMJ 437-440 Cantillon P. Teaching large groups. BMJ. 2003;326:437-440. Clauß G Ebner H 1977 Grundlagen der Statistik für Psychologen, Pädagogen und Soziologen Clauß G, Ebner H. Grundlagen der Statistik für Psychologen, Pädagogen und Soziologen. Thun/Frankfurt a. M.: Harri Deutsch; 1977. Cohen PA Effectiveness of student-rating feedback for improving college instruction: a meta-analysis of findings 1980 Res High Educ 321-341 Cohen PA. Effectiveness of student-rating feedback for improving college instruction: a meta-analysis of findings. Res High Educ. 1980;13(4):321-341. DOI: 10.1007/BF00976252 http://dx.doi.org/10.1007/BF00976252 Copeland H Longworth D Hewson M Stoller J Successful lecturing. A prospective study to validate attributes of the effective medical lecture 2000 J Gen Intern Med 366–371 Copeland H, Longworth D, Hewson M, Stoller J. Successful lecturing. A prospective study to validate attributes of the effective medical lecture. J Gen Intern Med. 2000;15(6):366–371. DOI: 10.1046/j.1525-1497.2000.06439.x http://dx.doi.org/10.1046/j.1525-1497.2000.06439.x Craig M Facilitated student discussions for evaluating teaching 2007 SIGCSE Bulletin 190-194 Craig M. Facilitated student discussions for evaluating teaching. SIGCSE Bulletin. 2007;39(1):190-194. DOI: 10.1145/1227504.1227376 http://dx.doi.org/10.1145/1227504.1227376 Diehl JM Normierung zweier Fragebögen zur studentischen Beurteilung von Vorlesungen und Seminaren 2003 Psychol Erz Unterr 27-42 Diehl JM. Normierung zweier Fragebögen zur studentischen Beurteilung von Vorlesungen und Seminaren. Psychol Erz Unterr. 2003;50:27-42. Fyrenius A Bergdahl B Silén C Lectures in problem-based learning - why, when and how? An example of interactive lecturing that stimulates meaningful learning 2005 Med Teach 61-65 Fyrenius A, Bergdahl B, Silén C. Lectures in problem-based learning - why, when and how? An example of interactive lecturing that stimulates meaningful learning. Med Teach. 2005;27(1):61-65. DOI: 10.1080/01421590400016365 http://dx.doi.org/10.1080/01421590400016365 Gordon PA 1997 Student evaluation of college instructors: an overview Gordon PA. Student evaluation of college instructors: an overview. Valdosta: Valdosta State University; 1997. Zugänglich unter/available under: http://teach.valdosta.edu/WHuitt/files/tcheval.pdf http://teach.valdosta.edu/WHuitt/files/tcheval.pdf Grass G Stosch C Griebenow R Renaissance der Vorlesung 2005 Dtsch Ärztebl A1642 Grass G, Stosch C, Griebenow R. Renaissance der Vorlesung. Dtsch Ärztebl. 2005;102(23):A1642. Greenwood GE Ramagli HJ Alternatives to student ratings of college teaching 1980 J High Educ 673-684 Greenwood GE, Ramagli HJ. Alternatives to student ratings of college teaching. J High Educ. 1980;51(6):673-684. DOI: 10.2307/1981172 http://dx.doi.org/10.2307/1981172 Universität Hamburg 2009 Hamburger Lernzielkatalog Universität Hamburg. Hamburger Lernzielkatalog. Hamburg: Universität Hamburg; 2009. Zugänglich unter/available under: http://www.uke.de/studierende/downloads/zg-studierende/Lernzielkatalog_091104_mat.pdf http://www.uke.de/studierende/downloads/zg-studierende/Lernzielkatalog_091104_mat.pdf Imseis HM Galvin SL Faculty and resident preference for two different forms of lecture evaluation 2004 Am J Obstet Gynecol 1815-1821 Imseis HM, Galvin SL. Faculty and resident preference for two different forms of lecture evaluation. Am J Obstet Gynecol. 2004;191(5):1815-1821. DOI: 10.1016/j.ajog.2004.07.068 http://dx.doi.org/10.1016/j.ajog.2004.07.068 Irby D DeMers J Scher M Matthews D A model for the improvement of medical faculty lecturing 1976 J Med Educ 403-409 Irby D, DeMers J, Scher M, Matthews D.A model for the improvement of medical faculty lecturing. J Med Educ. 1976;51(5):403-409. Leppek R Jußen M Berthold D Sulzer J Klose KJ Windmühlenprinzip versus Uhrwerkprinzip - Tradition und Interaktion in der akademischen Vorlesung 1996 Z Ärztl Fortbild 406-413 Leppek R, Jußen M, Berthold D, Sulzer J, Klose KJ. Windmühlenprinzip versus Uhrwerkprinzip - Tradition und Interaktion in der akademischen Vorlesung. Z Ärztl Fortbild. 1996;90:406-413. Moßig I 1996 Stichproben, Stichprobenauswahlverfahren und Berechnung des minimal erforderlichen Stichprobenumfangs Moßig I. Stichproben, Stichprobenauswahlverfahren und Berechnung des minimal erforderlichen Stichprobenumfangs. Gießen: Universität Gießen;1996. Reed M 2004 Electronic module evaluation: combining quality with quantity Reed M. Electronic module evaluation: combining quality with quantity. Kongressbeitrag University of Leeds Inaugural Learning and Teaching Conference. Leeds: University of Leeds; 2004. Zugänglich unter/available under: http://homepages.see.leeds.ac.uk/~lecmsr/Reed%202004.doc http://homepages.see.leeds.ac.uk/~lecmsr/Reed%202004.doc Rost DH 2001 Handwörterbuch der Pädagogischen Psychologie Rost DH. Handwörterbuch der Pädagogischen Psychologie. Weinheim: Beltz; 2001. Rindermann H Methodik und Anwendung der Lehrveranstaltungsevaluation für die Qualitätsentwicklung an Hochschulen 2003 Sozialwis Berufspraxis 401-413 Rindermann H. Methodik und Anwendung der Lehrveranstaltungsevaluation für die Qualitätsentwicklung an Hochschulen. Sozialwis Berufspraxis. 2003;26(4):401-413. Rindermann H Quality of instruction improved by evaluation and consultation of instructors 2007 Int J for Acad Develop 73-85 Rindermann H. Quality of instruction improved by evaluation and consultation of instructors. Int J for Acad Develop. 2007;12(2):73-85. DOI: 10.1080/13601440701604849 http://dx.doi.org/10.1080/13601440701604849 Schmidt B Warum oft wirksam? Und warum manchmal wirkungslos? – Subjektive Erklärungen zur Wirkung von Lehrveranstaltungsevaluation aus der Sicht von Nutzern und Anbietern 2008 Z Eval 7-33 Schmidt B. Warum oft wirksam? Und warum manchmal wirkungslos? – Subjektive Erklärungen zur Wirkung von Lehrveranstaltungsevaluation aus der Sicht von Nutzern und Anbietern. Z Eval. 2008;7(1):7-33. Stillman PL Gillers MA Heins M Nicholson G Sabers D Effect of immediate student evaluations on a multi-instructor course 1983 J Med Educ 172-178 Stillman PL, Gillers MA, Heins M, Nicholson G, Sabers D. Effect of immediate student evaluations on a multi-instructor course. J Med Educ. 1983;58:172-178. Sukkar MY Curriculum development: a strategy for change 1986 Med Educ 301-306 Sukkar MY. Curriculum development: a strategy for change. Med Educ. 1986;20:301-306. DOI: 10.1111/j.1365-2923.1986.tb01369.x http://dx.doi.org/10.1111/j.1365-2923.1986.tb01369.x Turhan K Yaris F Nural E Does instructor evaluation by students using a web-based questionnaire impact instructor performance? Adv Health Sci Educ 2005 Turhan K, Yaris F, Nural E. Does instructor evaluation by students using a web-based questionnaire impact instructor performance? Adv Health Sci Educ. 2005;10(1):5-13. DOI: 10.1007/s10459-004-0943-7 http://dx.doi.org/10.1007/s10459-004-0943-7 van den Bussche H Anders S Ehrhardt M Göttsche T Hüneke B Kohlschütter A Kothe R Kuhnigk O Neuber K Rijntjes M Quellmann C Harendza S Lohnt sich eine Reform der klinischen Ausbildung? - Die Qualität des Hamburger Curriculums unter der alten und der neuen Approbationsordnung im Vergleich 2005 Z Ärztl Fortbild Qualitätssich 419-423 van den Bussche H, Anders S, Ehrhardt M, Göttsche T, Hüneke B, Kohlschütter A, Kothe R, Kuhnigk O, Neuber K, Rijntjes M, Quellmann C, Harendza S. Lohnt sich eine Reform der klinischen Ausbildung? - Die Qualität des Hamburger Curriculums unter der alten und der neuen Approbationsordnung im Vergleich. Z Ärztl Fortbild Qualitätssich. 2005;99:419-423. van den Bussche H Weidtmann K Kohler N Frost M Kaduskiewicz H Evaluation der ärztlichen Ausbildung: Methodische Probleme der Durchführung und der Interpretation von Ergebnissen 2006 GMS Z Med Ausbild Doc37 van den Bussche H, Weidtmann K, Kohler N, Frost M, Kaduskiewicz H. Evaluation der ärztlichen Ausbildung: Methodische Probleme der Durchführung und der Interpretation von Ergebnissen. GMS Z Med Ausbild. 2006;23(2):Doc37. Zugänglich unter/available under: http://www.egms.de/de/journals/zma/2006-23/zma000256.shtml http://www.egms.de/de/journals/zma/2006-23/zma000256.shtml Weidtmann K 2007 Analyse des Status quo der Leitsymptom-Vorlesung und Planung einer evaluationsbasierten Intervention an der Medizinischen Fakultät Hamburg Weidtmann K. Analyse des Status quo der Leitsymptom-Vorlesung und Planung einer evaluationsbasierten Intervention an der Medizinischen Fakultät Hamburg. Unveröffentlichte Projektarbeit im Studiengang Master of Medical Education. Heidelberg: Medizinische Fakultät Heidelberg; 2007. Wilson RC Improving faculty teaching: Effective use of student evaluations and consultants 1986 J High Educ 196-211 Wilson RC. Improving faculty teaching: Effective use of student evaluations and consultants. J High Educ. 1986;57(2):196-211. DOI: 10.2307/1981481 http://dx.doi.org/10.2307/1981481 Wirtz M Bestimmung der Güte von Beurteilereinschätzungen mittels der Intraklassenkorrelation und Verbesserung von Beurteilereinschätzungen 2004 Rehabilitation 384-389 Wirtz M. Bestimmung der Güte von Beurteilereinschätzungen mittels der Intraklassenkorrelation und Verbesserung von Beurteilereinschätzungen. Rehabilitation. 2004;43:384-389. DOI: 10.1055/s-2003-814935 http://dx.doi.org/10.1055/s-2003-814935 11de1en

22de2en

33de3en

44de4en

55de5en

66de6en

1 1de 1en Abbildung 1: Zeitlicher Ablauf der Studie mit Übersicht über die einzelnen Arbeitsschritte Figure 1: Timeline of the study with an overview of the individual steps 1 0 0