Projekt

Humanmedizin

Computerbasiert pr?fen

Peter Frey ¹

¹ Universit?t Bern, Institut f?r Medizinische Lehre IML, Abteilung f?r Unterricht und Medien (AUM), Bern, Schweiz

Zusammenfassung

Computerbasierte Pr?fungen im Medizinstudium er?ffnen neue M?glichkeiten. Vorteile solcher Pr?fungen liegen im sequentiellen oder adaptiven Pr?fen, in der Integration von Bewegtbildern oder Ton, der raschen Auswertung und zentraler Verwaltung der Pr?fungsfragen via Internet. Ein Einsatzgebiet mit vertretbarem Aufwand sind Pr?fungen mit mehreren Stationen wie beispielsweise die OSCE-Pr?fung.

Computerbasierte formative Selbsttests werden im Bereiche e-learning h?ufig angeboten. Das hilft den Lernenden ihren Wissensstand besser einzusch?tzen oder sich mit den Leistungen anderer zu vergleichen.

Grenzen zeigen sich bei den summativen Pr?fungen beim Pr?fungsort, da zuhause Betrug m?glich ist. H?here ?rztliche Kompetenzen wie Untersuchungstechnik oder Kommunikation eigenen sich kaum f?r rechnergest?tzte Pr?fungen.

Schlüsselwörter

Medizinische Ausbildung, Rechner, Pr?fung, online, Selbsttest, Kompetenzen

Einleitung

Online Pr?fungen scheinen verlockend - die Medizinischen Fakult?ten m?ssen durch die neue Approbationsordnung f?r ?rzte (?appO) immer mehr Pr?fungen bei sinkendem Budget durchf?hren. Computerbasierte Pr?fungen scheinen ein effizientes Werkzeug zur rationalen Pr?fungsabwicklung darzustellen.

Schriftliche Pr?fungen werden schon heute h?ufig mit elektronisch lesbaren Fragebogen durchgef?hrt. Die Daten werden anschlie?end mittels Rechner ausgewertet. Unter computerbasierten Pr?fungen werden nachfolgend solche Pr?fungen verstanden, bei denen bereits die Dateneingabe am Rechner online erfolgt [1]. Die Daten werden ?ber ein Netzwerk, meist das Internet, an einen zentralen Rechner ?bermittelt und dort ausgewertet.

Welches Potenzial bieten also computerbasierte Pr?fungen? Werden die M?glichkeiten ausgenutzt und die Grenzen beachtet?

Grunds?tzlich muss bei Pr?fungen (assessment) zwischen formativer und summativer Pr?fung unterschieden werden. Die formativen Pr?fungen werden auch als Selbst-Beurteilung (self-assessment) bezeichnet und dienen der Kontrolle des Lernerfolges ohne sanktionierende Ma?nahmen, also ohne Entscheid ?ber Bestehen/Nichtbestehen. Viele web-basierte Lernprogramme (e-learning) [2] beinhalten bereits Selbstkontrollen, denen sich der Studierende unterziehen kann und die stimulierend f?r das weitere Lernen sein sollen. Der Vorteil von formativen online Pr?fungen ist eine korrekte und rasche Auswertung der Antworten. Idealerweise erh?lt der Lernende zus?tzlich Begr?ndungen der Antworten. Formative Pr?fungen haben aber meist eine schlechte testmethodische Qualit?t. Es k?nnen irrelevante oder nicht repr?sentative Inhalte gepr?ft werden. Meist werden nur Multiple Choice Questions (MCQ) mit Einfachwahlantworten verwendet, da diese schnell geschrieben werden k?nnen. Die Fragen werden selten durch einen Review-Prozess validiert. Auch wird dem Testkandidaten selten sein Leistungsniveau im Vergleich zu den ?brigen Kandidaten aufgezeigt.

Summative Pr?fungen (high stake exams) beinhalten einen Bestehen-/Nichtbestehens-Entscheid mit sanktionierenden Ma?nahmen wie Wiederholung der einzelnen Pr?fung, eines ganzen Studienjahres oder Ausschluss aus dem Studium. Summative Pr?fungen m?ssen daher bez?glich der Pr?fungsinhalte relevant und valide sein und eine hohe Verl?sslichkeit im Sinne der Reliabilit?t aufweisen [3]. Zudem darf kein Betrug durch die Studierenden m?glich sein. Dies gilt auch f?r summative computerbasierte Pr?fungen, auf die im Folgenden etwas n?her eingegangen werden soll.

Methoden

Anwendungsgebiete von rechnergest?tzten Pr?fungen

Miller [4] teilt die ?rztlichen Kompetenzen in vier Bereiche (siehe Abbildung 1 [Abb. 1]).

Abbildung 1: Kompetenzen nach Miller und geeignete Pr?fungen

Der Arzt

• wei? es (knows)

• wei? wie (knows how)

• zeigt wie (shows how)

• handelt (does).

Jedem Kompetenzbereich k?nnen geeignete Pr?fungsmethoden zugeordnet werden. F?r die Bereiche Wissen (knows) und Handlungswissen (knows how) k?nnen computerbasierte Pr?fungen sinnvoll sein. F?r das reine Faktenwissen sind beispielsweise MCQ-Pr?fungen am sinnvollsten, da sie sehr zuverl?ssig messen und mit vertretbarem Aufwand hergestellt werden k?nnen. Handlungswissen im Sinne der klinischen Entscheidungskompetenz (clinical reasoning) wird meist als klinische Situationsbeschreibung (‚Vignette') mit Mehrfachantworten abgefragt. Dazu wurden das Pr?fungsverfahren [5] der Patient Management Problems (PMP) und die ‚Schl?sselprobleme' (key features) entwickelt. Die PMP haben sich f?r summative Pr?fungen als nicht geeignet erwiesen [3], obwohl sie sich gut als computerbasierte Pr?fungen eignen w?rden. Deshalb liegt die Hoffnung nun bei den Fragetypen der key features.

F?r Handlungskompetenzen (shows how, does) wie Anamnese, Untersuchungstechnik oder gar Kommunikation eignen sich computerbasierte Pr?fungen weniger. Dazu bieten Pr?fungsmethoden mit Schauspielpatienten wie objective structured clinical examination (OSCE) oder klinik-orientierte Methoden [6] wie die Mini clinical evaluation exercise [7] (Mini-CEX) oder Portfolio bessere Voraussetzungen (siehe Tabelle 1 [Tab. 1]).

Computerbasierte online Pr?fungen k?nnen theoretisch folgende Vorteile gegen?ber den schriftlichen, computerlesbaren Formularen bieten.

Sequentielles Pr?fen wird m?glich. Alle Pr?flinge bekommen zuerst einen gemeinsamen Pool von Fragen. Die schlechten und die guten Pr?flinge bekommen keine zus?tzlichen Fragen und gelten als bestanden/nicht bestanden. Kandidaten im Mittelfeld, um die Bestehensgrenze, bekommen nochmals Fragen mit mittlerem Schwierigkeitsgrad. So l?sst sich eine bessere Trennung erzielen und einige Pr?flinge haben eine k?rzere Pr?fungszeit.

Bei adaptiven Tests werden die Fragen den Leistungen der Kandidaten individuell angepasst. Die Entwicklung solcher zweistufiger Pr?fungen ist aufw?ndig und der Gewinn gegen?ber einstufigen Pr?fungen mit vielen Fragen (200 im MCQ-Stil) verschwindend klein.

Ein weiterer Vorteil kann die online Redaktion der Fragen sein. Dieser Vorteil gilt allerdings auch f?r die datenbankbasierte Verwaltung von Fragen (‚itembank') f?r Pr?fungen auf Papier. Die online Verwaltung von Fragen k?nnte dazu f?hren, der Qualit?t der Fragen ungen?gend Beachtung zu schenken. Ein seri?ser Validierungsprozess der Fragen wird den Pr?fungsverantwortlichen auch im Internetzeitalter nicht erspart. Selbstverst?ndlich m?ssen ein hoher Datenschutz und Sicherheit des Zugriffes nur f?r Berechtigte gew?hrleistet sein.

Computerbasierte Pr?fungen k?nnen theoretisch sofort ausgewertet werden nachdem alle Kandidaten die Antworteingabe abgeschlossen haben. Die unmittelbare R?ckmeldung ?ber Bestehen/Nichtbestehen bedingt allerdings, dass die Bestehensgrenzen im Voraus festgelegt worden sind (standard setting). Die Festlegung eines starren minimalen Prozentsatzes richtiger Antworten (z.B. 60 %) ist f?r summative Pr?fungen ebenso fragw?rdig wie eine auf die Gruppenleistung bezogene Grenzsetzung (z.B. eine Standardabweichung unterhalb des Mittelwertes). In beiden F?llen h?ngt die Erfolgschance eines Kandidaten nicht ausschlie?lich von seiner Leistungsf?higkeit ab, sondern ist im ersten Fall abh?ngig von der Pr?fungsschwierigkeit und im zweiten Fall von der Leistungsf?higkeit der ?brigen Kandidaten. Das Problem ist nur mit einem inhaltsorientierten Verfahren zu l?sen (Angoff, Ebel, Nedelsky) [8]. Leider sind solche Verfahren ziemlich aufw?ndig und werden deshalb noch viel zu selten eingesetzt. Je nach Verfahren ist eine unmittelbare Auswertung gar nicht m?glich.

Weitere Einsatzgr?nde computerbasierter Pr?fungen bestehen in der Integration von Bewegtbildern (Video, Animation, Simulation) oder Ton (Herz- oder Lungenger?usche). Dies ist auf Papier nicht m?glich. In Bern geschieht dies im Rahmen einer OSCE-Pr?fung im dritten Studienjahr mit insgesamt 20 Stationen, wobei 14 Stationen mit Schauspielpatienten best?ckt sind (‚shows how'). Ein Vorteil von OSCE-Pr?fstationen ist die kleine Anzahl Rechner, die eingesetzt werden muss, da die Kandidaten von Posten zu Posten rotieren. F?r die Herzauskultation wurde zuerst ein umfangreiches CD-ROM-basiertes Lernprogramm im Rahmen einer Dissertation erstellt. Davon ausgehend wurde ein Auskultations-Trainer mit Pr?fmodul der 10 wichtigsten Pathologien f?r das Betriebssystem MacOS erstellt. Der Studierende beurteilt Schritt f?r Schritt T?ne und Ger?usche und stellt eine Diagnose. In 8 Minuten mussten zwei Befunde interpretiert werden (siehe Abbildung 2 [Abb. 2]).

Abbildung 2: Auskultationstrainer als Grundlage f?r computerbasierte Pr?fungsstation im OSCE

Die p?diatrische Untersuchungstechnik im Rahmen eines OSCE-Parcours bei 150 Kandidaten kann kaum an Kleinkindern durchgef?hrt werden, da Kleinkinder rasch erm?den oder die Kooperation schwierig ist. Als Ersatz f?r echte Patienten wurden den Kandidaten acht Videoclips gezeigt. Bei jeder gezeigten Untersuchung hatte der Kandidat zu beurteilen, ob diese richtig oder falsch durchgef?hrt wurde und falls inkorrekt, kurz zu begr?nden was falsch war. Der Computer diente allerdings nur der Wiedergabe der Videoclips. Die Beurteilung wurde auf einem rechnerlesbaren Formular erfasst und die Freitexte nachtr?glich von Experten bewertet (siehe Abbildung 3 [Abb. 3]).

Abbildung 3: OSCE-Station mit Videoclips zur p?diatrischen Untersuchungstechnik

Die online Literatursuche in Pubmed ist f?r jedermann m?glich geworden. Die Literatursuche mit Pubmed, also Kompetenzen, die auch in der Realit?t nur im Umgang mit Rechnern erfolgen, sind weitere geeignete Anwendungen von online Pr?fungen. Die wichtigsten Werkzeuge von Pubmed wie limits, history, clipboard, MeSH database und clinical queries werden deshalb in einem zweist?ndigen hands-on Kurs im 3. Studienjahr in Bern trainiert und am Semesterende an einer OSCE-Station gepr?ft. Die Kandidaten bekommen eine klinische Fragestellung und sollen dazu in acht Minuten Literatur mit hoher Evidenz (RCT, Systematic Reviews oder Metaanalysen) suchen. Dies geschieht online mit Zugriff auf die Datenbank der National Library of Medicine (NML). Verbindungsunterbr?che sind selten (einmal t?glich) und dauern nur 1-2 Minuten. Der Studierende druckt die gefundenen Artikel der ersten Seite aus. Die Bewertung erfolgt nach Kriterien wie: korrekte englische Suchbegriffe, gefundene Artikel oder Evidenz.

Schwierigkeiten von summativen computerbasierten Pr?fungen

Eine Herausforderung bei summativen Pr?fungen stellt sicher die Verhinderung des Plagiates dar. Wie k?nnen 100-300 Kandidaten gepr?ft werden ohne M?glichkeiten zum Betrug?

Bei beispielsweise 140 Studierenden m?sste die Pr?fung an einem zentralen Pr?fungsort mit 70 Rechnern mehrmals durchgef?hrt werden. Um Betrug zu verhindern, m?ssten die Fragen ausgetauscht oder die Weitergabe durch Abschottung der Kandidatengruppen minimiert werden. Ein weiteres Problem stellt das Netzwerk dar: Es d?rfen keine l?ngeren Ausf?lle auftreten, sonst muss die Pr?fung wiederholt oder verl?ngert werden. Die Daten m?ssen auch sicher ?bermittelt werden.

Ein grosser zentraler Rechnerraum w?re f?r Schulungen ungeeignet: Die PC's w?rden die meiste Zeit ungenutzt herumstehen. Studierenden lernen heute lieber mit eigenem Notebook mit Funkkontakt (WiFi) zum Internet. Sie sind zunehmend weniger auf gro?e Rechner-R?ume angewiesen. Wegen des raschen Technologiewandels m?ssten die PC's nach zwei bis drei Jahren bereits wieder ersetzt werden. Mit computerlesbaren schriftlichen Fragebogen ist man flexibler in der Wahl des Pr?fungsortes.

Wie sieht die Situation in den USA aus?

Die United States Medical Licensing Examination (USMLE) f?hren summative computerbasierte Pr?fungen in mehreren privaten Computer-Zentren mit propriet?rer, verschl?sselter Software durch [9] [10] [11] [12] [13]. Die Resultate werden aber erst nach einigen Wochen verschickt. Die Pr?fungsfragen werden dabei zwar ?ber das Internet verteilt, sind aber nicht zug?nglich, so dass eher von einem Intranet gesprochen werden m?sste. Soll das nun als online Pr?fung verstanden werden?

Als Alternative scheint ein dezentrales Pr?fen zuhause am eigenen Rechner verlockend. Trotz Passwortkontrolle kann damit aber ein Betrug nicht verhindert werden. Erstens kann nicht sicher ?berpr?ft werden, wer die Antworten am heimischen Rechner eingibt. So k?nnen die Kandidaten sich Hilfe bei ?lteren Kommilitonen oder anderen Experten holen. Zweitens h?tten die Kandidaten freien Zugang zu Internet (Wissensabfrage) und e-mail. Es m?sste auch sichergestellt werden, dass alle Rechner die gleichen minimalen technischen Anforderungen wie Hardware, Software und Verbindungsgeschwindigkeit zum Internet erf?llen.

Einfacher sieht die Situation im Rahmen von Pr?fungen mit Stationen wie dem OSCE aus. Bei zwei parallelen Parcours gen?gen lediglich zwei Rechner, sowie ein bis zwei Ersatzger?te.

Folgende Computerstationen waren bisher in Bern beim OSCE im Einsatz:

• Herz- oder Lungenauskultation (T?ne, siehe Abbildung 2 [Abb. 2])

• Histologie (1./2. Jahr) oder H?matologie (3. Jahr)

• P?diatrische Untersuchungstechnik (Video, siehe Abbildung 3 [Abb. 3])

• Literatursuche online mit Pubmed.

Wie bei allen Pr?fungen sollte man bei der Planung computerbasierter Pr?fungen immer auch ein Auge auf m?gliche Pr?fungseinsprachen richten. Ist die Pr?fung inhaltlich und technisch f?r alle Studierenden gerecht? Gab es bei computerbasierten Pr?fungen keine zus?tzlichen H?rden [14] oder dann entsprechende Hilfestellungen wie beispielsweise online Mustertests?

Formative Selbsttests (Self-Assessment)

F?r formative Tests sieht die Situation ganz anders aus. Selbstbetrug ist kein Thema, respektive jedem Studierenden selber ?berlassen. Die Hochschulen haben sich zum Ziel gesetzt, Studierende zu lebenslangen Lernern (life long learners) auszubilden.

Dazu geh?ren zwei F?higkeiten [15]

• Selbstbeurteilung (self-assesssment) von L?cken der eigenen Kompetenz

• Selbst?ndiges Lernen (self-directed learning) zur Verbesserung der Kompetenz.

Umfangreiche Studien [15] [16] [17] kommen zu einem ern?chternden Resultat. Weder Studierende noch praktizierende ?rzte k?nnen ihre Lerndefizite respektive ihren Wissensstand realistisch einsch?tzen. In der Studie an der McMaster-Universit?t [15] wurde die Selbsteinsch?tzung der Studierenden bez?glich eines dreimal j?hrlich stattfindenden Progress-Testes evaluiert. Die Studierenden konnten ihre Leistungen in den Tests nicht realistisch einsch?tzen respektive voraussagen. Erstaunlicherweise wurde dies auch nach zwei Jahren nicht besser, obwohl die Studierenden dann bereits sechs solcher Tests absolviert hatten und ein Trainingseffekt in der Selbstbeurteilung erwartet werden d?rfte.

Welche Schl?sse f?r computerbasierte Selbsttests k?nnen wir daraus ziehen?

Selbstkontrollen (auch auf Papier) sind wichtig und helfen den Studierenden, ihre Leistung zu objektivieren. Es ist deshalb sicher sinnvoll, den Lernenden ein Instrument zur Beurteilung ihrer Leistung in die Hand zu geben. Es stellt sich dann die Frage, wie hoch die Motivation zur Teilnahme an solchen Lernkontrollen ist. Am h?chsten ist sie, wenn die Selbsttests dasselbe Format (Inhalte, ‚Medium') wie die echten Pr?fungen aufweisen. Das Institut f?r Medizinische Lehre in Bern (Schweiz) bietet seit Jahren einen begrenzten online Zugang zu einem Teil der echten MC-Pr?fungsfragen der Schweizerischen Staatsexamina an, im Sinne des Self-Assessments (http://www.iawf.unibe.ch/self-assessment/). Die Aktivit?ten der 1000 Kandidaten sind auf dem Server unmittelbar vor den Pr?fungen so hoch, dass dieser in den vergangenen Jahren auch schon mal seine Funktion aufgab. F?r dieses Self-Assessment werden ausschlie?lich Fragen verwendet, die bereits am Staatsexamen eingesetzt wurden. Damit kommen nur validierte Fragen zum Einsatz, und die Teilnehmenden k?nnen ihre Leistung mit der mittleren Leistung fr?herer Staatsexamenskandidaten vergleichen. Sie k?nnen sich dabei auch nur in Teilbereichen oder mehrmals testen. Die Fragen werden vom Server jeweils zuf?llig zusammengestellt. Falsch beantwortete Fragen k?nnen nochmals angeschaut werden. Die korrekte L?sung wird aber bewusst nicht bekannt gegeben, um oberfl?chlichem Auswendiglernen isolierter Einzelfakten entgegen zu wirken (siehe Tabelle 2 [Tab. 2]).

Wenig Interesse besteht, wenn sowohl das Pr?fungsformat wie die Inhalte von formativen und summativen Pr?fungen weit auseinander liegen. Selbsttests mit MC-Fragen (Detailwissen) dienen kaum der Vorbereitung auf m?ndliche Pr?fungen mit Einbezug von Patienten.

Alle heute eingesetzten Lernplattformen f?r e-learning, auch learning management systems (LMS) genannt, bieten auch dem technischen Laien die M?glichkeit, Selbsttests zu implementieren. Der Aufwand f?r die Dozierenden und der Nutzen f?r die Studierenden sollte dringend n?her erforscht werden.

Noch besser als Selbsttests sind regelm??ige summative Pr?fungen mit verschiedenen Pr?fungsformen, da so ein klarer Anreiz zum vielseitigen Lernen gegeben wird.

Schlussfolgerungen

Computerbasierte Pr?fungen k?nnen in formative und summative, in lokal netzwerkbasierte oder web-basierte eingeteilt werden. F?r rechnergest?tzte Pr?fungen eignen sich vorwiegend ?rztliche Kompetenzen im Bereiche des Wissens (knows, knows how).

F?r summative Pr?fungen mit Konsequenzen stellen sich hohe Qualit?tsanspr?che sowohl an die Pr?fung selber als auch zus?tzlich an die Technologie. Der Aufwand des computerbasierten Staatsexamens (UMSLE) in den USA ist eindr?cklich bis erschreckend.

Ein Einsatzgebiet mit vertretbarem Aufwand sind Pr?fungen mit mehreren Stationen wie die OSCE-Pr?fung. Bern hat damit gute Erfahrungen gemacht.

Elektronische Selbsttests f?r Studierende machen p?dagogisch Sinn. Studien haben gezeigt, dass die Studierenden und ?rzte ihren Wissensstand schlecht einsch?tzen k?nnen. Die Lernplattformen der Universit?ten bieten dazu geeignete L?sungen an. Unklar bleibt, wieweit die Masse der Lernenden diese Angebote auf freiwilliger Basis auch tats?chlich nutzt.

Danksagung

Das Manuskript wurde freundlicherweise durchgesehen und erg?nzt von Dipl. Psych. Ren? Krebs, Abteilung f?r Assessment and Evaluation (aae) des Institutes f?r Medizinische Lehre der Universit?t Bern.

Literatur

[1] Cantillon P, Irish B, Sales D. Using computers for assessment in medicine. BMJ. 2004;329(7466):606-609.
[2] Hammoud MM, Barclay ML. Development of a Web-based question database for students' self-assessment. Acad Med. 2002;77(9):925.
[3] Schuwirth LW, van der Vleuten CP. ABC of learning and teaching in medicine: Written assessment. BMJ. 2003;326(7390):643-645.
[4] Miller GE. The assessment of clinical skills/competence/performance. Acad Med. 1990;65(9 Suppl):63-67.
[5] Schuwirth LW, van der Vleuten CP. The use of clinical simulations in assessment. Med Educ. 2003;37(Suppl 1):65-71.
[6] Norcini JJ. Work based assessment. BMJ. 2003;326(7392):753-755.
[7] Norcini JJ, Blank LL, Duffy FD, Fortna GS. The mini-CEX: a method for assessing clinical skills. Ann Intern Med. 2003;138(6):476-481.
[8] Bloch R, Hofer D, Krebs R. Handbuch ‚Kompetent pr?fen'. Bern: Abteilung f?r Ausbildungs- und Examensforschung (AEE). Zug?nglich unter http://www.iawf.unibe.ch/.
[9] Clauser BE, Margolis MJ, Swanson DB. An examination of the contribution of computer-based case simulations to the USMLE step 3 examination. Acad Med. 2002;77(10 Suppl):80-82.
[10] Guagnano MT, Merlitti D, Manigrasso MR, Pace-Palitti V, Sensi S. New medical licensing examination using computer-based case simulations and standardized patients. Acad Med. 2002;77(1):87-90.
[11] Dillon GF, Boulet JR, Hawkins RE, Swanson DB. Simulations in the United States Medical Licensing Examination (USMLE). Qual Saf Health Care. 2004;13(Suppl 1):41-45.
[12] Dillon GF, Clyman SG, Clauser BE, Margolis MJ. The introduction of computer-based case simulations into the United States medical licensing examination. Acad Med. 2002;77(10 Suppl):94-96.
[13] Robert Galbraith, Peter Scoles, Stephen Clyman. National Board of Medical Examiners: Online Assessment in Medical Education: Emerging Experience in the United States Conference ‚eLearning Results 2004'. Sestri: Levante; 2004. Zug?nglich unter: http://www.elearningresults.com/agenda4.html.
[14] Peterson MW, Gordon J, Elliott S, Kreiter C. Computer-based testing: initial report of extensive use in a medical school curriculum. Teach Learn Med. 2004;16(1):51-59.
[15] Eva KW, Cunnington JP, Reiter HI, Keane DR, Norman GR. How can I know what I don't know? Poor self assessment in a well-defined domain. Adv Health Sci Educ Theory Pract. 2004;9(3):211-224.
[16] Fitzgerald JT, White CB, Gruppen LD. A longitudinal study of self-assessment accuracy. Med Educ. 2003;37(7):645-649.
[17] Day SC, Norcini JJ, Webster GD, Viner ED, Chirico AM. The effect of changes in medical knowledge on examination performance at the time of recertification. Proceedings of the Annual Conference of Research. Med Educ. 1998;27:139-144.

Get in touch.

GMS Journal for Medical Education__Temp