journal_logo

GMS Journal for Medical Education__Temp

Gesellschaft für Medizinische Ausbildung (GMA)

2366-5017__Temp


Originalarbeit
Humanmedizin

Evaluation des Auswahlverfahrens von Medizinstudenten an der Universit?t Witten/Herdecke

 Thomas Ostermann 1
Wilhelm Vermaasen 2
Peter F. Matthiessen 3

1 Lehrstuhl f?r Medizintheorie, Fakult?t f?r Medizin, Universit?t Witten/Herdecke, Herdecke, Deutschland
2 Studiendekanat der Fakult?t f?r Medizin, Universit?t Witten/Herdecke, Deutschland
3 Lehrstuhl f?r Medizintheorie, Fakult?t f?r Medizin, Universit?t Witten/Herdecke, Deutschland

Zusammenfassung

Hintergrund: Die Universit?t Witten/Herdecke wurde 1983 als erste deutsche Hochschule in privater Tr?gerschaft gegr?ndet. Sie ist die einzige nichtstaatliche Universit?t in Deutschland, die einen Studiengang Humanmedizin anbietet. Als nichtstaatliche Hochschule ist sie nicht an das staatliche Vergabeverfahren durch die Zentralstelle f?r die Vergabe von Studienpl?tzen gebunden und hat im Zuge ihrer Autonomie ein eigenes Aufnahmeverfahren entwickelt. Um die Validit?t und Reliabilit?t des Auswahlverfahren zu untersuchen, wurde in einem ersten Schritt der Interviewprozess einer Evaluation unterzogen.

Material und Methoden: Grundlage der vorliegenden Untersuchung sind die Ergebnisse der Interviewperioden 1999 und 2000. Zur ?berpr?fung der Inter-Rater-Reliabilit?t wurde der Kappa-Koeffizient nach Cohen f?r mehrstufige nominalskalierte Variablen modifiziert nach Fleiss benutzt. Die ?berpr?fung von Unterschieden und ?bereinstimmungen in den Beurteilungen der Bewerber wurde neben der Gesamtstichprobe separat f?r die Subgruppen Jahrgang, Altersgruppe, Abiturnote und Geschlecht durchgef?hrt.

Ergebnisse: Die Reliabilit?t ist mit Kappa-Werten zwischen 0,70 (Jahrgang 2000) und 0,88 (Jahrgang 1999) durchg?ngig als hoch zu bewerten. Zwischen den Jahrg?ngen zeigen sich allerdings deutliche Unterschiede in Bezug auf die ?bereinstimmung der Interviewer. Es finden sich keine Unterschiede bei einer geschlechtsbezogenen Betrachtung (m?nnlich: k=0,81; weiblich: k=0.8). Eine Tendenz zu einer geringeren ?bereinstimmung kann bei der Subgruppenanalyse in Bezug auf die Abiturnote festgestellt werden, die mit Kappa Werten zwischen k=0.76 und k=0.82 schwankte.

Diskussion: Die Untersuchung zeigt, dass mit dem Aufnahmeverfahren zum Studium der Humanmedizin an der Fakult?t f?r Medizin der Universit?t Witten/Herdecke ein reliables Instrument mit einer hohe Inter-Rater Reliabilit?t vorliegt, obwohl den beteiligten Interviewern keine einheitlichen Entscheidungskriterien und deren Gewichtung vorgegeben werden. Inwieweit einzelne Kriterien bzw. Konstellationen letztlich f?r eine Entscheidung ma?geblich waren, soll in einer nachfolgenden Arbeit untersucht werden.


Schlüsselwörter

Aufnahme-Interviews, Inter-Rater-Reliabilit?t, Auswahlverfahren, Medizinstudenten

Einleitung

Die Universit?t Witten/Herdecke wurde 1983 als erste deutsche Hochschule in privater Tr?gerschaft gegr?ndet. Sie ist die einzige nichtstaatliche Universit?t in Deutschland, die einen Studiengang Humanmedizin anbietet. Dass es vorwiegend Mediziner waren, die mit der Universit?tsgr?ndung eine grundlegende Neubestimmung und Neugestaltung einer Hochschulausbildung im allgemeinen und der ?rzteausbildung im speziellen anstrebten, d?rfte kaum Zufall gewesen sein. Denn kaum ein universit?rer Studiengang fand sich in Deutschland zum damaligen Zeitpunkt so verschult und durch so viele Vorschriften reglementiert, wie derjenige des Medizinstudiums [1], [2]. Der Wille zu einer Neugestaltung der Ausbildung zum Arzt ersch?pfte sich daher nicht nur in der Anwendung hochschuldidaktischer Gesichtspunkte und der Erprobung neuer curricularer Techniken [3]. Zielf?hrend war vielmehr das Anliegen, den Erwerb der F?higkeit zu eigenst?ndiger Erkenntnisarbeit und Urteilskraft, zu Gestaltungskraft und Verantwortungs?bernahme, zu sozialer Kompetenz und lebenslanger Lernf?higkeit schrittweise zu erm?glichen und die Bereitschaft hierzu von den Studierenden zu erwarten.

Zum Zeitpunkt der Universit?tsgr?ndung gesellschaftlich und politisch eher verp?nt, bedeutete dies zugleich die Neubesinnung auf einen Elitebegriff: n?mlich statt des traditionellen Eliteverst?ndnisses im Sinne einer Privilegienelite denjenigen einer Verantwortungselite zu verfolgen. Damit kommt der Frage nach der Auswahl der Studienbewerber eine zentrale Bedeutung zu. Als nichtstaatliche Hochschule ist die Universit?t Witten/Herdecke nicht an das staatliche Vergabeverfahren durch die Zentralstelle f?r die Vergabe von Studienpl?tzen gebunden. Im Zuge ihrer Autonomie hat sie ein eigenes Aufnahmeverfahren entwickelt mit dem Ziel, diejenigen Menschen zu finden, die bereit und in der Lage erscheinen, neben entsprechender Begabung und Motivation Ideenverm?gen, Empathie und ?rztlich-therapeutisches Engagement zu entwickeln [2], [4], [5].

Grundvoraussetzungen f?r die Aufnahme sind ein deutsches Hochschulreifezeugnis oder eine als ?quivalent anerkannte Leistung sowie ein sechsmonatiges Krankenpflegepraktikum. Die Auswahl der Studenten erfolgt in einem zweistufigen Verfahren:

1. Beurteilung der schriftlichen Bewerbungsunterlagen (individuelle Darstellung des Lebenslaufs und der Motive f?r die Entscheidung zum Medizinstudium, Nachweise ?ber bisherige T?tigkeiten und Praktika, Zeugnis der Hochschulreife) durch zwei Personen unabh?ngig voneinander. Hieraus Auswahl von Bewerbern zu nachfolgenden Interviews.

Aus durchschnittlich 500 Bewerbungen pro Jahr werden durch unabh?ngig voneinander vorgenommene Bewertung der Bewerbungsunterlagen durch jeweils zwei Rater etwa 120-150 Bewerber zu Interviews geladen.

2. Drei durch Pausen unterbrochene Interviews mit den Bewerbern durch je zwei Vertreter der Hochschule. Den Interviewern liegen dabei die schriftlichen Bewerbungsunterlagen der Kandidaten vor. Den beteiligten Interviewern werden keine einheitlichen Entscheidungskriterien oder Gewichtungen vorgegeben. Der Bewerber wird seinerseits aufgefordert, die Interviewer auf bereits in vorangegangenen Interviews gestellte Fragen, die in einem nachfolgenden Interview nochmals gestellt werden, aufmerksam zu machen. Nach den Interviews werden die Kandidaten in einem ersten Schritt durch jeden der insgesamt sechs Interviewer anhand einer 5-stufigen Skala (+, +O, O, O-, -) bewertet. Diese unabh?ngig f?r jeden Bewerber getroffenen Bewertungen werden in einer eingehenden gemeinsamen Abschlussdiskussion mit den anderen Interviewern diskutiert. Ziel ist es, unterschiedliche Eindr?cke und Beurteilungen zusammenzuf?hren, um eine umfassende Grundlage f?r eine Abschlussbenotung zu gewinnen. Die Abschlussbenotung wird in eine Gesamtpunktzahl umgerechnet, und die Kandidaten werden gerankt.

Die h?chstgerankten 42 Bewerber/innen erhalten nach Abschluss aller Interviews eine Studienplatzzusage. Durch Nichtannahme freiwerdende Pl?tze werden in der Folge des Rankings nachbesetzt.

Sowohl die Bewerter der schriftlichen Bewerbungen als auch die Interviewer rekrutieren sich dabei aus Dozenten der Hochschule (Fakult?ten f?r Medizin, Biowissenschaften und Studium fundamentale), ehemaligen Studierenden sowie der Universit?t verbundenen Vertretern des ?ffentlichen Lebens.

Die Beurteilung der schriftlichen Bewerbungsunterlagen und die Beurteilung der Bewerber in den Interviews erfolgt unter den Kriterien Interessensspektrum und Ideenf?higkeit, Initiativkraft und Urteilsverm?gens, Eignung zum Arzt und soziale Kompetenz. Ein weiterer Gesichtspunkt ist die Kompatibilit?t des Bewerbers zu den besonderen Gegebenheiten des Medizinstudiums an der UWH (Wissenschaftspluralismus, Studium fundamentale, Kleingruppenunterricht, problemorientiertes Lernen (POL) u.a.m.). Die Schwerpunktsetzung in der Bewertung des Kandidaten ist dabei individuell den Beurteilern ?berlassen. Trotz der individuell unterschiedlichen Schwerpunktsetzungen bei der Beurteilung haben Erfahrungswerte schon fr?h auf eine hohe „Inter-Rater-Reliabilit?t" hingedeutet [2].

Zur ?berpr?fung dieser Aussage und vor dem Hintergrund einer zunehmenden Tendenz zu standardisiert-anonymisierten Entscheidungsprozessen bei Auswahlverfahren an anderen Einrichtungen [6] wurde das hiesige Auswahlverfahren einer Validierung unterzogen, das zwei Komponenten ?berpr?fte: Zum einen sollte die Frage nach der Inter-Rater-Reliabilit?t genauer untersucht werden. In einem zweiten Schritt soll ?berpr?ft werden, ob die ausgew?hlten Studierenden sich durch bestimmte gemeinsame Eigenschaften auszeichnen. In der vorliegenden Arbeit werden die Ergebnisse des ersten Teils der Untersuchung dargestellt.

Material und Methoden

Grundlage der vorliegenden Untersuchung sind die Ergebnisse der Interviewperioden 1999 (Studienbeginn 2000) und 2000 (Studienbeginn 2001). Neben den sechs Interviewbewertungen f?r die Bewerber wurde Geschlecht, Alter und Abiturnote der Bewerber erfasst. Daneben wurden Daten zur beruflich-akademischen Funktion der Interviewer erhoben und die Zusammensetzung der Interviewergruppen in den beiden Erhebungszeitr?umen untersucht.

Um zu kl?ren, ob verfahrensimmanent bereits hohe ?bereinstimmungen in den Bewertungen erwartet werden k?nnen, wurden die Interviewer im Jahr 1999 instruiert, nach der Abschlussdiskussion ein m?glichst einvernehmliches Urteil, insbesondere bei den hochgerankten Bewerbern zu erzielen. Im Jahr 2000 wurde diese Vorgabe fallengelassen.

Neben deskriptiven statistischen Verfahren zur Beschreibung der Basisdaten wurde zur ?berpr?fung von Unterschieden in der prozentualen Verteilung der Interviewer der Chi-Quadrat-Test angewandt. F?r metrische Daten wurde der Student t-Test f?r die Testung von Mittelwertsdifferenzen herangezogen.

Zur ?berpr?fung der Inter-Rater-Reliabilit?t wurde der Kappa-Koeffizient nach Cohen f?r mehrstufige nominalskalierte Variablen, modifiziert nach Fleiss benutzt [7]. Dieser berechnet sich analog zum zweidimensionalen Fall nach der Formel , wobei die Wahrscheinlichkeit ist, dass ein beliebiges Urteilerpaar im Durchschnitt identisch geurteilt hat. gibt die Wahrscheinlichkeit an, mit der die Urteils?bereinstimmungen rein zuf?llig zustande gekommen sind (Zufallskorrektur). Die Berechnungsalgorithmen f?r und sowie die f?r die Signifikanzberechnungen zu den Kappa-Werte verwandte U-Test-Statistik sind in [8], S. 270 ff. ausf?hrlich beschrieben. Zu den berechneten Kappa-Werten wurden au?erdem 95%-Konfidenzintervalle angegeben und diejenigen Kategorien bestimmt, in denen die h?chsten bzw. niedrigsten ?bereinstimmungen vorlagen [9]. Die ?berpr?fung von Unterschieden und ?bereinstimmungen in den Beurteilungen der Bewerber wurde neben der Gesamtstichprobe separat f?r die Subgruppen Jahrgang, Altersgruppe, Abiturnote und Geschlecht durchgef?hrt [10]. Hierzu wurde auf den den in [8] angegebenen Algorithmus zur kategorienspezifischen Berechnung des Kappa-Wertes zur?ckgegriffen.

Ergebnisse

Tabelle 1 [Tab. 1] gibt die soziodemografischen Grunddaten des Gesamtkollektiv sowie der einzelnen Jahrg?nge wieder. Bez?glich der Verteilungcharakteristika ergeben sich zwischen den Jahrg?ngen keine signifikanten Unterschiede.

Tabelle 1: Grunddaten des Gesamtkollektivs und der beiden Jahrg?nge im Vergleich

Abbildung 1 [Abb. 1] und 2 [Abb. 2] zeigen die prozentuale Zusammensetzung der Gesamtgruppe der Interviewer aus den unterschiedlichen universit?ren Bereichen und deren Anteile an der Gesamtzahl der Bewerberinterviews. Es ergeben sich keine signifikanten Unterschiede in der Zusammensetzung dieser Gruppen in den betrachteten Interviewperioden.

Abbildung 1: Anteil der verschiedenen Personengruppen an Interviewern (N=99) und Interviews (N=203) der Interviewperiode 2000/2001

Abbildung 2: Anteil der verschiedenen Personengruppen an Interviewern (N=111) und Interviews (N=238) der Interviewperiode 1999/2000

Sowohl in Bezug auf das Bewerberkollektiv als auch in Bezug auf die Interviewer liegen f?r die hier betrachteten Jahrg?nge die notwendigen Voraussetzungen einer Vergleichbarkeit vor.

Die Kappa-Werte f?r die Beurteilung der Inter-Rater-Reliabilit?t sind in Abbildung 3 [Abb. 3] dargestellt. Neben dem berechneten Kappa-Wert sind die jeweiligen Konfidenzintervalle als Fehlerbalken grafisch dargestellt.

Abbildung 3: Kappa Werte zur Urteiler?bereinstimmung

Die Reliabilit?t ist mit Kappa-Werten zwischen 0,70 (Jahrgang 2000) und 0,88 (Jahrgang 1999) durchg?ngig als hoch zu bewerten. Zwischen den Jahrg?ngen zeigen sich damit allerdings deutliche Unterschiede in Bezug auf die ?bereinstimmung der Interviewer.

Es finden sich keine Unterschiede bei einer geschlechtsbezogenen Betrachtung. Eine Tendenz zu einer geringeren ?bereinstimmung kann bei der Subgruppenanalyse in Bezug auf die Abiturnote festgestellt werden. Am uneinheitlichsten werden diejenigen Bewerber eingestuft, die eher schlechte Abiturnoten aufweisen. Ein solcher linearer Trend ist in der Betrachtung des Kappa-Koeffizienten f?r die unterschiedlichen Altersgruppen nicht festzustellen. Hier werden die Bewerber der mittleren Altersklasse am uneinheitlichsten bewertet.

Mit diesen Aussagen ist noch keinerlei Interpretation dar?ber m?glich, in welchen Kategorien die gr??ten Unterschiede festzustellen sind. Zu diesem Zweck wurden diejenigen Kategorien bestimmt, in denen die h?chsten bzw. niedrigsten ?bereinstimmungen vorlagen. Die entsprechenden Kappa-Werte sind in Tabelle 2 [Tab. 2] aufgef?hrt. Bis auf zwei Ausnahmen sind die Kategorien mit der h?chsten ?bereinstimmung die Kategorien O- (acht mal), +O (drei mal), sowie je einmal + und - bei den m?nnlichen Bewerbern. Die Kategorie O hatte in acht F?llen den geringsten Kappa-Wert aller Kategorien.

Tabelle 2: Kategorienspezifische Kappa-Werte nach Fleiss, aufgeteilt nach Subgruppen (maximale Kappa-Werte pro Kategorie sind durch Fettdruck hervorgehoben)

Diskussion

Die hier durchgef?hrte Untersuchung analysiert die Inter-Rater-Reliabilit?t bei Aufnahmeinterviews von Bewerbern zum Studiengang Humanmedizin an der Fakult?t f?r Medizin der Universit?t Witten/Herdecke. Die bereits in anderen Arbeiten [2], [11], [12] vermutete hohe Inter-Rater-Reliabilit?t konnte dabei anhand von Daten zweier Jahrg?nge eindrucksvoll best?tigt werden.

Kritisch anzumerken ist jedoch, dass die in dieser Arbeit berechneten kategorienspezifischen Kappa-Werte darauf hinweisen, das in der nach dem Interview anschlie?enden Diskussion ein Trend vorliegt, von mittleren Beurteilungswerten O zu den angrenzenden Werten O- und +O zu wechseln. Die Neigung interindividuell unterschiedliche Urteile zu vereinheitlichen ist offenbar umso gr??er, je klarer aus den individuellen Noten vor der Abschlussdiskussion erkennbar wird, dass der Kandidat nicht in den Bereich der aussichtsreichen Bewerber gelangen wird. Das urspr?ngliche Ziel bei der Einf?hrung einer inhaltlich einvernehmlichen Urteilsbildung l?sst sich aus den statistischen Analysen paradoxerweise besonders bei den in der Studienplatzvergabe nicht ber?cksichtigten Kandidaten aufzeigen. Die hier erkennbare Homogenit?t kann auf Tendenzen zur Urteilsvereinheitlichung der Interviewer bei fehlenden Konsequenzen f?r den Bewerber hindeuten.

Die Uneinheitlichkeit in der mittleren Kategorie O deuten wir als Hinweis auf eine indifferente Einsch?tzung des Kandidaten, die auch nach einer inhaltlichen Diskussion nicht auszur?umen war. Die relativ hohen ?bereinstimmungswerte in den Kategorien + und +O implizieren ein hohe Kongruenz in Bezug auf die Bewertung von Einzelkriterien bzw. Kriterienkonstellationen bei den Bewerbern.

Neben den bisherigen bewerberbezogenen Kategorien ist die Tendenz einer einheitlichen Beurteilung vor allem Beim Vergleich der beiden Jahrg?nge offensichtlich. Die berechneten Kappa-Werten von 0,7 f?r den Jahrgang 00/01 und 0,88 f?r den Jahrgang 99/00 zeigen eindeutig den Einfluss der Vorgabe f?r den Jahrgang 99/00 nach Anschlussdiskussion ein m?glichst einvernehmliches Urteil zwischen den Interviewern zu bilden.

Zusammengefasst zeigt diese Untersuchung, dass das Aufnahmeverfahren zum Studium der Humanmedizin an der Fakult?t f?r Medizin der Universit?t Witten/Herdecke ein reliables Instrument ist, bei dem eine hohe Inter-Rater Reliabilit?t vorliegt (siehe auch [13]), obwohl den beteiligten Interviewern keine einheitlichen Entscheidungskriterien und deren Gewichtung vorgegeben werden. Inwieweit einzelne Kriterien bzw. Konstellationen letztlich f?r eine Entscheidung ma?geblich waren, soll in einer nachfolgenden Arbeit untersucht werden. In einer noch ausstehenden Analyse soll ferner untersucht werden, inwieweit Interviewer ohne ausf?hrliche Informationen zum Lebenslauf der Bewerber in ihren Bewertungen von denjenigen Interviewern abweichen, die zum Zeitpunkt der Interviews ?ber diese Information verf?gen.

Die vorgelegte Untersuchung schlie?t eine L?cke zwischen denjenigen Positionen, die ?ber den inhaltlichen Wert von Aufnahmeinterviews kontrovers diskutieren [14]. W?hrend einerseits Interviews als nicht standardisierbare Verfahren kritisch betrachtet oder sogar abgelehnt werden [15], [16], zeigen andere Untersuchungen deren Wert f?r die Auswahl geeigneter Studenten auf [13]. Dies gilt umso mehr f?r Fakult?ten, die, wie im Beispiel der Universit?t Witten/Herdecke, den Spielraum innerhalb der staatlich vorgegebenen Ausbildungsordnung maximal ausnutzen, um zukunftsweisende Ausbildungsformen zu entwickeln [17] und dazu von Ihren Studierenden ein ?berdurchschnittliches Ma? an Engagement und Kreativit?t erwarten.


Literatur

[1] Kienle G. Warum neue Wege in der Ausbildung zum Arzt? ?rztl Prax. 1982;34(93):3159.
[2] Matthiessen, PF. Das Medizinstudium an der Universit?t Witten/Herdecke: Versuch einer Neugestaltung der ?rztlichen Ausbildung. In: Mohr J, Schubert C, eds. Arzt 2000, Perspektiven und Probleme einer Reform der Medizinierausbildung. Berlin; 1988. p. 102-15.
[3] Bornh?ft G, Gross-Rollinger C, Peters K, R?tzler M. Problemorientiertes Lernen in der Medizin. Austrian J Higher Educ. 1997; spec. issue.
[4] Kienle G, Kreysch W. Multiple-Choice-Pr?fung und ?rztliche Berufsf?higkeit. Dtsch ?rztebl. 1978;14:838-41.
[5] Kienle G. Numerus Clausus ?berfl?ssig. ?rztl Prax. 1979;31(11):429-31.
[6] Wood DF. Medical school selection-fair or unfair? Med Educ. 1999;33:399-401.
[7] Fleiss JL. Measuring nominal scale agreement among many raters. Psychol Bull. 1971;76:378-82.
[8] Bortz J, Lienert GA. Kurzgefa?te Statistik f?r klinische Forschung. Berlin u.a.:Springer-Verlag; 1998.
[9] Fleiss JL, Cohen J, Everitt BS. Large sample standard errors of kappa and weighted kappa. Psychol Bull. 1969;72:323-7.
[10] Tutton PJ.Medical school entrants: semi structured interview ratings, prior scholastic achievment and personality profiles. Med Educ. 1993;27:328-36.
[11] McManus IC, Richards P. Reliability of short-listing in medical student selection. Med Educ. 1989;23(2):147-51.
[12] Mitchell G, Mitchell D, McGregor M. Selection of medical students--are interview evaluations consistent?. S Afr Med J. 1987;71(12):774-6.
[13] Powis DA, Neame RL, Bristow T, Murphy LB. The objective structured interview for medical student selection. Br Med J (Clin Res Ed). 1988;296(6624):765-8.
[14] Glick SM. Selecting medical students at Ben-Gurion University: An Antonovsky lagacy. Isr J Med Sci. 1996;32:166-9.
[15] Ehrenfeld M, Tabak N. Value of admission interviews in selecting of undergraduate nursing students. J Nurs Manag. 2000; 8:101-6.
[16] Faris I. Selection of medical students: time to change. Aust N Z J Surg. 1994;64:270-2.
[17] Feletti GI. Sanson-Fisher RW, Vidler M. Evaluating a new approach to selecting medical students. Med Educ. 1985;19(4):276-84.