За «Крок» до реформы медицинского образования. Что не так с экзаменами для студентов-медиков

Результаты экзаменов «Крок» указывают на «аномальный» рост правильных ответов, который совпадает с порогом «сдал/не сдал» для некоторых годов. Насколько в таком случае эффективен экзамен «Крок»? Исследование VoxUkraine и KSE
Авторы: Инна Совсун, Татьяна Тищук

Материал создан в рамках проекта «Не верь мифам» при поддержке Международного фонда «Возрождение».

Все мы хотим, чтобы нас лечил высококвалифицированный, неравнодушный врач, который действительно хочет, чтобы мы выздоровели и никогда больше к нему не обращались. Но где искать такого специалиста, откуда он берется? Ответ на этот вопрос лишь один: прежде всего, хороший врач в будущем – это хороший студент медицинского вуза сегодня.

Да, очень многое зависит от мотивации этого студента, его способностей и способности учиться и анализировать материал. Но каким должен быть инструментарий, с помощью которого можно оценивать успешность студента-медика и его будущее как врача? Речь идет о системе экзаменов и тестирований. Именно они дают возможность определить, получится ли завтра из нынешнего студента хороший врач.

Каковы же эти экзамены в Украине, и главное, как они влияют на будущую квалификацию врачей, узнали аналитики VoxUkraine.

ТРИ «КРОКА» ДО ВРАЧА

Система оценивания знаний в медицинских университетах является крайне важным фактором в медицинском образовании – и в Украине, и за границей. С 1998 года все украинские студенты-медики сдают экзамены «Крок»:

Экзамены были разработаны благодаря тесному международному сотрудничеству и основывались на передовых мировых практиках. Это был первый в Украине успешный опыт построения системы независимого оценивания, который в том числе использовался для запуска ЗНО в начале 2000-х.

Правда, несмотря на использования передовых международных практик, среди студентов, преподавателей и врачей часто звучат критические замечания в отношении «Кроков».

Чаще всего жалуются на качество тестовых заданий. В ответ на эту критику Центр тестирования каждый раз указывал, что вопросы готовят преподаватели университетов, поэтому все вопросы следует и адресовать разработчикам. Преподаватели, в свою очередь, небезосновательно сетуют на отсутствие оплаты за непростую работу по разработке тестовых заданий. Безусловно, не все проблемы с качеством связаны с уровнем мотивации преподавателей. Есть вопросы и к содержанию программ, на основе которых формируются вопросы, и к несогласованностям в толковании одних и тех же ответов в разных тестовых заданиях. В любом случае ясно, что действующая модель организации процесса подготовки тестовых заданий не может гарантировать качественного результата.

Кроме замечаний к качеству вопросов, в общении со студентами и преподавателями постоянно звучат сомнения в уровне прозрачности и объективности оценивания «Кроков». Звучат разные суммы, за которые будто бы можно «решить вопрос»; называются разные имена людей, к которым можно обратиться; пересказывают истории тех, кому будто бы «удалось». В то же время за 20 лет существования «Кроков» ни одни подозрения или обвинения не были доказаны.

АНАЛИЗ РЕЗУЛЬТАТОВ «КРОКОВ»

Летом 2018 года Министерство здравоохранения Украины попросило Центр тестирования предоставить полную информацию о результатах сдачи «Кроков». Учитывая запланированные изменения в оценивании студентов-медиков, МОЗ хотело иметь более развернутый анализ учебных результатов студентов. Полученные деперсонифицированные данные были предоставлены для обработки авторкам этой статьи.

Всего получена информация о более 197 тыс. экзаменах за период с 2009 по 2018 год (при этом есть годы или экзамены, данные о которых не были предоставлены вовсе).

Одним из ключевых вопросов, на которые обращают внимание при исследованиях тестов, является естественность распределения баллов. «Нормальное (или естественное) распределение» (normal distribution) является одним из ключевых понятий в статистике. Еще в 19 веке математики заметили, что при большом количестве наблюдений графическое изображение плотности вероятности определенной величины образует форму колокола. Такое распределение получило название «нормального распределения» или «распределения Гаусса» – по имени математика, который впервые сформулировал это ключевое для статистики понятие.

Что это означает в тестологии? Есть некое «нормальное распределение» результатов: небольшое количество человек получает наименьшее количество баллов, несколько большее количество баллов получает больше человек, и при увеличении количества баллов увеличивается количество человек, которые такой балл получат. На определенном уровне этот показатель начинает снижаться, и в конце концов самые высокие баллы получает так же очень малая доля человек.

При анализе распределения результатов «Кроков» мы наблюдаем некоторые особенности. Самое низкое количество баллов, которое соответствует проценту правильных ответов, получает небольшое количество студентов. С увеличением количества баллов растет количество людей, получивших этот балл. Однако далее на одном показателе количество лиц, набравших этот балл, стремительно сокращается.

На графиках сдачи «Крок 1» (рис. 2) мы наблюдаем участок «провала» на отметке 50% в 2009-2014 годах. Зато количество лиц, получивших 50,5% в 2009-2014 годах непропорционально высокое – выше количества лиц, получивших 51%. В 2015 году (рис. 1) наблюдается такая же ситуация, но на другом отрезке кривой: 60% – резкое сокращение количества лиц; зато 60,5% набрало очень большое количество студентов.

График результатов «Крок 1» в 2015 году
(серым цветом обозначены результаты ниже порога «сдал/не сдал», фиолетовым – выше порога)
Krok1-2015

По сути, мы наблюдаем непропорционально большее количество студентов, получивших определенный балл. При этом «аномальный» рост четко совпадает с порогом «сдал/не сдал» для каждого года. Так, в 2015 году порог «сдал/не сдал» был поднят с 50,5% до 60,5% – и прыжок сдвинулся именно к этому уровню. Ситуация подобна и для «Крок 2» и «Крок 3».

То, что мы наблюдаем на графиках, называется разрывом функции распределения (discontinuity of distribution). Ученые уже исследовали такие явления. В частности, такие исследования проводились для оценки стоимости соблюдения регуляторных процедур. Они показывают, что необъяснимо большая доля компаний находится непосредственно перед пороговым значением, после которого начинается применение регуляции. Также ученые анализировали такое распределение, чтобы исследовать, как люди оптимизируют налоги. Многие имеют доходы лишь немногим ниже порога, после которого начинается следующий налоговая ставка.

Рис. 2. График результатов экзаменов «Крок» в отдельные годы, специальность «медицина» («общая врачебная практика»)
КРОК 1
Крок1-2009
Крок1-2011
Крок1-2012
Крок1-2013
Крок1-2015
Крок1-2016
КРОК 2
Крок2-2015
Крок2-2016
КРОК 3
Крок3-2015
Крок3-2016

Что мы наблюдаем?

Какие тенденции наблюдаются в проанализированных данных?

  1. В данных за большинство лет мы наблюдаем стремительный рост количества лиц, набравших балл, который совпадает с порогом «сдал/не сдал».
  2. Высота «прыжка» разная для разных лет. Мы видим, что в определенные годы высота «прыжка» фактически компенсирует резкое снижение на предыдущем показателе, то есть является свидетельством того, что баллы человек, набравших на 0,5 балла меньше установленного порога, «подтягивались» к порогу. Вместе с тем, в отдельные годы только «подтягиванием» резкий скачок объяснить невозможно. В отдельные годы этот скачок в 2,5 раза больший среднего между соседними ненулевыми значениями, в другие годы – в 8 раз, иногда – почти не отличается от него. Если бы досчет осуществлялся автоматически и подход был бы одинаков, в разные годы отклонение было бы более-менее одинаковое.
  3. Графики разных лет отличаются, что свидетельствует об изменении подходов к оцениванию. Так, в некоторые годы полностью отсутствуют студенты, набравшие на 0,5% меньше проходного балла. Теоретически это может свидетельствовать об автоматическом «досчете». В то же время, в другие годы есть студенты, получившие на 0,5% меньше порога «сдал/не сдал», однако их количество существенно ниже, чем можно было бы ожидать, учитывая форму кривой распределения. «Крок-1» в 2016 году вообще не содержит подобного «скачка» в распределении. Это свидетельствует о применении различных подходов к определению конечной оценки (таблица 1).
    Таблица 1. Доля и количество правильных ответов в экзаменах «Крок-1» за разные годы
    Krok1-correct_answers
    Таблица 2. Доля и количество правильных ответов в экзаменах «Крок-2» и «Крок-3» за разные годы
    Krok2,3-correct_answers
  4. Кривая результатов «Крок-2» заметно смещена в сторону более высоких результатов, то есть выпускной экзамен «Крок-2» заметно легче, чем «Крок-1». Сравнивая кривые результатов «Крок-1», «Крок-2» і «Крок-3» (рис. 3), можем увидеть это различие визуально: на «Крок-2» значительно меньше студентов получают результаты в рамках от 50 до 75 по сравнению с «Крок-1». В то же время очень высокие результаты получает большее количество студентов.
Рис. 3. Распределение результатов экзаменов «Крок-1», «Крок-2» и «Крок-3» в 2015 году
Krok_test_2015

Такое распределение свидетельствует о том, что текст сравнительно легкий, и большинство студентов легко преодолевает порог «сдал/не сдал». В целом за «Крок-2» очень малая доля студентов получает меньше баллов, чем нужно для преодоления порога «сдал/не сдал».

Таблица 3. Доля студентов, которые не сдают «Кроки», в процентах (по данным отчетов Центра тестирования)
Год/Крок Крок 1 Крок 2 Крок 3
2012 14% 1% 8%
2013 9,9% 2,1% 3,7%
2014 13,1% 2,2% 6,1%
2015 15,01% 1% 6,87%
2016 11,7% 2% 8,2%
2017 18,4% 4,8% 32,2%
2018 19,1% н/д 27,8%

Поскольку «Крок-2» сдается на выпускном курсе, цена поражения значительно выше. Студент, не сдавший экзамен «Крок-1» на третьем курсе, продолжает учиться и может пересдать экзамен в процессе учебы. Если же студент не сдал экзамен «Крок-2» на 6 курсе, он не может получить диплом и вынужден откладывать начало интернатуры. Возможно, высокая цена провала стимулирует формирование таких заданий в экзамене, которые не будут создавать проблем большому количеству студентов.

Чем можно объяснить такие результаты? Версия Центра тестирования

Результаты предварительного анализа были направлены в Министерство здравоохранения Украины с тем, чтобы получить официальные объяснения такого распределения. В нескольких письмах, присланных на запрос МОЗ, Центр тестирования объяснил отклонение следующими факторами:

(а) Корректировка на погрешность оценивания
(1) После оценки качества тестовых заданий осуществляется автоматический пересчет результатов «согласно принятой методике», с последующим конвертированием в шкалу «сдал/не сдал» и в многобалльную шкалу лицензионного экзамена (балл МЛЭ) со средним баллом 200 и стандартным отклонением 20.
(2) Результаты «автоматически пересчитываются» для учета «погрешности оценки» для тех лиц, у которых результат меньше установленного показателя «сдал/не сдал» на число, меньшее или равное погрешности оценивания. Это теоретически могло бы объяснить, почему отсутствуют баллы на 0,5 меньше порога «сдал/не сдал».
(3) В то же время в другом пункте письма Центр тестирования указывает, что такой пересчет осуществляется только для экзаменов «с высокими ставками» – тех, которые не пересдаются. Поскольку экзамен «Крок-1» пересдается – то для него такой пересчет осуществляется только «при форс-мажорных обстоятельствах». В письме не указывается, кто и каким образом может принять решение о наличии «форс-мажорных обстоятельств». Та же информация была обнародована на фейсбук-странице Центра тестирования в тот же день, когда МОЗ попросило предоставить ответы на вопросы о результатах «Кроков». Центр пишет, что «Пересчет результата с учетом погрешности для результатов экзаменов с «невысокими ставками» – экзамены, которые пересдаются или сдаются повторно, применяется Центром тестирования с 2018 года» center
(4) Проведением пересчета экзамена «Крок-1» лишь при форс-мажорных обстоятельствах невозможно объяснить отсутствие результатов ниже порога «сдал/не сдал» на 0,5 балла в большинство лет до 2018 года.
(5) Центр тестирования не смог предоставить техническое задание на разработку программного обеспечения в 2009-2017 годах: «Постановка технического задания в 2009-2017 годах для программного комплекса STANDАRТ TEST не производилась. В этот период проводились работы по модификации программного комплекса штатными сотрудниками в рамках их функциональных обязанностей». Таким образом, нет возможности проверить, как именно функционирует программное обеспечение, которое определяет результат экзаменов.
(6) В ответ на просьбу предоставить методику пересчета результата с учетом погрешности, которая объяснила бы наличие выбросов данных, Центр тестирования указал, что действующая методика была утверждена приказом ЦТ от 06.02.2017 № 13/1. Методика, действовавшая до этого времени, не была предоставлена.
(б) Зачет пересдачи на уровне минимального проходного балла
(1) Резкое увеличение количества лиц, балл которых совпадает с порогом «сдал/не сдал» объясняется тем, что когда во время пересдачи экзамена студент получает балл выше минимального порога, то результат засчитывается на уровне минимального проходного балла. Эта норма утверждена в Порядке проведения лицензионных интегрированных экзаменов.
(2) Этим же Порядком устанавливается, что «Центр тестирования имеет право проводить пересдачу лицензионных экзаменов в определенные им даты, использовать разные варианты тестов, в том числе сформированные из буклетов предыдущих лет». То есть при пересдаче студенты фактически должны набрать минимальное количество баллов на тесте, который уже использовался и доступен.
(3) Эта норма может объяснить резкое увеличение количества лиц, получающих балл на уровне порога, однако поднимает вопрос о качестве такого оценивания. Фактически, если при пересдаче студенты работают с заранее известными тестами, то сдача такого теста вовсе не является свидетельством достаточного уровня подготовки.

Что это означает?

Анализ результатов экзаменов «Крок» для медиков показал наличие выбросов в распределении результатов. Резкий скачок на уровне порога «сдал/не сдал» наблюдается практически во все годы. При этом есть различия между разными годами: в некоторые годы полностью отсутствуют студенты, которые набрали бы баллы на 0,5 меньше установленного порога, в другие годы – такие студенты есть, но в меньшем количестве, чем можно было бы ожидать, учитывая кривую распределения. Поскольку отсутствует техническое задание на разработку программного обеспечения, с помощью которого осуществляется расчет результатов, невозможно однозначно выявить причину таких результатов.

Ответы Центра тестирования указывают, что решения о том, каким образом осуществлять оценку, принимались ad hoc, в зависимости от ситуации. Значит, Центр мог по своему усмотрению принять решение о форс-мажорных обстоятельствах и скорректировать подход к оценке. По словам представителей Центра тестирования, так было сделано в 2015 году для перемещенных университетов. В то же время, само наличие возможности принимать такие решения свидетельствует об отсутствии единого сложившегося подхода к определению результатов экзаменов и о возможности изменения подхода внутренним решением Центра тестирования.. Дополнительным свидетельством этого является отсутствие технического задания для программного обеспечения, которое используется для определения результатов.

Однако более важным является вопрос, в какой мере на самом деле экзамены «Крок» могут отсеивать слабых студентов. Анализ результатов показывает, что экзамены «Крок-2» более легкие по сравнению с «Крок-1», и их не сдает очень малая доля студентов.

Хотя «Крок-1» более сложный, при его пересдаче используются буклеты предыдущих лет, а значит – сдача экзамена по ним не может гарантировать надлежащей оценки уровня подготовки студентов-медиков.

В результате, архитектура тестов заставляет сомневаться в их эффективности как способа оценивания уровня знаний студентов. Если «Крок-1» можно пересдать на гораздо более легких условиях, а «Крок-2» намеренно является сравнительно легким, значит, «Кроки» не могут быть действенным предохранителем для недопуска неквалифицированных студентов к врачебной профессии.

Что дальше?

Год назад по инициативе Министерства здравоохранения Украины было принято постановление, которое кардинально меняет систему оценивания уровня знаний студентов. Вдобавок к экзаменам «Крок» на третьем курсе студенты будут также сдавать экзамен на знание английского языка и IFOM – Международный экзамен по основам медицины (базовые дисциплины), который проводится Национальным советом медицинских экзаменаторов США. Эта организация проводит лицензионные экзамены для американских медиков. На выпускном курсе в дополнение к «Кроку» студенты будут сдавать IFOM (клинические дисциплины) и объективный структурированный клинический экзамен, который должен проверить уровень их практических навыков.

15 марта 2019 года украинские студенты-медики впервые на национальном уровне будут сдавать Международный экзамен по основам медицины. Результаты не будут влиять на их баллы, но впервые дадут возможность оценить уровень подготовки украинских студентов по сравнению с другими странами.

Еще год назад обсуждалась возможность полного отказа от «Кроков». В конце концов, было принято решение их оставить, создав предпосылки для повышения качества тестов, в первую очередь – из-за смены механизмов финансирования. В частности, были выделены средства на разработку тестов с адекватной оплатой за такую ​​работу. Очевидно, необходимо также существенно пересмотреть подходы к администрированию экзаменов и гарантировать прозрачность процедур и подходов к оцениванию студентов.

ДОПОЛНЕНИЕ

График результатов экзаменов «Крок» в отдельные годы
(серым цветов выделены результаты, которые ниже порога «сдал/не сдал», другим цветом – выше порога)
Пользуйтесь стрелками для просмотра галереи результатов экраменов «КРОК» в отдельные годы

Ми віримо, що слова мають силу, а ідеї – визначний вплив. VoxUkraine об’єднує найкращих економістів та допомагає їм доносити ідеї до десятків тисяч співвітчизників. Контент VoxUkraine безкоштовний (і завжди буде безкоштовним), ми не продаємо рекламу та не займаємось лобізмом. Щоб проводити більше досліджень, створювати нові впливові проекти та публікувати багато якісних статей, нам потрібні розумні люди і гроші. Люди є! Підтримай VoxUkraine. Разом ми зробимо більше!