За “Крок” до реформи медичної освіті. Що не так з іспитами для студентів-медиків

Результати іспитів «Крок» вказують на «аномальне» зростання правильних відповідей, яке співпадає з порогом «склав/не склав» для деяких років. Наскільки в такому випадку є ефективним є іспит «Крок»? Дослідження VoxUkraine та KSE

Матеріал створений у рамках проекту «Не вір міфам» за підтримки Міжнародного фонду «Відродження».

Усі ми хочемо аби нас лікував висококваліфікований, небайдужий лікар, який справді хоче, щоб ми одужали і ніколи більше до нього не зверталися. Але де шукати такого спеціаліста, звідки він береться? Відповідь на це запитання лише одна: перш за все, хороший лікар у майбутньому - це хороший студент закладу медичної освіти сьогодні.

Так, дуже багато залежить від мотивації цього студента, його здібностей та здатності вчитися й аналізувати матеріал. Та яким має бути інструментарій, за допомогою якого можна оцінювати успішність студента-медика та його майбутнє як лікаря? Йдеться про систему іспитів та тестувань. Саме вони дають змогу визначити, чи вийде завтра із нинішнього студента хороший лікар.

Якими ж ці іспити є в Україні, та головне, як вони впливають майбутню кваліфікацію лікарів, довідались аналітики VoxUkraine.

ТРИ “КРОКИ” ДО ЛІКАРЯ

З 1998 року усі студенти-медики складають іспити «Крок»:

на третьому курсі складають Крок 1 (фундаментальні дисципліни);
на останньому курсі – Крок 2 (клінічні дисципліни);
під час інтернатури – Крок 3.

Іспити були розроблені завдяки тісній міжнародній співпраці та базувались на найкращих світових практиках. Це був перший в Україні успішний досвід розбудови системи незалежного оцінювання, котрий у тому числі використовувався для запуску ЗНО на початку 2000-х.

Щоправда, попри використання найкращих міжнародних практик, серед студентів, викладачів та лікарів часто лунають критичні зауваження щодо «Кроків».

Найчастіше скаржаться на якість тестових завдань. У відповідь на цю критику Центр тестування щоразу вказував, що запитання готують викладачі університетів, тому усі питання слід і адресувати розробникам. Викладачі, в свою чергу, небезпідставно нарікають за відсутність оплати за непросту роботу з розробки тестових завдань. Безперечно, не всі проблеми з якістю пов’язані з рівнем мотивації викладачів. Є питання і до змісту програм, на основі яких формуються питання, і до неузгодженостей у тлумаченні одних і тих самих відповідей у різних тестових завданнях. У будь-якому разі зрозуміло, що чинна модель організації процесу підготовки тестових завдань не може гарантувати якісного результату.

Окрім зауважень до якості питань, у спілкуванні зі студентами та викладачами постійно звучать сумніви щодо рівня прозорості та об’єктивності оцінювання «Кроків». Звучать різні суми, за які нібито можна «вирішити питання»; називаються різні імена людей, до яких можна звернутись; переказують історії тих, кому начебто «вдалося». Водночас за 20 років існування «Кроків» жодні підозри чи звинувачення не були доведені.

АНАЛІЗ РЕЗУЛЬТАТІВ “КРОКІВ”

Влітку 2018 року Міністерство охорони здоров’я України попросило Центр тестування надати повну інформацію про результати складання «Кроків». Зважаючи на заплановані зміни в оцінюванні студентів-медиків, МОЗ хотіло мати більш розгорнутий аналіз навчальних результатів студентів. Отримані деперсоніфіковані дані було надано для опрацювання авторкам цієї статті.

Усього отримано інформацію про понад 197 тис. іспитів за період з 2009 по 2018 рік (при цьому є роки або іспити, дані про які не було надано взагалі).

Одним із ключових питань, на які звертають увагу при дослідженнях тестів, є те, наскільки природним є розподіл балів. «Нормальний (або ж природний) розподіл» (normal distribution) є одним із ключових понять у статистиці. Ще у 19 столітті математики помітили, що за великої кількості спостережень графічне зображення густоти ймовірності певної величини утворює форму дзвона. Такий розподіл отримав назву «нормального розподілу» або «розподілу Гауса» - за іменем математика, котрий вперше сформулював це ключове для статистики поняття.

Що це означає у тестології? Є певний «нормальний розподіл» результатів: невелика кількість осіб отримує найменшу кількість балів, дещо більшу кількість балів отримує більше осіб, і при збільшенні кількості балів збільшується кількість осіб, котрі такий бал отримають. На певному рівні цей показник починає знижуватись, і зрештою найвищі бали отримує так само дуже мала частка осіб.

При аналізі розподілу результатів «Кроків» ми спостерігаємо деякі особливості. Найнижчу кількість балів, яка відповідає відсотку правильних відповідей, отримує невелика кількість студентів. Зі збільшенням кількості балів зростає кількість людей, які цей бал отримали. Проте далі на одному показникові кількість осіб, що набрали цей бал, стрімко скорочується.

На графіках складання Крок 1 (рис. 2) ми спостерігаємо ділянку “провалу” на позначці 50% у 2009-2014 роках. Натомість кількість осіб, котрі отримали 50,5% 2009-2014 роках є непропорційно високою -- вищою за кількість осіб, котрі отримали 51%. У 2015 році (рис. 1) спостерігається така сама ситуація, але на іншому відрізку кривої: 60% - різке скорочення кількості осіб; натомість 60,5% набрала дуже велика кількість студентів.

Рис. 1. Графік результатів Крок 1 у 2015 році
(сірим кольором позначені результати, нижчі за поріг «склав/не склав», фіолетовим – вище порогу)

По суті, ми спостерігаємо непропорційно більшу кількість студентів, які отримали певний бал. При цьому “аномальне” зростання чітко співпадає з порогом «склав/не склав» для кожного року. Так, у 2015 році поріг «склав / не склав» було піднято з 50,5% до 60,5% - і стрибок зсунувся саме до цього рівня. Подібною є ситуація і для Крок-2 та Крок-3.

Те, що ми спостерігаємо на графіках, називається розривом функції розподілу (discontinuity of distribution). Науковці вже досліджували такі явища. Зокрема, такі дослідження робилися для оцінки вартості дотримання регуляторних процедур. Вони показують, що непояснювано велика частка компаній знаходяться безпосередньо перед пороговим значенням, після якого починається застосування регуляції. Також науковці аналізували такий розподіл, щоб дослідити, як люди оптимізують податки. Багато людей мають доходи лише трохи нижче порогу, після якого починається наступний рівень податкової ставки.

Рис. 2. Графік результатів іспитів Крок в окремі роки, спеціальність «медицина» («загальна лікарська підготовка»)

КРОК 1

КРОК 2

КРОК 3

Що ми спостерігаємо?

Які тенденції спостерігаються в проаналізованих даних?

У даних за більшість років ми спостерігаємо стрімке зростання кількості осіб, котрі набрали бал, що співпадає з порогом «склав/не склав».
Висота «стрибка» є різною для різних років. Ми бачимо, що в певні роки висота «стрибка» фактично компенсує стрімке зниження на попередньому показникові, тобто є свідченням того, що бали осіб, які набрали на 0,5 бали менше за встановлений поріг, “підтягувалися” до порогу. Разом із тим, в окремі роки тільки “підтягуванням” різкий стрибок пояснити неможливо. В окремі роки цей стрибок у 2.5 рази більший за середнє між сусідніми ненульовими значеннями, в інші роки - у 8 разів, іноді - майже не відрізняється від нього. Якщо б дорахунок здійснювався автоматично та підхід був би однаковий, у різні роки відхилення було б більш-менш однакове.
Графіки різних років різняться, що свідчить про зміну підходів до оцінювання.Так, у певні роки повністю відсутні студенти, котрі набрали на 0,5% менше за прохідний бал. Теоретично це може свідчити про автоматичний «дорахунок». Водночас, в інші роки є студенти, котрі отримали на 0,5% менше за поріг «склав / не склав», проте їхня кількість суттєво нижча, ніж можна було б очікувати зважаючи на форму кривої розподілу. Крок-1 у 2016 році взагалі не містить подібного “стрибка” в розподілі. Це свідчить про застосування різних підходів до визначення кінцевої оцінки (таблиця 1).
Таблиця 1. Частка та кількість правильних відповідей в іспитах Крок-1 за різні роки

Таблиця 2. Частка та кількість правильних відповідей в іспитах Крок-2 та Крок-3 за різні роки
Крива результатів Крок-2 помітно зсунута в бік вищих результатів, тобто, випускний іспит Крок-2 є помітно легшим за Крок-1 . Порівнюючи криві результатів на Крок-1, Крок-2 і Крок-3 (рис. 3), можемо побачити цю відмінність візуально: на Крок-2 значно менше студентів отримують результати в межах від 50 до 75 порівняно з Крок-1. Водночас дуже високі результати отримує більша кількість студентів.

Рис. 3. Розподіл результатів іспитів Крок-1, Крок-2 та Крок-3 у 2015 році

Такий розподіл свідчить про те, що тест є порівняно легким, і більшість студентів легко долає поріг «склав/не склав». В цілому за Крок-2 дуже мала частка студентів отримує менше балів, ніж потрібно для подолання порогу склав/не склав.

Таблиця 3. Частка студентів, котрі не складають Кроки, у відсотках (за даними звітів Центру тестування)

Рік/Крок	Крок 1	Крок 2	Крок 3
2012	14%	1%	8%
2013	9,9%	2,1%	3,7%
2014	13,1%	2,2%	6,1%
2015	15,01%	1%	6,87%
2016	11,7%	2%	8,2%
2017	18,4%	4,8%	32,2%
2018	19,1%	н/д	27,8%

Оскільки Крок-2 складається на випускному курсі, ціна невдачі є значно вищою. Студент, котрий не склав іспит Крок-1 на третьому курсі, продовжує навчатись та може перескладати іспит у процесі навчання. Якщо ж студент не склав іспит Крок-2 на 6 курсі, він не може отримати диплом ти вимушений відтерміновувати початок інтернатури. Можливо, висока ціна провалу стимулює до формування таких завдань в іспиті, які не створюватимуть проблем великій кількості студентів

Чим можна пояснити такі результати? Версія Центру тестування

Результати попереднього аналізу були спрямовані до Міністерства охорони здоров’я України з тим, щоб отримати офіційні пояснення такого розподілу. У декількох листах, надісланих на запит МОЗ, Центр тестування пояснив відхилення такими чинниками:

(а) Коригування на похибку оцінювання: (1) Після оцінки якості тестових завдань здійснюється автоматичний перерахунок результатів «за прийнятою методикою», з подальшим конвертуванням у шкалу «склав/не склав» та у багатобальну шкалу ліцензійного іспиту (бал МЛІ) з середнім балом 200 та стандартним відхиленням 20.; (2) Результати «автоматично перераховуються» для врахування «похибки оцінювання» для тих осіб, у яких результат є меншим за встановлений показник «склав / не склав» на число, що є меншим або дорівнює похибці оцінювання. Це теоретично могло б пояснити, чому відсутні бали на 0,5 менші за поріг «склав / не склав».; (3) Водночас в іншому пункті листа Центр тестування вказує, що такий перерахунок здійснюється тільки для іспитів «з високими ставками» - тих, які не перескладаються. Оскільки іспит «Крок-1» перескладається – то для нього такий перерахунок здійснюється лише «при форс-мажорних обставинах» . У листі не вказується, хто та в який спосіб може прийняти рішення про наявність «форс-мажорних обставин». Та сама інформація була оприлюднена на фейсбук-сторінці Центру тестування у той самий день, коли МОЗ попросив надати відповіді на запитання щодо результатів Кроків. Центр пише, що «Перерахунок результату з урахуванням похибки для результатів іспитів з «невисокими ставками» – іспити, які перескладаються або складаються повторно, застосовується Центром тестування з 2018 року»; (4) Здійсненням перерахуну іспиту Крок-1 лише за форс-мажорних обставин неможливо пояснити відсутність результатів нижчих за поріг «склав/не склав» на 0,5 бали у більшості років до 2018 року.; Центр тестування не зміг надати технічне завдання на розробку програмного забезпечення у 2009-2017 роках: «Постановка технічного завдання у 2009-2017 роках для програмного комплексу STANDАRТ TEST не здійснювалася. У цей період проводилися роботи з модифікації програмного комплексу штатними працівниками в межах їх функціональних обов’язків». Таким чином, немає можливості перевірити, як саме функціонує програмне забезпечення, яке визначає результат іспитів.; У відповідь на прохання надати методику перерахунку результату з урахуванням похибки, котра б пояснила наявність викидів даних, Центр тестування вказав, що чинна методика була затверджена наказом ЦТ від 06.02.2017 № 13/1. Методика, котра діяла до цього часу, не була надана.
(б) Зарахування перескладання на рівні мінімального прохідного балу: (1) Різке збільшення кількості осіб, бал яких співпадає з порогом «склав / не склав» пояснюється тим, що коли під час перескладання іспиту студент отримує бал, що є вищим за мінімальний поріг, то результат зараховується на рівні мінімального прохідного балу. Ця норма затверджена у Порядку проведення ліцензійних інтегрованих іспитів.; (2) Цим же Порядком встановлюється, що «Центр тестування має право проводити перескладання ліцензійних іспитів у визначені ним дати, використовувати різні варіанти тестів, у тому числі сформовані з буклетів попередніх років». Тобто при перескладанні студенти фактично мають набрати мінімальну кількість балів на тесті, котрий уже використовувався та є доступним.; (3) Ця норма може пояснити різке збільшення кількості осіб, які отримують бал на рівні порогу, проте піднімає питання про якість такого оцінювання. Фактично, якщо при перескладанні студенти працюють із заздалегідь відомими тестами, то складання такого тесту зовсім не є свідченням достатнього рівня підготовки.

Що це означає?

Аналіз результатів іспитів Крок для медиків показав наявність викидів у розподілі результатів. Різкий стрибок на рівні порогу «склав / не склав» спостерігається практично в усі роки. При цьому є відмінності між різними роками: в деяких роках повністю відсутні студенти, котрі б набрали бали на 0,5 менше за встановлений поріг, в інші роки – такі студенти є, проте у меншій кількості, ніж можна було б очікувати зважаючи на криву розподілу. Оскільки відсутнє технічне завдання на розробку програмного забезпечення, за допомогою якого здійснюється розрахунок результатів, неможливо однозначно виявити причину таких результатів.

Відповіді Центру тестування вказують, що рішення щодо того, яким чином здійснювати оцінювання, приймалися ad hoc, залежно від ситуації. Отже, Центр міг на власний розсуд ухвалити рішення про форс-мажорні обставини та відкоригувати підхід до оцінювання. За словами представників Центру тестування, так було зроблено у 2015 році для переміщених університетів. Водночас, сама наявність можливості приймати такі рішення свідчить про відсутність єдиного усталеного підходу до визначення результатів іспитів та про можливість зміни підходу внутрішнім рішенням Центру тестування. Додатковим свідченням цього є відсутність технічного завдання для програмного забезпечення, котре використовується для визначення результатів.

Проте важливішим є питання, якою мірою насправді іспити Крок можуть відсіювати слабких студентів. Аналіз результатів показує, що іспити Крок-2 є легшими порівняно з Крок-1, і їх не складає дуже мала частка студентів.

Хоча Крок-1 є складнішим, при його перескладанні використовуються буклети попередніх років, а отже – складання іспиту за ними не може гарантувати належної оцінки рівня підготовки студентів-медиків.

У результаті, архітектура тестів змушує сумніватись в їх ефективності як способу оцінювання рівня знань студентів. Якщо Крок-1 можна перескласти на значно легших умовах, а Крок-2 навмисно є порівняно легким, значить, Кроки не можуть бути дієвим запобіжником для недопуску некваліфікованих студентів до лікарської професії.

Що далі?

Рік тому за ініціативи Міністерства охорони здоров’я України було прийнято постанову, котра кардинально змінює систему оцінювання рівня знань студентів. На додачу до іспитів «Крок» на третьому курсі студенти будуть також складати іспит на знання англійської мови та IFOM – Міжнародний іспит з основ медицини (базові дисципліни), який проводиться Національною радою медичних екзаменаторів США. Ця організація проводить ліцензійні іспити для американських медиків. На випускному курсі додатково до «Кроку» студенти складатимуть IFOM (клінічні дисципліни) та об’єктивний структурований клінічний іспит, котрий повинен перевірити рівень їхніх практичних навичок.

Ще рік тому обговорювалась можливість повної відмови від Кроків. Зрештою, було прийнято рішення їх залишити, створивши передумови для підвищення якості тестів, у першу чергу - через зміну механізмів фінансування. Зокрема, були виділені кошти на розробку тестів з адекватною оплатою за таку роботу. Вочевидь, необхідно також суттєво переглянути підходи до адміністрування іспитів та гарантувати прозорість процедур та підходів до оцінювання студентів.