Методи машинного навчання існують не один десяток років, але лише революція у сфері великих даних і різке зниження вартості обчислювальних потужностей по-справжньому розкрили потенціал моделей, які можна навчити. Фінансовий сектор, і банківський зокрема – один з лідерів застосування методів машинного навчання, що лежать в основі автоматизованих систем прийняття рішень (automated decision-making). Наприклад, на основі онлайн-тестів ADM система визначає ймовірність неповернення кредиту потенційним позичальником. Подібні системи застосовуються в медицині та юриспруденції і звісно припускаються помилок. Водночас, це великий крок уперед у сфері аналізу даних.
У статті “Невидимі зв’язки: кому належить банківська система України” був представлений аналіз мережі власників українських платоспроможних банків. Рік потому, ми знову вивчаємо банківську систему, додавши нові дані і використавши нові методи аналізу. У даній статті ми покажемо, як “очищувалася” банківська система з 1 січня 2014 року і визначимо, які фінансові показники сильніше за інші впливають на стан “здоров’я” банку.
За три роки кількість банків в Україні зменшилася вдвічі, приблизно на стільки ж скоротилася мережа філій, а обсяг активів у доларовому еквіваленті скоротився більш, ніж утричі. Протягом останніх трьох років банківська система в середньому втрачала 7 банків на квартал. Серед причин: девальвація національної валюти, падіння економіки, окупація частини території України, збільшення частки неплатоспроможних позичальників.
Банківська чистка і націоналізація Приватбанку вирішили низку системних проблем. Можна говорити, що банківський сектор виходить із кризи: система прибуткова з початку 2017 року, ростуть чисті процентні та чисті комісійні доходи. Водночас внаслідок “очищення” виникли довгострокові виклики – у руках держави опинилися приблизно половина активів банківської системи, 62% депозитів населення і 4 банки з топ-10.
Як визначити стан “здоров’я” банку? Традиційно фінансові показники та їхня динаміка є головним індикатором для визначення статусу поточного стану як банківської системи в цілому, так і окремих банків. Але структура сектору ускладнюється, зв'язки між компонентами нелінійні, а даних стає дедалі більше. Методи машинного навчання здатні виявити приховані патерни, особливо в неструктурованих даних, чого не можуть зробити традиційні інструменти аналізу.
У 2015 році дослідницька група при “Mount Sinai Hospital” (Нью-Йорк) застосувала алгоритм глибинного навчання на даних про пацієнтів. Аналізуючи приховані патерни в даних, дослідники змогли передбачити правильний діагноз з високим ступенем імовірності. Модель, яку назвали “Deep Patient”, знаходила схожі групи пацієнтів і визначала хворобу за набором ознак: вік, стать, температура, кількість еритроцитів і лейкоцитів у крові тощо. Модель упоралася із завданням набагато краще за своїх “алгоритмічних” попередників, хоча вчені визнають, що до кінця не розуміють, як вона працює.
Банк – це такий само пацієнт, тільки замість температури й лейкоцитів він характеризується такими фінансовими показниками, як грошові кошти, субординований борг, статутний капітал тощо. Як і пацієнт, банк може бути здоровим (платоспроможним) і хворим (неплатоспроможним). Завдання регулятора – ідентифікувати здорові та хворі банки, а для цього необхідно визначити які ознаки сильніше за інші впливають на його стан “здоров’я”. Відбір і оцінка ознак – це перший крок у процедурі “діагностування”.
З фінансової звітності, що надає НБУ, можна зібрати 67 ознак (характеристик), які описують стан банку. У даній статті, ми оперували даними фінзвітності станом на 01.01.2015. Клас банку (платоспроможний / неплатоспроможний) був визначений станом на 01.01.2017. Наприклад, якщо банк у 2015 році був платоспроможним, але в 2016 або 2017 році став неплатоспроможним, ми визначали клас як “неплатоспроможний”. Це дискусійний підхід до визначення класу, але він дозволив збалансувати дані. У результаті вийшло 93 платоспроможних і 64 неплатоспроможних банки.
Проте не всі ознаки однаково інформативні. До того ж, окремі ознаки можуть бути тісно пов’язані між собою, що може зробити їх надмірними для передбачальної моделі. Тому на першому етапі були відібрані найбільш значимі ознаки, а на другому – оцінена важливість кожної з них для класифікації банків.
Для відбору найбільш значимих ознак був використаний класичний алгоритм “Sequential Backward Selection” (послідовний зворотний відбір ознак). Якщо не вдаватися в деталі, ідея алгоритму наступна: він шукає таку підмножину ознак, на яких модель (наприклад, KNN класифікатор) показує найкращий результат. Оптимальна кількість ознак, на яких модель показує найкращий результат, знаходиться в інтервалі від 13 до 30. Ми взяли мінімально можливу кількість – 13, оскільки хочемо максимально зменшити розмірність наших даних, щоб легше було інтерпретувати результати.
Після відбору оптимальної кількості ознак була оцінена відносна важливість кожної з них. Для оцінки важливості обрано алгоритм “випадкового лісу” (random forest). Алгоритм випадкового лісу – це так званий “ансамбль дерев прийняття рішень”, де кожне дерево “голосує” за приналежність об’єкта до певного класу. “Деревом” зазвичай називають покрокову процедуру класифікації. Оскільки на кожному етапі можна прийняти різні рішення, модель пропонує відгалуження. З багатьох відгалужень утворюється дерево, а з багатьох дерев утворюється ліс. Оскільки кожне окреме дерево робить внесок у процедуру передбачення очікуваного результату, то дерева прийнято називати “деревами прийняття рішень”. Детально про алгоритм можна дізнатися зі статті Лео Бреймана.
На виході кожній ознаці надається вага – що більша вага, то сильніший її вплив на визначення класу банку (платоспроможний, неплатоспроможний). Проранжувавши ознаки за спаданням, отримаємо “таблицю важливості”.
Ознака | Важливість | |
---|---|---|
Прибутки і збитки* | Відрахування до резерву під знецінення кредитів** | 0.12 |
Активи | Грошові кошти та їх еквіваленти | 0.118 |
Зобов'язання | Кошти юридичних осіб | 0.107 |
Активи | Кредити та заборгованість фізичних осіб | 0.095 |
Активи | Основні засоби та нематеріальні активи | 0.094 |
Активи | Кредити та заборгованість юридичних осіб | 0.088 |
Зобов'язання | Зобов’язання щодо поточного податку на прибуток | 0.077 |
Зобов'язання | Кошти банків | 0.074 |
Зобов'язання | Субординований борг | 0.068 |
Активи | Необоротні активи*** | 0.06 |
Активи | Торгові цінні папери | 0.053 |
Активи | Кошти обов’язкових резервів банку в НБУ | 0.025 |
Прибутки і збитки | Доходи / (витрати) | 0.023 |
Ми обмежилися визначенням важливості ознак, не досліджуючи, як саме кожна з них впливає на визначення класу банку. А втім, ми хотіли б звернути увагу на кілька деталей.
Перше місце обіймає “Відрахування до резерву під знецінення кредитів та коштів в інших банках”. Коли банк видає кредит, завжди існує ймовірність його несплати, тому формується спеціальний резерв, необхідність якого обумовлена кредитними ризиками діяльності банку. Згідно зі звітом НБУ про фінансову стабільність, частка непрацюючих кредитів у квітні 2017 року склала 57%, що є серйозним баластом для банків. Реструктуризація наявних непрацюючих кредитів проходить повільно, внаслідок чого ризики зберігаються.
7 із 13 ознак відносяться до частини активів. Банківські активи – це ресурси банку та засоби, що класифікуються за напрямками розміщення і використання з метою отримання прибутку. Варто відзначити “Основні засоби та нематеріальні активи”, що займають високе п’яте місце. До основних засобів відносяться матеріальні активи: земля, будівлі, комп’ютерна техніка. До нематеріальних активів – програмне забезпечення, патенти, авторські права. У платоспроможних банків у середньому обсяг основних засобів і нематеріальних активів утричі більше, ніж у неплатоспроможних. Імовірно, що більше у банку машин, банкоматів, програмного забезпечення, то менша ймовірність настання стану неплатоспроможності.
4 із 13 ознак відносяться до частини зобов’язань. Високі місця займають “Кошти юридичних осіб” (3) і “Кошти банків” (8). Обидві ознаки відображають рівень довіри економічних агентів до фінансової установи – чим більше грошей на рахунках банку від інших банків і фірм, тим вища ймовірність, що банк платоспроможний.
Переваги представленого підходу полягають у його відносній простоті та швидкості. Підхід можна звести до трьох кроків: почати моделювати з усіма ознаками; скоротити кількість ознак для оптимальної роботи передбачальної моделі; оцінити важливість кожної ознаки та виділити пріоритетні. Подібний підхід може застосовуватися паралельно із наявними або бути надбудовою.
Разом з перевагами, алгоритмічний підхід має свої обмеження. Завжди лишатимуться питання щодо вибору алгоритму та якості побудованої моделі. Крім того, про проблеми в банку можуть сигналізувати не тільки фінансові показники: проблеми акціонерів банку в їхньому небанківському бізнесі, підвищена PR-активність фінансової установи, медіа-атаки на центральний банк.
Усвідомлюючи “вузькі місця” представленого аналізу, все ж підсумуємо отримані результати. Банківська мережа помітно скоротилася за останні три роки: близько 50% банків виведено з ринку. З одного боку, таке “очищення” дозволило НБУ вирішити низку системних проблем і зробити банківський сектор прибутковим, з іншого – значно збільшити присутність держави на ринку, що є довгостроковим викликом для системи. Важлива ознака – відрахування до резерву під знецінення кредитів. Більшість ознак (фінансових показників), що сильніше за інші впливають на “здоров’я” банку, відносяться до частини активів. Також до важливих ознак належать “Кошти юридичних осіб” і “Кошти банків”, що відображають довіру економічних агентів до фінансової установи.