Методы машинного обучения существуют не один десяток лет, но лишь революция в сфере больших данных и резкое снижение стоимости вычислительных мощностей по настоящему раскрыли потенциал обучаемых моделей. Финансовый сектор, и банковский в частности – один из лидеров применения методов машинного обучения, которые лежат в основе автоматизированных систем принятия решений (automated decision-making). Например, на основе онлайн тестов, ADM система определяет вероятность невозврата кредита потенциальным заемщиком. Подобные системы применяются в медицине и юриспруденции и конечно допускают ошибки. Вместе с тем, это большой шаг вперед в сфере анализа данных.
В статье “Невидимые связи: кому принадлежит банковская система Украины” был представлен анализ сети собственников украинских платежеспособных банков. Спустя год, мы опять изучаем банковскую систему, добавив новые данные и использовав новые методы анализа. В данной статье, мы покажем как “очищалась” банковская система с 1 января 2014 и определим какие финансовые показатели сильнее остальных влияют на состояние “здоровья” банка.
За три года количество банков в Украине уменьшилось вдвое, примерно на столько же сократилась филиальная сеть, а объем активов в долларовом эквиваленте сократился более, чем в 3 раза. Последние три года банковская система в среднем теряла 7 банков в квартал. Среди причин: девальвация национальной валюты, падение экономики, оккупация части территории Украины, увеличение доли неплатежеспособных заемщиков.
Банковская чистка и национализация Приватбанка разрешили ряд системных проблем. Можно говорить, что банковский сектор выходит из кризиса: система прибыльна с начала 2017 года, растут чистые процентные доходы и чистые комиссионные доходы. Вместе с тем, в результате “очищения” возникли долгосрочные вызовы - в руках государства оказались примерно половина активов банковской системы, 62% депозитов населения и 4 банка из топ-10.
Как определить состояние “здоровье” банка? Традиционно, финансовые показатели и их динамика являются главным индикатором для определения статуса текущего состояния как банковской системы в целом, так и отдельных банков. Но структура сектора усложняется, связи между компонентами нелинейны, а данных становится всё больше и больше. Методы машинного обучения способны выявить скрытые паттерны, особенно в неструктурированных данных, чего не могут сделать традиционные инструменты анализа.
В 2015 году исследовательская группа при “Mount Sinai Hospital” (Нью-Йорк) применила алгоритм глубокого обучения на данных о пациентах. Анализируя скрытые паттерны в данных, исследователи смогли предсказать правильный диагноз с высокой долей вероятности. Модель, которую назвали “Deep Patient”, находила схожие группы пациентов и определяла болезнь по набору признаков: возраст, пол, температура, количество эритроцитов и лейкоцитов в крови и т.д. Модель справилась с задачей намного лучше своих “алгоритмических” предшественников, хотя ученые признаются, что до конца не понимают, как она работает.
Банк – это тот же пациент, только вместо температуры и лейкоцитов, он характеризуется такими финансовыми показателями, как денежные средства, субординированный долг, статутный капитал и т.д. Как и пациент, банк может быть здоровым (платежеспособным) и больным (неплатежеспособным). Задача регулятора - идентифицировать здоровые и больные банки, а для этого необходимо определить какие признаки сильнее остальных влияют на его состояние “здоровья”. Отбор и оценка признаков - это первый шаг в процедуре “диагностирования”.
Из финансовой отчетности предоставляемой НБУ можно собрать 67 признаков (характеристик), которые описывают состояние банка. В данной статье, мы оперировали данными финотчетности по состоянию на 01.01.2015. Класс банка (платежеспособный / неплатежеспособный) был определен по состоянию на 01.01.2017. Например, если банк в 2015 был платежеспособным, но в 2016 или 2017 стал неплатежеспособным, мы определяли класс как “неплатежеспособный”. Это дискуссионный подход к определению класса, но он позволил сбалансировать данные. В результате получилось 93 платежеспособных и 64 неплатежеспособных банка.
Однако не все признаки одинаково информативны. Более того, отдельные признаки могут быть тесно связаны друг с другом, что может сделать их излишними для предсказательной модели. Поэтому, на первом этапе были отобраны наиболее значимые признаки, на втором – оценена важность каждого из них для классификации банков.
Для отбора наиболее значимых признаков был использован классический алгоритм “Sequential Backward Selection” (последовательный обратный отбор признаков). Если не вникать в детали, идея алгоритма следующая: он ищет такое подмножество признаков, на которых модель (например, KNN классификатор) показывает наилучший результат. Оптимальное количество признаков, на которых модель показывает наилучший результат, находится в интервале от 13 до 30. Мы взяли минимально возможное количество - 13, поскольку хотим максимально уменьшить размерность наших данных, чтобы легче было интерпретировать результаты.
После отбора оптимального количества признаков, была оценена относительная важность каждого из них. Для оценки важности каждого признака выбран алгоритм “случайного леса” (random forest). Алгоритм случайного леса – это, так называемый, “ансамбль решающих деревьев”, где каждое дерево “голосует” за принадлежность объекта к определенному классу. “Деревом” обычно называют пошаговою процедуру классификации. Поскольку на каждом этапе можно принять разные решения, модель предлагает ответвления. Из многих ответвлений и складывается дерево, а из многих деревьев складывается лес. Поскольку каждое отдельное дерево делает вклад в процедуру предсказания интересующего результата, то деревья принято называть “решающими деревьями”. Детально об алгоритме можно узнать из статьи Лео Бреймана.
На выходе каждому признаку присваивается вес - чем больше вес, тем сильнее его влияние на определение класса банка (платежеспособный, неплатежеспособный). Проранжировав признаки по убыванию, получим “таблицу важности”.
Признак | Важность | |
---|---|---|
Прибыль и убытки* | Отчисления в резервы под обесценивание кредитов** | 0.12 |
Активы | Денежные средства и их эквиваленты | 0.118 |
Обязательства | Средства юридических лиц | 0.107 |
Активы | Кредиты и задолженность физических лиц | 0.095 |
Активы | Основные средства и нематериальные активы | 0.094 |
Активы | Кредит и задолженность юридических лиц | 0.088 |
Обязательства | Обязательства по текущему налогу на прибыль | 0.077 |
Обязательства | Средства банков | 0.074 |
Обязательства | Субординированный долг | 0.068 |
Активы | Необоротные активы*** | 0.06 |
Активы | Торговын ценные бумаги | 0.053 |
Активы | Средства обязательных резервов банка в НБУ | 0.025 |
Прибыль и убытки | Доходы / (расходы) | 0.023 |
Мы ограничились определением важности признаков без исследования того, как именно каждый из них влияет на определение класса банка. Тем не менее, мы хотели бы обратить внимание на несколько деталей.
Первое место занимает “Отчисления в резервы под обесценивание кредитов”. Когда банк выдает кредит, всегда есть вероятность его неуплаты, поэтому формируется специальный резерв, необходимость которого обусловлена кредитными рисками деятельности банка. Согласно отчету НБУ о финансовой стабильности, доля неработающих кредитов в апреле 2017 составила 57%, что является серьезным балластом для банков. Реструктуризация существующих неработающих кредитов проходит медленно, вследствии чего риски сохраняются.
7 из 13 признаков относятся к части активов. Банковские активы - это ресурсы банка и средства, классифицируемые по направлениям размещения и использования с целью получения прибыли. Стоит отметить “Основные средства и нематериальные активы”, которые занимают высокое пятое место. К основным средствам относятся материальный активы: земля, здания, компьютерная техника. К нематериальным активам - программное обеспечение, патенты, авторские права. У платежеспособных банков в среднем объем основных средств и нематериальных активов в 3 раза больше, чем у неплатежеспособных. Вероятно, чем больше у банка машин, банкоматов, программного обеспечения, тем меньше вероятность наступления состояния неплатежеспособности.
4 из 13 признаков относятся к части обязательств. Высокие места занимают “Средства юридических лиц” (3) и “Средства банков” (8). Оба признака отражают уровень доверия экономических агентов к финансовому учреждению - чем больше денег на счетах банка от других банков и фирм, тем выше вероятность, что банк платежеспособный.
Преимущества представленного подхода в его относительной простоте и скорости. Подход можно свести к трем шагам: начать моделировать со всеми признаками; сократить количество признаков для оптимальной работы предсказательной модели; оценить важность каждого признака и выделить приоритетные. Подобный подход может применяться параллельно с существующими или быть надстройкой.
Вместе с преимуществами, алгоритмический подход имеет свои ограничения. Всегда будут вопросы относительно выбора алгоритма и качестве построенной модели. Кроме того, о проблемах в банке могут сигнализировать не только финансовые показатели: проблемы акционеров банка в их небанковском бизнесе, повышенная PR-активность финансового учреждения, медиа атаки на центральный банк.
Понимая “узкие места” в представленном анализе, все же подытожим полученные результаты. Банковская сеть заметно сократилась за последние три года: около 50% банков выведено с рынка. С одной стороны, подобное “очищение” позволило НБУ разрешить ряд системных проблем и сделать банковский сектор прибыльным, с другой - значительно увеличить присутствие государства на рынке, что является долгосрочным вызовом для системы. Важный признак - отчисление в резерв под обесценивание кредитов. Большинство признаков (финансовых показателей), которые сильнее остальных влияют на “здоровье” банка, относятся к части активов. Также, к важным признакам относятся “Средства юридических лиц” и “Средства банков”, которые отображают доверие экономических агентов к финансовому учреждению.