grid03

Язик твій – ворог/друг мій Класифікація ЗМІ: як глобальні медіа говорять про Україну

depositphotos.com
24 СІЧНЯ 2017Дмитро Остапчук, редактор DataVox

Українська риторика супроти російської: яка перемагає у 20 000 статтях головних ЗМІ планети. VoxUkraine знайшов відповідь за допомогою алгоритмів машинного навчання

Автор виражає подяку Тому Купе за цінні зауваження, а також проекту «Око» за надані дані

Сучасні медіа могутні і впливові. Принаймні, якщо вірити американським спецслужбам: у нещодавній спільній доповіді ЦРУ, АНБ та ФБР «Оцінка російських дій і намірів під час виборів, що пройшли у США» з 14 сторінок змістової частини доповіді 7 присвячені аналізу діяльності російського телеканалу Russia Today (RT). Не зважаючи на присутню критику документа, більшість доводів з приводу обвинувачень розвідувальних органів будуються на упередженій подачі інформації російськими ЗМІ, вплив Russia Today на суспільну думку не варто недооцінювати.

Ми не знаємо, чи вивчають українські спецслужби діяльність та конвент Russia Today, однак знаємо, що вони пишуть і показують сюжети про Україну. Ґрунтуючись на специфічній лексиці, яку використовують Ukraine Today і Russia Today, ми класифікували статті світових Інтернет-медіа на проукраїнські та проросійські.

Дані

Проект "Око" надав VoxUkraine вибірку з 235 000 англомовних статей1 за період з січня 2014 по жовтень 2016 року, у яких згадується Україна. Тематика статей є найрізноманітнішою: від спорту і культури до політики й економіки. Вихідні дані можна скачати на data.voxukraine.org.

Дві протилежності: Ukraine Today та Russia Today

Класифікувати текст на про- чи антиукраїнський можна використовуючи інструментарій, що застосовується при сортуванні електронної пошти на заборонені та дозволені повідомлення. Класифікатор розраховує вірогідність належності вхідного тексту до одного з класів. Наприклад, фільтрація вхідних листів на основі статистичних моделей використовується у програмі Mozilla Thunderbird.

У представленій статті у ролі дозволених та заборонених повідомлень виступають відверто проукраїнський Ukraine Today (клас статей з проукраїнською лексикою) і антиукраїнський Russia Today (клас статей з проросійською лексикою). Наша задача – автоматично розділити статті світових Інтернет-медіа на два класи: проукраїнський, що має схожу лексику з Ukraine Today, та проросійський – лексично схожий з Russia Today.

Відмінності між Ukraine Today та Russia Today

Почнемо з описової частини. Статей про Україну, опублікованих на Russia Today, у три рази менше, ніж на Ukraine Today (1770 проти 5176). Цьому є просте пояснення: сайт Russia Today пише про новини у всьому світі, у той час як Ukraine Today пише більше про Україну і Східну Європу2. Статті на українському ресурсі коротші, середня кількість символів – 967. Статті на RT у три рази довші і в середньому містять 3241 символ. Зрозуміти, у чому причина такої великої різниці, нам допоможе аналіз структури посилань на статті.

Структура посилань на статті на Ukraine Today и Russia Today схожа. Спочатку йде назва сайту http://uatoday.tv чи https://rt.com, далі назва категорії news, politics или business, а потім назва статті 360925-mh17-crash-jit-report3. Згрупувавши статті по категоріям, ми зможемо розрахувати кількість статей у кожній категорії і середню кількість символів у статті.

RUSSIA TODAY [1770] UKRAINE TODAY [5176]
кількість символів кількість статей кількість символів кількість статей
Новини
2889
51%
Політика
828
42%
Бізнес новини
1702
16%
Новини
671
22%
Op-Edge
5100
14%
Суспільство
1088
20%
Політика
3187
8%
Бізнес новини
969
5%
США
3507
3%
Інше
1029
4%
Інше
2915
3%
Кримінал
932
3%
Шоу
3868
3%
Думка
1541
2%
Велика Британія
3022
1%
Геополітика
767
2%

Більше половини статей про Україну на сайті RT відносяться до категорії «Новини». Середня довжина статті для даної категорії – 2889 символів. Довші статті у категоріях «Політика», «США», «Шоу», «Велика Британія». До категорій «США» та «Велика Британія» відносяться новини з цих країн, у яких згадується Україна. У категорію «Шоу» входять документальні фільми, дискусії на тему глобальної економіки та політики, авторські програми. Найкоротші тексти можна зустріти у категорії «Бізнес новини» – у середньому 1700 знаків.

Зі списку помітно виділяється категорія Op-Edge (у середньому 5100 символів) – «платформа для тих, хто не боїться виказувати свою позицію і ставити під питання те, що вважається встановленими істинами». Простіше кажучи, до цієї категорії відносяться політичні коментарі, статті іноземних журналістів і блогерів, листи читачів. Наприклад, серед активних колумністів – Брайан Макдоналд, ірландський журналіст із сумнівною репутацією, що базується у Москві.

Сорок відсотків статей на Ukraine Today потрапляють у категорію «Політика». Майже у два рази менше статей у категорії «Новини» (вони ж найкоротші – 671 символ). На фоні інших виділяється категорія «Думка», у якій середня довжина статті 1541 символ. Зазвичай під цю категорію потрапляють колонки журналістів, експертів, суспільних діячів.

Помітні відмінності у лексиці, яку використовують українській та російській сайти. Якщо підрахувати, скільки разів вживалося слово у статтях, і поділити на кількість статей, ми отримаємо відносну частоту вживання. Розрахувавши дану метрику для обох ресурсів, можна ідентифікувати слова-дискримінанти – «хвилерізи», котрі допомагають визначити, до якого класу належить стаття. Наприклад, якщо стаття містить слова сепаратист (separatist), окупація (occupation) чи анексія (annexation), вона, швидше за все, відноситься до класу з проукраїнською лексикою.

Розглянемо більш детально слова-дискримінанти. Український ресурс частіше вживає абревіатуру «АТО». Очевидно, на Ukraine Today публікуються зведення з АТО. Крім того, RT не може апелювати до конфлікту на Донбасі як до антитерористичної операції, оскільки не вважає воюючих з боку ДНР і ЛНР терористами. Для опису учасників військових дій на сході України Ukraine Today відносно частіше вживає такі слова, як бойовик (militant), сепаратист (separatist) і солдат (soldier). У той же час Russia Today набагато частіше використовує слова народне ополчення (militia) і бунтівник (rebel). На українському сайті ймовірніше зустріти слова окупація, анексія і ворог (enemy), які мають кардинально негативний тон по відношенню до агресії з боку Російської Федерації.

Окрім військової тематики, варто звернути увагу на такі слова-дискримінанти: борг (debt) і санкції (sanctions). Російські ЗМІ і владні структури часто використовують санкції як виправдання внутрішніх проблем. Друга гаряча тема, «Розмови про борги», виникала у контексті боргу України перед Росією за газ і питання, чи зможе Україна обслуговувати свої боргові зобов'язання в принципі.

Слова-дискримінанти, безумовно, важливі, вони служать маяками, по яких орієнтується алгоритм. Але для більш глибокого розуміння суті статей важливо знати, в якому контексті ці слова вживаються. Це можна зробити за допомогою більш складних алгоритмів і методів.

Класифікація світових Інтернет-медіа

Ми відібрали 15 великих англомовних інтернет-медіа4, які з січня 2014-го випустили не менше 500 статей про Україну. У вибірці присутні новинні агентства (Associated Press), мовні компанії (BBC), ділові ЗМІ (The Wall Street Journal, Bloomberg), газети (The New York Times, The Washington Post). Дев'ять інтернет-медіа з США і шість з Великобританії.

МЕДІА КРАЇНА КІЛЬКІСТЬ СТАТЕЙ
ReutersВелика Британія
6459
Ukraine TodayУкраїна
5176
The Daily MailВелика Британія
2233
Russia TodayРосія
1770
BloombergСША
1359
Business InsiderСША
1069
The GuardianВелика Британія
1067
The Wall Street JournalСША
1046
The New York TimesСША
999
The Washington PostСША
732
Associated PressСША
728
The Financial TimesВелика Британія
662
Fox NewsСША
620
BBCВелика Британія
618
The Huffington PostСША
597
ABC NewsСША
594
The TelegraphВелика Британія
574

Для класифікації текстів був використаний метод логістичної регресії5. Даний алгоритм популярний для вирішення задач класифікації текстових даних, легко реалізується і ефективно працює з великою кількістю ознак.

Результати класифікації статей показують очевидну асиметрію в сторону проукраїнської лексики. Звернемо лишень увагу на західні ділові ЗМІ. Є помітна різниця між The Financial Times і The Wall Street Journal, з одного боку, і Bloomberg - з іншого. Статті Bloomberg розподілилися практично 50 на 50 між класами. Це можна пояснити тим фактом, що в статтях Bloomberg частіше вживаються такі слова-дискримінанти як санкції і борг, які найімовірніше зустріти в статтях на Russia Today.

Ще раз підкреслимо, що ми не знаємо напевно, в анти- або проукраїнському контексті вживаються ці слова. Для цього необхідно провести семантичний аналіз текстів, а це завдання подальшого дослідження.

Для кожної статті розраховується ймовірність, з якою вона належить до того чи іншого класу. Наприклад, стаття в The Washington Post професора Флоридського міжнародного університету Ральфа Клема Why Eastern Ukraine is an integral part of Ukraine з ймовірністю 99,9% належить до класу статей з проукраїнською лексикою. В статті автор спростовує тезу, що східні області України історично етнічна частина Росії.

Навпаки, стаття на Bloomberg Річарда Вайса і Алана Левіна Ukraine Joins North Korea as No-Fly Airspace Trouble Spot з ймовірністю 99,9% відноситься до класу з проросійською лексикою. У статті говориться, що частина східної України була оголошена забороненою для польотів зоною через падіння Боїнга MH 17. Автор акцентує увагу, що це дуже рідкісне обмеження, яке в даний момент застосовується тільки до Північної Кореї. У статті також описується ситуація з польотами над Іраном, Сирією та Лівією.

Ситуація зі статтями, ймовірність для яких знаходиться в інтервалі 90-100%, інтуїтивно зрозуміла. Але якщо ймовірність належати до проукраїнського класу дорівнює 50,1%? Для алгоритму все ясно - ймовірність більше 50%, а значить стаття відноситься до класу з проукраїнською лексикою. Але з точки зору читача, не все так однозначно. Математичну інтерпретацію ми опустимо, тільки відзначимо, що подібні статті будуть називатися прикордонними.

Визначимо, що ймовірність для прикордонних статей знаходиться в інтервалі 40-60%. Класифікатору складно визначити, до якого класу належать такі статті. Одна з причин - в даних текстах не вживаються слова, які використовуються Ukraine Today або Russia Today. Кількість прикордонних статей в аналізованій вибірці незначна – 2,7-6,5% від загального числа статей для кожного інтернет-медіа. Кількість статей з ймовірністю 90-100% в середньому дорівнює 73% від загального числа статей. Подальші кроки дослідження припускають поглиблений аналіз кожного з класів. Наприклад, латентно-семантичний аналіз та аналіз тональності тексту.

Як читати цифри

Коротко сформулюємо основні висновки. По-перше, статей про Україну на RT в три рази менше, ніж на Ukraine Today, але вони в три рази довші. Це говорить про відмінності в редакційній політиці двох медіа-ресурсів. По-друге, відрізняється словниковий склад Ukraine Today і Russia Today. Є слова-дискримінанти – роздільники, які допомагають ідентифікувати, до якого ресурсу може належати стаття. Наприклад, якщо стаття містить слова сепаратист, окупація або анексія, більш імовірно, що ця стаття відноситься до класу з проукраїнською лексикою. І по-третє, результати класифікації статей світових медіа показують очевидну асиметрію в сторону проукраїнської лексики.

Перспективи

Серед перспективних напрямків використання машинного навчання в медіа - ідентифікація неправдивих новин. Тім О'Райлі, засновник і виконавчий директор O'Reilly Media, справедливо зазначає, що суть застосування алгоритмів не усунути помилки, але зробити результати надійними за умови виникнення помилок. Щоб зупинити пандемію, критично важливо ідентифікувати і обмежити джерело інфекції. Схожа ситуація з неправдивими новинами: немає необхідності усувати всі неправдиві новини, але варто лімітувати їх поширення.

  1. Тексти статей не завжди повні, а інколи відсутні. Це пов'язано з тим, що деякі медіа вимагають плату за перегляд контенту на своєму ресурсі.
  2. На сайті uatoday.tv є новини з різних географічних регіонів, але новин про Україну переважна більшість.
  3. Невелика різниця полягає у тому, що Russia Today ще використовує підкатегорії. Наприклад, official-word як підкатегорія politics.
  4. Використовувалися як основні домени (наприклад, bbc.com або nytimes.com), так і піддомени (наприклад, cn.wsj.com або in.reuters.com).
  5. Модель, побудована на методі логістичної регресії показала більш точний результат на тестовій вибірці даних, ніж наївний байесовский класифікатор (97% проти 89%). Варто зазначити, що існують складніші моделі, які базуються на ансамблі методів, і які можуть дати більш точний результат.