grid03

Язык твой - враг/друг мой Классификация СМИ: как глобальные медиа говорят об Украине

depositphotos.com
24 января 2017Дмитрий Остапчук, редактор DataVox

Украинская риторика против российской: какая побеждает в 20 000 статьях главных СМИ планеты. VoxUkraine нашел ответ с помощью алгоритмов машинного обучения

Автор выражает благодарность Тому Купе за ценные замечания, а также проекту "Око" за предоставленные данные

Современные медиа могущественны и влиятельны. По крайней мере, если верить американским спецслужбам: в недавнем совместном докладе ЦРУ, АНБ и ФБР "Оценка российских действий и намерений во время прошедших выборов в США" из 14 страниц содержательной части доклада 7 посвящены анализу деятельности российского телеканала Russia Today (RT). Несмотря на появившуюсякритику документа, большинство доводов по поводу обвинений разведывательных органов строятся на предвзятой подаче информации российскими СМИ, влияние Russia Today на общественное мнение не стоит недооценивать.

Мы не знаем, изучают ли украинские спецслужбы деятельность и контент Russia Today, однако знаем, что они пишут и показывают сюжеты об Украине. Основываясь на специфической лексике, которую используют Ukraine Today и Russia Today, мы классифицировали статьи мировых интернет-медиа на проукраинские и пророссийские.

Данные

Проект "Око" предоставил VoxUkraine выборку из 235 000 англоязычных статей1 за период с января 2014 по октябрь 2016 года, в которых упоминается Украина. Тематика статей самая разная: от спорта и культуры до политики и экономики. Исходные данные можно скачать на data.voxukraine.org.

Две противоположности: Ukraine Today и Russia Today

Классифицировать текст на про- или антиукраинский можно используя инструментарий, который применяется в сортировке электронной почты на запрещенные и разрешенные сообщения. Классификатор рассчитывает вероятность принадлежности входящего текста к одному из классов. Например, фильтрация входящих писем на основе статистических моделей используется в программе Mozilla Thunderbird.

В представленной статье в роли разрешенных и запрещенных сообщений выступают откровенно проукраинский Ukraine Today (класс статей с проукраинской лексикой) и антиукраинский Russia Today (класс статей с пророссийской лексикой). Наша задача – автоматически разделить статьи на два класса: проукраинский, который имеет схожую лексику с Ukraine Today, и пророссийский – лексически схожий с Russia Today.

Различия между Ukraine Today и Russia Today

Начнем с описательной части. Статей об Украине, опубликованных на Russia Today, в три раза меньше, чем на Ukraine Today (1770 против 5176). Этому есть простое объяснение: сайт Russia Today пишет о новостях во всем мире, в то время как Ukraine Today пишет больше об Украине и Восточной Европе2. Статьи на украинском ресурсе короче, среднее количество символов – 967. Статьи на RT в три раза длиннее и в среднем содержат 3241 символ. Понять, в чем причина такой большой разницы, нам поможет анализ структуры ссылок на статьи.

Структура ссылок на статьи на Ukraine Today и Russia Today похожа. Сначала идет название сайта http://uatoday.tv или https://rt.com, далее название категории news, politics или business, а затем название статьи 360925-mh17-crash-jit-report3. Сгруппировав статьи по категориям, мы можем рассчитать количество статей в каждой категории и среднее количество символов в статье.

RUSSIA TODAY [1770] UKRAINE TODAY [5176]
количество символов количество статей количество символов количество статей
Новости
2889
51%
Политика
828
42%
Бизнес новости
1702
16%
Новости
671
22%
Op-Edge
5100
14%
Общество
1088
20%
Политика
3187
8%
Бизнес новости
969
5%
США
3507
3%
Другое
1029
4%
Другое
2915
3%
Криминал
932
3%
Шоу
3868
3%
Мнение
1541
2%
Великобритания
3022
1%
Геополитика
767
2%

Больше половины статей об Украине на сайте RT относятся к категории "Новости". Средняя длина статьи для данной категории - 2889 символов. Длиннее статьи в категориях "Политика", "США", "Шоу", "Великобритания". К категориям "США" и "Великобритания" относятся новости из этих стран в которых упоминается Украина. В категорию "Шоу" входят документальные фильмы, дискуссии на тему глобальной экономики и политики, авторские программы. Самые короткие тексты можно встретить в категории "Бизнес новости" - в среднем 1700 знаков.

Из списка заметно выделяется категория Op-Edge (в среднем 5100 символов) - "платформа для тех, кто не боится высказывать свою позицию и ставить под вопрос то, что считается установленными истинами". Проще говоря, к этой категории относятся политические комментарии, статьи иностранных журналистов и блогеров, письма читателей. Например, среди активных колумнистов - Брайан Макдоналд, ирландский журналист с сомнительной репутацией, базирующийся в Москве.

Сорок процентов статей на Ukraine Today попадают в категорию "Политика". Почти в два раза меньше статей в категории "Новости" (они же самые короткие - 671 символ). На фоне остальных выделяется категория "Мнение", в которой средняя длина статьи 1541 символ. Обычно под эту категорию подпадают колонки журналистов, экспертов, общественных деятелей.

Заметны различия в лексике, которую используют украинский и русский сайты. Если подсчитать, сколько раз употреблялось слово в статьях, и разделить на количество статей, мы получим относительную частоту употребления. Рассчитав данную метрику для обоих ресурсов, можно идентифицировать слова-дискриминанты – "волнорезы", которые помогут определить, к какому классу принадлежит статья. Например, если статья содержит слова сепаратист (separatist), оккупация (occupation) или аннексия (annexation), она, вероятнее всего, относится к классу с проукраинской лексикой.

Рассмотрим более детально слова-дискриминанты. Украинский ресурс чаще употребляет аббревиатуру "АТО". Очевидно, на Ukraine Today публикуются сводки из АТО. Кроме того, RT не может апеллировать к конфликту на Донбассе как антитеррористической операции, поскольку не считает воюющих со стороны ДНР и ЛНР террористами. Для описания участников военных действий на востоке Украины Ukraine Today относительно чаще употребляет такие слова, как боевик (militant), сепаратист (separatist) и солдат (soldier). В то же время Russia Today намного чаще использует слова народное ополчение (militia) и мятежник (rebel). На украинском сайте более вероятно встретить слова оккупация, аннексия и враг (enemy), которые имеют кардинально негативный тон по отношению к агрессии со стороны Российской Федерации.

Помимо военной тематики, стоит обратить внимание на такие слова-дискриминанты: долг (debt) и санкции (sanctions). Российские СМИ и властные структуры часто используют санкции как оправдание внутренних проблем. Вторая горячая тема, "Разговоры о долгах", возникала в контексте долга Украины перед Россией за газ и вопроса, сможет ли Украина обслуживать свои долговые обязательства в принципе.

Слова-дискриминанты, безусловно, важны, они служат маяками, по которым ориентируется алгоритм. Но для более глубокого понимания сути статей важно знать, в каком контексте эти слова употребляются. Это можно сделать с помощью более сложных алгоритмов и методов.

Классификация мировых интернет-медиа

Мы отобрали 15 крупных англоязычных интернет-медиа4, которые с января 2014-го выпустили не менее 500 статей об Украине. В выборке присутствуют новостные агентства (Associated Press), вещательные компании (BBC), деловые СМИ (The Wall Street Journal, Bloomberg), газеты (The New York Times, The Washington Post). Девять интернет-медиа из США и шесть из Великобритании.

МЕДИА СТРАНА КОЛИЧЕСТВО СТАТЕЙ
ReutersВеликобритания
6459
Ukraine TodayУкраина
5176
The Daily MailВеликобритания
2233
Russia TodayРоссия
1770
BloombergСША
1359
Business InsiderСША
1069
The GuardianВеликобритания
1067
The Wall Street JournalСША
1046
The New York TimesСША
999
The Washington PostСША
732
Associated PressСША
728
The Financial TimesВеликобритания
662
Fox NewsСША
620
BBCВеликобритания
618
The Huffington PostСША
597
ABC NewsСША
594
The TelegraphВеликобритания
574

Для классификации текстов был использован метод логистической регрессии5. Данный алгоритм популярен для решения задач классификации текстовых данных, легко реализуем и эффективно работает с большим количеством признаков.

Результаты классификации статей показывают очевидную асимметрию в сторону проукраинской лексики. Обратим лишь внимание на западные деловые СМИ. Есть заметная разница между The Financial Times и The Wall Street Journal, с одной стороны, и Bloomberg - с другой. Статьи Bloomberg распределились практически 50 на 50 между классами. Это можно объяснить тем фактом, что в статьях Bloomberg чаще употребляются такие слова-дискриминанты, как санкции и долг, которые вероятнее встретить в статьях на Russia Today.

Еще раз подчеркнем, что мы не знаем наверняка в анти- или проукраинском контексте употребляются эти слова. Для этого необходимо провести семантический анализ текстов, а это задача дальнейшего исследования.

Для каждой статьи рассчитывается вероятность, с которой она принадлежит к тому или иному классу. Например, статья в The Washington Post профессора Флоридского международного университета Ральфа Клема Why Eastern Ukraine is an integral part of Ukraine с вероятностью 99,9% принадлежит к классу статей с проукраинской лексикой. В статье автор опровергает тезис, что восточные области Украины исторически этническая часть России.

Напротив, статья на Bloomberg Ричарда Вайса и Алана Левина Ukraine Joins North Korea as No-Fly Airspace Trouble Spot с вероятностью 99,9% относится к классу с пророссийской лексикой. В статье говориться, что часть восточной Украины была объявлена запретной для полетов зоной по причине падение боинга MH 17. Автор акцентирует внимание, что это очень редкое ограничение, которое в данный момент применяется только к Северной Корее. В статье также описывается ситуация с полетами над Ираном, Сирией и Ливией.

Ситуация со статьями, вероятность для которых находится в интервале 90-100%, интуитивно понятна. Но если вероятность принадлежать к проукраинскому классу равна 50,1%? Для алгоритма все ясно - вероятность больше 50%, а значит статья относится к классу с проукраинской лексикой. Но с точки зрения читателя, не все так однозначно. Математическую интерпретацию мы опустим, только отметим, что подобные статьи будут называться пограничными.

Определим, что вероятность для пограничных статей находится в интервале 40-60%. Классификатору сложно определить, к какому классу принадлежат такие статьи. Одна из причин – в данных текстах не употребляются слова, которые используются Ukraine Today или Russia Today. Количество пограничных статей в анализируемой выборке незначительно – 2,7-6,5% от общего числа статей для каждого интернет-медиа. Количество статей с вероятностью 90-100% в среднем равно 73% от общего числа статей. Дальнейшие шаги исследования предполагают углубленный анализ каждого из классов. Например, латентно-семантический анализ и анализ тональности текста.

Как читать цифры

Кратко сформулируем главные выводы. Во-первых, статей об Украине на RT в три раза меньше, чем на Ukraine Today, но они в три раза длиннее. Это говорит о различиях в редакционной политике двух медиаресурсов. Во-вторых, разнится словарный состав Ukraine Today и Russia Today. Есть слова-дискриминанты – разделители, которые помогают идентифицировать, к какому ресурсу может принадлежать статья. Например, если статья содержит слова сепаратист, оккупация или аннексия, более вероятно, что эта статья относится к классу с проукраинской лексикой. И в-третьих, результаты классификации статей мировых медиа показывают очевидную асимметрию в сторону проукраинской лексики.

Перспективы

Среди перспективных направлений использования машинного обучения в медиа – идентификация неправдивых новостей. Тим О'Райли, основатель и исполнительный директор O'Reilly Media, справедливо отмечает, что суть применения алгоритмов не устранить ошибки, но сделать результаты надежными при условии возникновения ошибок. Чтобы остановить пандемию, критически важно идентифицировать и ограничить источник инфекции. Похожая ситуация с неправдивыми новостями: нет необходимости устранять все неправдивые новости, но стоит лимитировать их распространение.

  1. Тексты статей не всегда полные, а иногда отсутствуют. Это связано с тем, что некоторые медиа требуют плату за просмотр контента на своем ресурсе.
  2. На сайте uatoday.tv есть новости из разных географиеских регионов, но касающихся Украины подавляющее большинство.
  3. Небольшая разница состоит лишь в том, что Russia Today использует еще подкатегории. Например, official-word как подкатегория к politics.
  4. Использовались как основные домены (например, bbc.com или nytimes.com), так и поддомены (например, cn.wsj.com или in.reuters.com).
  5. Модель, построенная на методе логистической регрессии показала более точный результат на тестовой выборке данных, чем наивный байесовский классификатор (97% против 89%). Стоит отметить, что существуют более сложные модели, основанные на ансамбле методов, и которые могут дать более точный результат.