Говорит Президент: количественный контент-анализ выступлений Порошенко | VoxUkraine

Говорит Президент: количественный контент-анализ выступлений Порошенко

16 августа 2016
FacebookTwitterTelegram
3178

Мы провели контент-анализ речей, c которыми Президент Порошенко выступал с марта 2015 по май 2016 года. Визуализация облака слов демонстрирует, что по семантическому наполнению речи президента за рубежом и в Украине похожи. Далее, согласно индексу легкости чтения и сложности текстов мы определили, что уровень аудитории должен быть равен 10 годам образования. Анализ также показал, что выступления Президента в Украине смещаются в левую часть политического спектра, а за рубежом — ближе к правой.

Почему нам не все равно, что говорят политики и чиновники? Мы надеемся, что они соблюдают принцип «мое слово нерушимо», серьезно относятся к обещаниям и чувствуют себя в ответе за сказанное. Вот почему журналисты, политологи и общественность скрупулезно изучают каждое значимое выступление. Раньше в таком анализе присутствовала изрядная доля субъективности, а толкования результатов различались.

С развитием вычислительной техники появились новые способы контент-анализа (метод тематической модели, Wordscore, машинное обучение, технологии обработки больших данных), которые помогают более объективно оценить тексты. Действительно, теперь исследователи могут анализировать большие объемы текстовой информации и системно определять их свойства.

Мы использовали эти новые технологии для анализа речей Президента Украины Петра Порошенко. На его официальном  сайте мы выбрали все выступления на английском языке вплоть до 1 июня 2016-го. Дата первой речи — 16 марта 2015 года, последней — 23 мая 2016-го. Всего мы загрузили тексты 30 выступлений. 19 из этих речей (63%) Порошенко произнес перед журналистами и политиками других стран (например, во время зарубежных визитов), а 11 — перед украинской аудиторией (в частности, в парламенте).

Анализ преследовал несколько целей. Во-первых, мы хотели визуализировать облако слов и использовали метод латентного размещения Дирихле (latent Dirichlet allocation, LDA —. VoxUkraine.org), чтобы выявить дополнительные или неявные темы. Во-вторых, вычислив сходство между выступлениями за рубежом и в Украине, мы проверили, различаются ли сообщения Порошенко для украинской и иностранной аудиторий. В-третьих, мы использовали характеристики удобочитаемости текстов, чтобы оценить, доступно ли президент излагает мысли перед публикой. Наконец, с помощью программы Wordfish мы определили политическую позицию Президента.

Самый простой прием анализа текстов — визуальное отображение часто упоминаемых слов в виде «облака». На рис. 1 — «речевые данные» с указанием 50 слов, которые Президент использовал чаще всего. Слова определялись с помощью терм-документной матрицы. Кроме того, мы использовали метод латентного размещения Дирихле (LDA) —порождающую статистическую модель, которая дает возможность трактовать результаты наблюдений с помощью неявных групп, объясняющих сходство между разными частями текста. Например, модель LDA помогает выявить тему сотрудничества в гуманитарной сфере на основе вероятности использования слов «гуманитарный», «Украина», «важный», «канцлер», «Германия», «поддержка», «симпатизировать». Мы выяснили, что эти слова определяют топ-5 неявных тем в речи 15 марта 2015-го. Кроме того, во всех выступлениях перед зарубежными и украинскими слушателями есть несколько различий. Речи для соотечественников насчитывают в среднем 104 предложения, а для иностранной аудитории — 54.

Рисунок. 1. Облако слов из выступлений Президента Украины

Wordcloud1

Порошенко выступал и в Украине, и за рубежом. Чтобы проверить, есть ли сходство между этими выступлениями, мы использовали  консинусный коэффициент — меру сходства значений или семантического наполнения текстов. Если два выступления не схожи, то коэффициент равен углу 90° (т.е. тексты «перпендикулярны»). При полном сходстве угол равен 0° (т.е. тексты полностью совпадают). Значения между 0 и 90,0 означают частичное сходство или несходство. Например, косинусная мера сходства между словами «Украина» и «Украина» — 0°. Косинусное расстояние слова «русский» от «украинский» — всего 0,7°: это самое сильное сходство по сравнению с другими странами и регионами (ЕС, США и т.д.). Мы определили, что косинусное расстояние между речами для украинской и зарубежной аудиторий — 0,823 из 90,0. Это указывает на высокую степень сходства между ними. То есть, Президент последовательно доносит свои сообщения и до соотечественников, и до зарубежных слушателей.

Далее с помощью индекса удобочитаемости  Флеша-Кинкейда мы выяснили, насколько сложны тексты выступлений Порошенко. Этот индекс дает возможность определить уровень образования, необходимый для восприятия выступлений. Высокое значение индекса указывает на плохую удобочитаемость (т.е. речь трудно понять): чтобы ее воспринять, нужен более высокий уровень образования, выраженный в годах. На рис. 2 показано изменение индекса удобочитаемости Флеша-Кинкейда (ось Y) для всех выступлений (ось X). В целом, речи оказались простыми для понимания аудиторией с образованием от 10 до 16 лет (10 лет — среднее образование, 16 лет — высшее). Удобочитаемость выступлений Порошенко перед зарубежными журналистами и политиками хуже, чем перед украинцами. Это означает, что выступая перед зарубежной аудиторией, Президент ориентируется на более образованных слушателей. Но у речи,  посвященной второй годовщине сопротивления российской оккупации Крыма, которую Порошенко произнес 26 февраля 2016-го, удобочитаемость хуже (14,20). В этом выступлении Президент подчеркнул, что Крым был и останется частью Украины. Ее сложнее понять из-за использования редко употребляемых слов и отсылок к специальным знаниям (например, употребляются слова «аншлюс» или «караимы»). В целом, самая плохая удобочитаемость (индекс Флеша-Кинкейда 16,86) — у текста выступления 25 апреля на 17-м саммите «Украина-ЕС». Речь от 17 июля 2015-го (Президент обвинил пророссийских сепаратистов в том, что они сбили рейс MH17 Малазийских авиалиний) имеет самую высокую удобочитаемость (индекс Флеша-Кинкейда 9,34).

poroshenko1_ру

Политический спектр принято описывать как позиции в диапазоне от левого крыла до правого. В международной классификации коммунизм и социализм принято считать левыми убеждениями, консерватизм — правыми. Wordfish — алгоритм ранжирования слов для определения политических позиций на основе частотности и текстовой информации (см. работу Слапина и Прокша, 2008). На рис. 3 указана оценка политической позиции Порошенко, исходя из анализа его выступлений для украинской и зарубежной аудиторий с помощью модели Wordfish. На вертикальной оси указана шкала политических позиций от левого до правого крыла (от положительного до отрицательного значений). Ноль означает неопределенность позиции. На горизонтальной оси отмечено время, когда Президент выступал перед публикой. Как видим, политическая позиция Порошенко имеет тенденцию к смещению влево, когда он выступает в Украине. Зато в некоторых речах перед иностранными журналистами и политиками она, скорее, уходит вправо. Выступления, прозвучавшие в Украине 17 июля 2015-го и 30 октября 2015-го, смещаются в правую часть политического спектра. Первое посвящено уничтожению рейса MH17; второе — выражение солидарности с Францией в связи с терактом. Эти события давали президенту возможность занять консервативную позицию. Речь перед украинцами 04 июня 2015-го — выражение крайней левой позиции.

poroshenko-2ру

На основе статистического анализа текстов выступлений Порошенко можно сделать несколько выводов. Тексты написаны простым языком, понятным обычному слушателю. Однако выступления, адресованные зарубежной аудитории, сложнее. Это означает, что речи на международных конференциях или качестве приглашенного оратора, рассчитаны на аудиторию более высокого образовательного уровня. Месседжи для украинской и зарубежной аудиторий схожи. В выступлениях перед украинцами риторика Порошенко смещается в левую часть политического спектра, а перед зарубежными журналистами или политиками — немного вправо с некоторыми вариациями в динамике по времени. Разница в политических позициях связана также с определенными темами и ситуациями. Например, в экономических и социальных вопросах Президент демонстрирует левые позиции, а при обвинениях в терактах они смещаются вправо.

Примечания:

1.Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, 3(Jan), 993-1022.

2.Laver, M., Benoit, K., & Garry, J. (2003). Extracting policy positions from political texts using words as data. American Political Science Review,97(02), 311-331.

3.Slapin, J. B., & Proksch, S. O. (2008). A scaling model for estimating time‐series party positions from texts. American Political Science Review,97(3), 705-722.

Авторы

Предостережение

Авторы не работают, не консультируют, не владеют акциями и не получают финансирования от компании или организации, которая бы имела пользу от этой статьи, а также никоим образом с ними не связаны