Говорить Президент: кількісний контент-аналіз виступів Порошенко

Ми провели контент-аналіз промов, з якими Президент Порошенко виступав з березня 2015 по травень 2016 року. Візуалізація хмари слів демонструє, що за семантичним наповненням виступи президента за кордоном і в Україні схожі. Далі, згідно з індексом легкості читання і складністю текстів, ми визначили що рівень аудиторії має складати 10 років освіти. Аналіз також показав, що виступи Президента в Україні зміщуються в ліву частину політичного спектру, а за кордоном — ближче до правої.

Чому нам не байдуже, що говорять політики й чиновники? Ми сподіваємося, що вони дотримуються принципу «моє слово непорушне», серйозно ставляться до обіцянок і відповідають за те, що говорять. Ось чому журналісти, політологи та громадськість скрупульозно вивчають кожен значущий виступ. Раніше в такому аналізі була присутня неабияка частка суб’єктивності, а тлумачення результатів розрізнялися.

З розвитком обчислювальної техніки з’явилися нові методи контент-аналізу (метод тематичної моделі, Wordscore, машинне навчання, технології обробки великих даних), які допомагають більш об’єктивно оцінити тексти. Дійсно, сьогодні дослідники можуть аналізувати великі обсяги текстової інформації й системно визначати їхні властивості.

Ми використали ці нові технології для аналізу промов Президента України Петра Порошенка. На його офіційному сайті ми вибрали всі виступи англійською мовою до 1 червня 2016-го. Дата першої промови — 16 березня 2015 року, останньої — 23 травня 2016-го. Усього ми завантажили тексти 30 виступів. З 19 із цих промов (63 %) Порошенко виступив перед журналістами й політиками інших країн (наприклад, під час закордонних візитів), а 11 — перед українською аудиторією (зокрема, у парламенті).

Аналіз переслідував кілька цілей. По-перше, ми хотіли візуалізувати хмару слів і використали метод латентного розміщення Дирихле (latent Dirichlet allocation, LDA —.VoxUkraine.org), щоби виявити додаткові або неявні теми. По-друге, обчисливши схожість між виступами за кордоном і в Україні, ми перевірили, чи розрізняються повідомлення Порошенко для української та іноземної аудиторій. По-третє, ми використали характеристики легкості читання текстів, щоб оцінити, чи доступно президент викладає думки перед публікою. Нарешті, за допомогою програми Wordfish ми визначили політичну позицію Президента.

Найпростіший прийом аналізу текстів — візуальне відображення часто вживаних слів у вигляді «хмари». На малюнку 1 — «мовні дані» із зазначенням 50 слів, які Президент використовував найчастіше. Слова визначалися за допомогою терм-документної матриці. Крім того, ми використали метод латентного розміщення Дирихле (LDA) — породжуючу статистичну модель, яка дає можливість трактувати результати спостережень з використанням неявних груп, що пояснюють схожість між різними частинами тексту. Наприклад, модель LDA допомагає виявити тему співпраці в гуманітарній сфері на основі ймовірності використання слів «гуманітарний», «Україна», «важливий», «канцлер», «Німеччина», «підтримка», «симпатизувати». Ми з’ясували, що ці слова визначають топ-5 неявних тем у промові 15 березня 2015-го. Крім того, у всіх виступах перед закордонними та українськими слухачами є кілька відмінностей. Промови для співвітчизників налічують у середньому 104 речень, а для іноземної аудиторії — 54.

Малюнок 1. Хмара слів з виступів Президента України

Порошенко виступав і в Україні, і за кордоном. Щоби перевірити, чи є подібність між цими виступами, ми використали консінусний коефіцієнт — міру подібності значень або семантичного наповнення текстів. Якщо два виступи не подібні, то коефіцієнт дорівнює куту 90° (тобто тексти «перпендикулярні»). Якщо подібність є повною, то кут дорівнює 0° (тобто тексти повністю збігаються). Значення між 0 і 90,0 означають часткову подібність або неподібність. Наприклад, косинусна міра подібності між словами «Україна» і «Україна» — 0°. Косинусна відстань слова «російський» від «український» — усього 0,7°: це найвища подібність у порівнянні з іншими країнами й регіонами (ЄС, США тощо). Ми визначили, що косинусна відстань між промовами для української та зарубіжної аудиторій — 0,823 з 90,0. Це вказує на високий ступінь подібності між ними. Тобто, Президент послідовно доносить свої повідомлення і до співвітчизників, і до зарубіжних слухачів.

Далі за допомогою індексу легкості читання Флеша-Кінкейда ми з’ясували, наскільки тексти виступів Порошенко є складними. Цей індекс дає можливість визначити рівень освіти, необхідний для сприйняття виступів. Високе значення індексу вказує на погану читабельність (тобто промову важко зрозуміти): щоби її сприйняти, потрібен більш високий рівень освіти, виражений у роках. На малюнку 2 показана зміна індексу легкості читання Флеша-Кінкейда (вісь Y) для всіх виступів (вісь X). Загалом, промови виявилися простими для розуміння аудиторією з освітою від 10 до 16 років (10 років — середня освіта, 16 років — вища). Легкість читання виступів Порошенко перед зарубіжними журналістами й політиками гірша, ніж перед українцями. Це означає, що виступаючи перед зарубіжною аудиторією, Президент орієнтується на більш освічених слухачів. Але в промові, присвяченій другій річниці опору російської окупації Криму, яку Порошенко виголосив 26 лютого 2016-го, читабельність гірша (14,20). У цьому виступі Президент підкреслив, що Крим був і залишиться частиною України. Її складніше зрозуміти через використання рідко вживаних слів і посилань на спеціальні знання (наприклад, вживаються слова «Аншлюс» або «караїми»). Загалом, найгірша читабельність (індекс Флеша-Кінкейда 16,86) — у тексту виступу 25 квітня на 17-му саміті «Україна-ЄС». Промова від 17 липня 2015-го (Президент звинуватив проросійських сепаратистів у тому, що вони збили рейс MH17 Малазійських авіаліній) має найвищу читабельність (індекс Флеша-Кінкейда 9,34).

Політичний спектр зазвичай описують як позиції в діапазоні від лівого крила до правого. За міжнародною класифікацією комунізм і соціалізм прийнято вважати лівими переконаннями, консерватизм — правими. Wordfish — алгоритм ранжування слів для визначення політичних позицій на основі частотності й текстової інформації (див. роботу Слапіна і Прокша, 2008). На малюнку 3 — оцінка політичної позиції Порошенко, виходячи з аналізу його виступів для української та зарубіжної аудиторій за допомогою моделі Wordfish. На вертикальній осі вказана шкала політичних позицій від лівого до правого крила (від позитивного до негативного значень). Нуль означає невизначеність позиції. На горизонтальній осі відмічений час, коли Президент виступав перед публікою. Як бачимо, політична позиція Порошенко має тенденцію до зміщення вліво, коли він виступає в Україні. Зате в деяких речах перед іноземними журналістами й політиками вона, скоріше, відходить вправо. Виступи, що пролунали в Україні 17 липня 2015-го та 30 жовтня 2015-го, зміщуються в праву частину політичного спектру. Перший присвячений знищенню рейсу MH17; другий — висловлення солідарності з Францією у зв’язку з терактом. Ці події давали президенту можливість зайняти консервативну позицію. Промова перед українцями 4 червня 2015-го — вираження крайньої лівої позиції.

На основі статистичного аналізу текстів виступів Порошенко можна зробити кілька висновків. Тексти написані простою мовою, зрозумілою звичайному слухачеві. Однак виступи, адресовані зарубіжній аудиторії, більш складні. Це означає, що промови на міжнародних конференціях або в якості запрошеного оратора розраховані на аудиторію більш високого освітнього рівня. Меседжі для української та зарубіжної аудиторій схожі. У виступах перед українцями риторика Порошенко зміщується в ліву частину політичного спектра, а перед зарубіжними журналістами або політиками — трохи вправо з деякими варіаціями в динаміці за часом. Різниця в політичних позиціях пов’язана також із певними темами й ситуаціями. Наприклад, в економічних і соціальних питаннях Президент демонструє ліві позиції, а під час звинувачень у терактах вони зміщуються вправо.

Примітки:

1. Blei, DM, Ng, AY, & Jordan, MI (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, 3 (Jan), 993–1022.

2. Laver, M., Benoit, K., & Garry, J. (2003). Extracting policy positions from political texts using words. American Political Science Review, 97 (02), 311–331.

3. Slapin, JB, & Proksch, SO (2008). A scaling model for estimating time-series party positions from texts. American Political Science Review, 97 (3), 705–722.

Автори

Юрій Городніченко, Університет Каліфорнії (Берклі), KSE, «Вокс Україна»
Олександр Талавера, Професор Бірмінгемського університету
Хаофен Сюй, кандидат наук у галузі аеронавтики і астронавтики інженерії в MIT

Застереження

Автори не є співробітниками, не консультують, не володіють акціями та не отримують фінансування від жодної компанії чи організації, яка б мала користь від цієї статті, а також жодним чином з ними не пов’язаний

Говорить Президент: кількісний контент-аналіз виступів Порошенко

Примітки:

Застереження

Читайте на цю тему:

Пропоновані оновлення Виборчого кодексу: хто контролюватиме мандати?

Маніпулятивна мова влади: що насправді стоїть за словами парламентарів

Що читати далі

Гендерний баланс у відновленні: нове дослідження «Вокс Україна»

Пропоновані оновлення Виборчого кодексу: хто контролюватиме мандати?

Маніпулятивна мова влади: що насправді стоїть за словами парламентарів