Якою має бути політика Держстату з поширення мікроданих | VoxUkraine

Якою має бути політика Держстату з поширення мікроданих

Photo: depositphotos / HayDmitriy Автор HayDmitriy
14 Квітня 2020
FacebookTwitterTelegram
4261

Державна статистика в Україні працює за законом 1992 року. Більшість людей, які колись мали справу з Держстатом, знають що відомство отримує від респондентів дуже багато звітів. Проте отримати звідти дані можна лише в агрегованому вигляді – для країни в цілому, області, іноді району або населеного пункту. Детальні масиви даних спостережень (мікродані), за рідкісними винятками, Держстат не надає.

Основна причина відмов у наданні даних – захист персональних даних респондентів. Разом з цим, мікродані нелегально «продаються» на книжкових ринках або через інтернет без будь якого захисту конфіденційності. VoxUkraine розібрався, як це питання вирішують статистичні відомства у ЄС та що потрібно зробити, щоб дані офіційної статистики були доступні для досліджень.

Проблема відсутності доступу дослідників до мікроданих офіційної статистики накопичувалася роками та не вирішувалася. Держстат надавав мікродані на запити користувачів до 2012 року. Проте, ті процедури не відповідали вимогам законодавства про захист персональних даних. Тому доступ до даних з 2013 року був обмежений. У 2017 Держстат затвердив методологію забезпечення конфіденційності, де фактично сам собі заборонив надавати мікродані дослідникам, доки це відомство не розробить необхідні правила та умови. Ці правила ще досі не розроблені. У 2019 Держстат опублікував файли мікроданих зі спостереженнями ринку праці та обстеження умов життя домогосподарств на своєму веб-сайті. Перелік показників у цих файлах дуже обмежений,  багато важливої для досліджень інформації так і залишилося недоступною. 

Головна задача органів статистики при поширенні мікроданих – захист персональної інформації. Людина, яка бере участь в опитуваннях Держстату, повинна бути впевнена, що відомство не розголошуватиме її персональні дані. Так само Держстат не повинен розголошувати дані про компанії, які йому звітують.

Щоб зберегти конфіденційність, дані, які надає Держстат, повинні бути знеособленими. Тобто у масиві даних не має бути прізвищ людей чи назв компаній. Якщо такої інформації у масиві даних немає, то ідентифікувати напряму людину або підприємство не вийде. Проте масив може містити інші показники, які дозволять ідентифікувати особу у непрямий спосіб. Наприклад, це можна зробити знаючи адресу людини. Так само, іноді достатньо знати вид діяльності компанії та населений пункт, де вона знаходиться, щоб ідентифікувати це підприємство. Тому, коли Держстат поширює мікродані, він повинен забезпечити, неможливість ідентифікації ані прямим,  ані непрямим способом. 

Поки що в світі не існує єдиного підходу до поширення мікроданих, отже кожна країна на національному рівні визначає, яка інформація, за яких умов та в якому обсязі може бути розповсюджена. Однак в тому чи іншому вигляді статичні органи надають дослідникам дані в більшості розвинутих країн. У ЄС правила поширення мікроданих базуються на Регламенті №557/2013 Європейського Парламенту і Ради від 17 липня 2013 щодо доступу до конфіденційних даних у наукових цілях. 

Згідно з регламентом, статистичні відомства ЄС використовують такі підходи:

  • Статистичні відомства обробляють масив даних так, щоб в ньому не можна було ідентифікувати респондентів. Такий масив даних потім розміщують на Web сторінці, та всі користувачі мають до нього доступ. У країнах, які мають схоже з Україною законодавство про захист персональних даних, ці масиви, як правило, містять невелику кількість показників.

Словенія, Естонія, Латвія, Італія оприлюднюють результати опитувань домогосподарств щодо доходів та витрат, умов життя, здоров’я, дослідження ринку праці тощо. Інформація щодо юридичних осіб не розповсюджується із застосуванням такого підходу.

  • Статистичні відомства надають мікродані на запит дослідницької організації. Вони обробляють масив даних так, щоб у ньому не можна було ідентифікувати респондента. Користувачі оплачують таку обробку додатково. 

Країни можуть ставити перед організаціями додаткові вимоги. Наприклад, у Нідерландах надають інформацію тільки вітчизняним організаціям, а іноземцям – тільки через співпрацю з голландськими організаціями. 

  • Дослідникам з акредитованих наукових установ дозволяється працювати з даними у спеціально обладнаному приміщенні статистичного офісу. Організація точки доступу у приміщенні служби статистики дозволяє надати дослідникам максимально детальні та «чутливі» дані з мінімальним ризиком, адже дослідники працюють під наглядом камер. У дослідника є тільки одна можливість – аналізувати дані. Натомість людина не може зберегти дані на зовнішньому носії, переслати електронною поштою, роздрукувати, тощо. Перед тим, як дослідник зможе отримати результати свого дослідження і дозвіл на їхню публікацію, співробітник статистичної служби перевірить отримані результати на предмет збереження конфіденційності.

Маленькі країни такі, як Словенія та Латвія, мають по одному центру доступу. Естонія надає цю послугу у трьох містах. Плата береться лише у разі попередньої підготовки даних за запитом користувача.

  • Дослідникам надається можливість віддаленої обробки даних. Дослідник отримує детальний опис масиву даних, пише скрипт для аналізу та надсилає його у статистичну службу. Працівники обробляють мікродані за цим скриптом та у відповідь надсилають науковцю отримані результати. Іноді для зручності статистичне відомство надає досліднику масив з “фальшивими” даними, але зі збереженням вихідної структури, щоб він міг перевірити свій алгоритм. 
  • Дослідникам надається віддалений доступ, щоб вони могли безпосередньо працювати з мікроданими зі свого робочого комп’ютера. Як і у випадку з фізичною точкою доступу, дослідник не має можливості жодним чином зберегти отримані мікродані, а результати власної роботи він чи вона отримує лише після перевірки представниками статистичної служби. Віддалений доступ є можливим завдяки технології VPN (virtual private network), що дозволяє встановити захищений зв’язок між сервером із даними та комп’ютером користувача.

Дані щодо підприємств надаються тільки таким чином у Словенії, Естонії, Латвії. У Нідерландах віддалений доступ до даних є платним, а Швеція надає можливість віддаленого доступу навіть з мобільного.

Для імплементації таких підходів статистичні офіси повинні визначити низку процедур.

Анонімізація мікроданих. З масиву даних видаляються прямі ідентифікатори, як-от ім’я, адреса чи номер платника податку – все, що безпосередньо вказує на юридичну чи фізичну особу. Щоб користувач не міг опосередковано ідентифікувати респондента, можна використовувати такі процедури:

  • агрегування даних в інтервальні ряди. Наприклад, замість того, щоб вказувати вік особи, можна визначити вікову групу;
  • заміна значень, які суттєво більші або менші, ніж інші, на середні значення змінної по своїй групі;
  • видалення з масиву окремих значень. 

Для формальної оцінки ризику ідентифікації респондента статистичні офіси часто використовують показники k-анонімності та розраховують їх за допомогою бібліотеки SDC Micro у пакеті R. 

Акредитація дослідницьких організацій та проєктів. Для того, щоб з’ясувати, чи можна довірити певній організації конфіденційні дані, та чи дійсно вона буде використовувати їх у наукових цілях, країни ЄС здійснюють спеціальну акредитацію дослідницьких організацій беручи до уваги мету та репутацію організації, її структуру та незалежність, наявність інфраструктури для забезпечення безпеки даних

Зазвичай у європейських країнах одночасно використовують кілька каналів поширення мікроданих, щоб задовольнити інтереси різних аудиторій. 

Наприклад, в Естонії в залежності від рівня конфіденційності є такі шляхи поширення мікроданих:

  1. файли публічного доступу – на сайті Статистичної служби Естонії;
  2. файли з низьким рівнем конфіденційності – шляхом віддаленого доступу або у спеціальних точках доступу;
  3. файли з високим рівнем конфіденційності – тільки у спеціальних точках доступу.

Додатково Статистична служба Естонії може надавати інформацію, оброблену спеціально за вимогами дослідницької організації. Такі дані надаються за додаткову плату: 100 євро за перший запит, 50 євро за кожен наступний протягом одного року. За порушення конфіденційності даних фізичні особи обкладаються штрафом у 800 євро, юридичні особи – у 3200 євро (“Statistics Estonia’s experience in providing national and trans-border access to micro-data”, 2013, p.5).

В Естонії переконалися, що пропозиція даних народжує попит на дану послугу. В середньому щорічно Статистична служба отримує близько 25 запитів, і більше половини з них – запити на отримання інформації через засоби віддаленого доступу (станом на 2013 рік). 

В Італії на даний час діапазон продуктів з мікроданими є широким, починаючи з безкоштовних масивів даних, які можна отримати за запитом, і закінчуючи спеціалізованою обробкою даних. Мережа точок доступу дозволяє дослідникам проаналізувати будь-які мікродані, якими володіє ІСТАТ, в будь-якому з 18 регіональних відділень по всій Італії. А додаткова мережа серверів дозволяє досліднику отримати доступ до оригінальних конфіденційних даних через захищений канал.

Додатково ІСТАТ публікує файли загального доступу, які переважно мають навчальний характер, адже містять невелику кількість змінних, основну інформацію, мало спостережень і показують спрощену структуру даних (Public use micro.stat files, n.d.). Адже якщо ми хочемо підвищити статистичну грамотність населення загалом і студентів зокрема, студенти та учні повинні навчитися використовувати реальні дані опитувань, опрацьовувати “сирі” дані та, найважливіше, формувати знання на основі даних. 

Статистична служба Нідерландів публікує файли загального використання, а також пропонує інші численні набори даних для наукових досліджень. Дослідники отримують доступ до даних через захищене підключення до Інтернету. Хоча дані є безкоштовними, але послуги, пов’язані із забезпеченням доступу до них, платні. Загалом, створення безпечного середовища для дослідників вартує близько 2 мільйонів євро, з яких з державного бюджету фінансується лише 700 тисяч. Отже більша частина фінансується за рахунок споживачів даної послуги. За одне дослідження в середньому необхідно заплатити від 2000 євро (Services and costs, n.d.).

У своїй політиці поширення мікроданих Держстат повинен визначитися, які підходи він буде використовувати. VoxUkraine провів 28 інтерв’ю з користувачами та працівниками Держстату, щоб оцінити потреби та реальні можливості відомства. Результати свідчать, що поширення мікроданих раціонально організувати на основі комбінації декількох підходів:

  1. публікація на офіційному сайті загальнодоступних файлів, які унеможливлюють ідентифікацію респондента у прямий чи непрямий спосіб;
  2. надання мікроданих на підставі письмового запиту організаціям, які проводять аналіз даних в межах науково-дослідницьких проєктів та покривають витрати Держстату на анонімізацію даних;
  3. забезпечення доступу акредитованих організації до знеособлених даних у приміщенні Держстату;
  4. забезпечення віддаленого доступу у середньостроковій перспективі. 

Публікація підготовлена за підтримки проекту ПРООН «Громадянське суспільство задля розвитку демократії та прав людини в Україні», що реалізовується за фінансової підтримки Міністерства закордонних справ Данії.

Думки, висновки чи рекомендації належать авторам чи упорядникам видання та не обов’язково відображають погляди Міністерства закордонних справ Данії, Програми розвитку Організації Об’єднаних Націй чи інших агентств ООН. Матеріали публікації захищені авторським правом.

Проте, Програма розвитку Організації Об’єднаних Націй в Україні заохочує поширення цієї інформації в некомерційних цілях. 

Автори

Застереження

Автор не є співробітником, не консультує, не володіє акціями та не отримує фінансування від жодної компанії чи організації, яка б мала користь від цієї статті, а також жодним чином з ними не пов’язаний