Beta

Какой должна быть политика Госстата по распространению микроданных

Photo: depositphotos / HayDmitriy
14 апреля 2020
FacebookTwitterTelegram
2

Государственная статистика в Украине работает по закону 1992 года. Большинство людей, которые когда-то имели дело с Госстатом, знают, что ведомство получает от респондентов очень много отчетов. Однако получить оттуда данные можно только в агрегированном виде — для страны в целом, области, иногда района или населенного пункта. Подробные массивы данных наблюдений (микроданные), за редкими исключениями, Госстат не оказывает.

Основная причина отказов в предоставлении данных — защита персональных данных респондентов. Вместе с тем, микроданные нелегально «продаются» на книжных рынках или через интернет без какой-либо защиты конфиденциальности. VoxUkraine разобрался, как этот вопрос решают статистические ведомства в ЕС и что нужно сделать, чтобы данные официальной статистики были доступны для исследований.

Проблема отсутствия доступа исследователей к микроданным официальной статистики накапливалась годами, но не решалась. Госстат предоставлял микроданные на запросы пользователей до 2012 года. Однако, те процедуры не соответствовали требованиям законодательства о защите персональных данных. Поэтому доступ к данным с 2013 года был ограничен. В 2017 Госстат утвердил методологию обеспечения конфиденциальности, где фактически сам себе запретил предоставлять микроданные исследователям, пока это ведомство не разработает необходимые правила и условия.

Эти правила до сих пор не разработаны. В 2019 Госстат опубликовал файлы микроданных с наблюдениями рынка труда и обследования условий жизни домохозяйств на своем веб-сайте. Перечень показателей в этих файлах очень ограничена, много важной для исследований информации так и осталось недоступною.

Главная задача органов статистики при распространении микроданных — защита персональной информации. Человек, который участвует в опросах Госкомстата, должен быть уверена, что ведомство не будет разглашать его персональные данные. Так же Госстат не должен разглашать данные о компаниях, которые ему отчитываются.

Чтобы сохранить конфиденциальность, данные, которые предоставляет Госстат, должны быть обезличенными. То есть в массиве данных не должно быть фамилий людей или названий компаний. Если такой информации в массиве данных нет, то идентифицировать направления человека или предприятие не получится. Однако массив может содержать другие показатели, которые позволят идентифицировать личность косвенным образом. Например, это можно сделать зная адрес человека. Так же, иногда достаточно знать вид деятельности компании и населенный пункт, где она находится, чтобы идентифицировать это предприятие. Поэтому, когда Госстат распространяет микроданные, он должен обеспечить, невозможность идентификации ни прямым, ни косвенным способом.

Пока в мире не существует единого подхода к распространению микроданных, так что каждая страна на национальном уровне определяет, какая информация, при каких условиях и в каком объеме может быть распространена. Однако в том или ином виде статические органы предоставляют исследователям данные в большинстве развитых стран. В ЕС правила распространения микроданных базируются на Регламенте №557 / 2013 Европейского Парламента и Совета от 17 июля 2013 о доступе к конфиденциальным данным в научных целях.

Согласно регламенту, статистические ведомства ЕС используют следующие подходы:

  • Статистические ведомства обрабатывают массив данных так, чтобы в нем нельзя было идентифицировать респондентов. Такой массив данных затем размещают на Web странице, и все пользователи имеют к нему доступ. В странах, которые имеют схожее с Украиной законодательство о защите персональных данных, эти массивы, как правило, содержат небольшое количество показателей.

Словения, Эстония, Латвия, Италия обнародуют результаты опросов домохозяйств по доходам и расходам, условий жизни, здоровья, исследования рынка труда и тому подобное. Информация о юридических лицах не распространяется с применением такого подхода.

  • Статистические ведомства предоставляют микроданные на запрос исследовательской организации. Они обрабатывают массив данных так, чтобы в нем нельзя было идентифицировать респондента. Пользователи оплачивают такую ​​обработку дополнительно.

Страны могут ставить перед организациями дополнительные требования. Например, в Нидерландах предоставляют информацию только отечественным организациям, а иностранцам — только через сотрудничество с голландскими организациями.

  • Исследователям из аккредитованных научных учреждений разрешается работать с данными в специально оборудованном помещении статистического офиса. Организация точки доступа в помещении службы статистики позволяет предоставить исследователям максимально подробные и «чувствительные» данные с минимальным риском, ведь исследователи работают под наблюдением камер. У исследователя есть только одна возможность — анализировать данные. Зато человек не может сохранить данные на внешнем носителе, переслать по электронной почте, распечатать и тому подобное. Перед тем, как исследователь сможет получить результаты своего исследования и разрешение на их публикацию, сотрудник статистической службы проверит полученные результаты на предмет сохранения конфиденциальности.

Маленькие страны, такие как Словения и Латвия, имеют по одному центру доступа. Эстония предоставляет эту услугу в трех городах. Плата берется только в случае предварительной подготовки данных по запросу пользователя.

  • Исследователям предоставляется возможность удаленной обработки данных. Исследователь получает детальное описание массива данных, пишет скрипт для анализа и направляет его в статистическую службу. Работники обрабатывают микроданные по этому скрипту и в ответ присылают ученому полученные результаты. Иногда для удобства статистическое ведомство предоставляет исследователю массив с «фальшивыми» данными, но с сохранением исходной структуры, чтоб он мог проверить свой алгоритм.
  • Исследователям предоставляется удаленный доступ, чтобы они могли напрямую работать с микроданными со своего рабочего компьютера. Как и в случае с физической точкой доступа, исследователь не имеет возможности никоим образом сохранить полученные микроданные, а результаты собственной работы он или она получает только после проверки представителями статистической службы. Удаленный доступ возможен благодаря технологии VPN (virtual private network), что позволяет установить защищенную связь между сервером с данными и компьютером пользователя.

Данные о предприятиях предоставляются только таким образом в Словении, Эстонии, Латвии. В Нидерландах удаленный доступ к данным является платным, а Швеция предоставляет возможность удаленного доступа даже с мобильного.

Для правовой имплементации таких подходов статистические офисы должны определить ряд процедур.

Анонимизация микроданных. Из массива данных удаляются прямые идентификаторы, например имя, адрес или номер налогоплательщика — все, что непосредственно указывает на юридическое или физическое лицо. Чтобы пользователь не мог косвенно идентифицировать респондента, можно использовать следующие процедуры:

  • агрегирование данных в интервальные ряды. Например, вместо того, чтоб указывать возраст человека, можно определить возрастную группу;
  • замена значений, которые существенно больше или меньше, чем другие, на средние значения переменной по своей группе;
  • удаление из массива ОТДЕЛЬНЫХ значений.

Для формальной оценки риска идентификации респондента статистические офисы часто употребляют характеристики k-анонимности и рассчитывают их с помощью библиотеки SDC Micro в пакете R.

Аккредитация исследовательских организаций и проектов. Для того, чтоб выяснить, можно ли доверить определенной организации конфиденциальные данные, и действительно ли она будет использовать их в научных целях, страны ЕС осуществляют специальную аккредитацию исследовательских организаций принимая во внимание цели и репутацию организации, ее структуру и независимость, наличие инфраструктуры для обеспечения безопасности данных

Обычно в европейских странах одновременно употребляют несколько каналов распространения микроданных, чтоб удовлетворить интересы разных аудиторий.

Например, в Эстонии в зависимости от уровня конфиденциальности есть такие пути распространения микроданных:

  • файлы публичного доступа — на сайте статистической службы Эстонии;
  • файлы с низким уровнем конфиденциальности — путем удаленного доступа или в специальных точках доступа;
  • файлы с высоким уровнем конфиденциальности — только в специальных точках доступа.

Дополнительно Статистическая служба Эстонии может предоставлять информацию, обработанную специально по требованиям исследовательской организации. Такие данные предоставляются за дополнительную плату: 100 евро за первый запрос, 50 ​​евро за каждый следующий в течение одного года. За нарушение конфиденциальности данных физические лица облагаются штрафом в 800 евро, юридические лица — в 3200 евро («Statistics Estonia’s experience in providing national and trans-border access to micro-data», 2013, p.5).

В Эстонии убедились, что предложение данных рождает спрос на данную услугу. В среднем ежегодно Статистическая служба получает около 25 запросов, и более половины из них — запросы на получение информации через средства удаленного доступа (по состоянию на 2013 год).

В Италии в настоящее время диапазон продуктов с микроданными является широким, начиная с бесплатных массивов данных, которые можно получить по запросу, и заканчивая специализированной обработкой данных. Сеть точек доступа позволяет исследователям проанализировать любые микроданные, которыми располагает ИСТАТ, в любом из 18 региональных отделений по всей Италии. А дополнительная сеть серверов позволяет исследователю получить доступ к оригинальным конфиденциальным данным через защищенный канал.

Дополнительно ИСТАТ публикует файлы общего доступа, которые преимущественно имеют обучающий характер, ведь содержат небольшое количество переменных, основную информацию, мало наблюдений и показывают упрощенную структуру данных (Public use micro.stat files, n.d.). Ведь если мы хотим повысить статистическую грамотность населения в целом и студентов в частности, студенты и учащиеся должны научиться использовать реальные данные опросов, обрабатывать «сырые» данные и, самое важное, формировать знания на основе данных.

Статистическая служба Нидерландов публикует файлы общего пользования, а также предлагает другие многочисленные наборы данных для научных исследований. Исследователи получают доступ к данным через защищенное подключение к Интернету. Хотя данные являются бесплатными, но услуги, связанные с обеспечением доступа к ним, платные. В общем, создание безопасной среды для исследователей стоит около 2 миллионов евро, из которых из государственного бюджета финансируется только 700 000. Итак большая часть финансируется за счет потребителей данной услуги. За одно исследование в среднем необходимо заплатить от 2000 евро (Services and costs, n.d.).

В своей политике распространения микроданных Госстат должен определиться, какие подходы он будет использовать. VoxUkraine провел 28 интервью с пользователями и сотрудниками Госстата, чтобы оценить потребности и реальные возможности ведомства. Результаты свидетельствуют, что распространение микроданных рационально организовать на основе комбинации нескольких подходов:

  • публикация на официальном сайте общедоступных файлов, которые делают невозможной идентификацию респондента в прямой или косвенный способ;
  • предоставление микроданных на основании письменного запроса организациям, которые проводят анализ данных в рамках научно-исследовательских проектов и покрывают расходы Госкомстата на анонимизацию данных;
  • обеспечение доступа аккредитованных организаций к обезличенным данным в помещении Госкомстата;
  • обеспечение удаленного доступа в среднесрочной перспективе.

Публикация подготовлена ​​при поддержке проекта ПРООН «Гражданское общество для развития демократии и прав человека в Украине», реализуемого при финансовой поддержке Министерства иностранных дел Дании.

Мысли, выводы и рекомендации принадлежат авторам или составителям издания и не обязательно отражают взгляды Министерства иностранных дел Дании, Программы развития Организации Объединенных Наций или других агентств ООН. Материалы публикации защищены авторским правом.

Однако, Программа развития Организации Объединенных Наций в Украине поощряет распространение этой информации в некоммерческих целях.

Авторы

Предостережение

Авторы не работают, не консультируют, не владеют акциями и не получают финансирования от компании или организации, которая бы имела пользу от этой статьи, а также никоим образом с ними не связаны