Де заховані дані. Парсинг веб-сторінок | DataVox
DataVox запрошує на тренінг з парсингу даних мовою Python!
На тренінгу ми покроково пройдемо весь процес парсингу сайтів, розберемо основи HTML та СSS, поділимося лайфхаками, які зекономлять вам час та нерви при зборі даних. Окремо покажемо як збирати дані зі статичних та динамічних сторінок.
Це базовий тренінг для аналітиків ГО, студентів, які хочуть почати працювати з даними, та журналістів-розслідувачів, яким потрібно збирати великі об’єми інформації вручну.
За результатами тренінгу в учасників буде шаблон програми, за допомогою якого вони зможуть самостійно розпарсити інформацію з публічних сайтів.
Тренери: аналітики DataVox Марина Отт, Оксана Тимченко, Назар Мошняга.
Учасники отримають:
▪ Навички збору даних із сайтів з відкритим API
▪ Базові знання HTML та розуміння структури сайтів
▪ Навички парсингу сайтів, які не мають АРІ
▪ Навички роботи з динамічними сторінками
▪ Приклад коду для парсингу
▪ Нетворкінг з однодумцями
Що потрібно для участі:
досвід збору даних вручну, досвід роботи з великими наборами даних, базові знання Python або R.
Тренінг відбудеться у додатку Zoom. Для участі необхідно зареєструватися. Дедлайн для реєстрації: 8 лютого. Посилання для приєднання ми надішлемо усім зареєстрованим напередодні події.
Тренінг підготовлено в рамках проекту «Медіа Екосистема» за підтримки US Embassy.
В цьому проекті ми досліджуємо український медійний простір, аналізуємо новини найпопулярніших онлайн-ЗМІ, щоб надавати актуальну агреговану інформацію про теми, меседжі та зв’язки між медіа.