Збір даних 2.0. Cтворюємо власних павуків із фреймворком Scrapy
DataVox запрошує на вебінар з веб-скрапінгу мовою Python!
На вебінарі ми розберемо, як та навіщо використовувати фреймворк Scrapy, розкажемо про його переваги і випадки використання. Також створимо базовий проект за допомогою Scrapy.
Вебінар буде корисний аналітикам, яким потрібно регулярно збирати однотипну інформацію з веб-сторінок. Наприклад, ми використовуємо Scrapy для регулярного розширення бази медіа та вивантаження посилання, заголовку, тексту, дати кожної новини.
За результатами вебінару в учасників буде шаблон програми, за допомогою якого вони зможуть самостійно зіскрапити інформацію з публічних сайтів.
Вимоги: знання Python, досвід автоматизованого парсингу сайтів, розуміння структури html-сторінок, встановлений Scrapy.
Тренери: аналітикині DataVox Марина Отт, Оксана Тимченко
Учасники отримають:
▪ Навички скрапінгу веб-сторінок з фреймворком Scrapy
▪ Поради, як ефективно збирати дані та уникати «банів»
▪ Приклад коду для скрапінгу
▪ Нетворкінг з однодумцями
Вебінар відбудеться у додатку Zoom. Для участі необхідно зареєструватися.
Дедлайн для реєстрації – 14 березня. Посилання для приєднання ми надішлемо усім зареєстрованим напередодні події.
Вебінар підготовлено в рамках проекту «Медіа Екосистема» за підтримки US Embassy.
В цьому проекті ми досліджуємо український медійний простір, аналізуємо новини найпопулярніших онлайн-ЗМІ, щоб надавати актуальну агреговану інформацію про теми, меседжі та зв’язки між медіа.