Grab - библиотека для работы с сетевыми документами. Основные области использования Grab:
- извлечение данных с веб-сайтов (site scraping)
- работа с сетевыми API
- автоматизация работы с веб-сайтами, например, регистратор профилей на каком-либо сайте
Grab состоит из двух частей:
- Главный интерфейс Grab для создания сетевого запроса и работы с его результатом. Этот интерфейс удобно использовать в простых скриптах, где не нужна большая многопоточность, или непосредственно в python-консоли.
- Интерфейс Spider, позволяющий разрабатывать асинхронные парсеры. Этот интерфейс позволяет, во-первых, более строго описать логику парсера, во-вторых, разрабатывать парсеры с большим числом сетевых потоков.
Асинхронный модуль для разработки сложных парсеров.
TODO:
* Работа с прокси
* Утилиты:
* process_links
* process_next_page
* inc_count/add_item/save_list/render_stats/save_all_lists
* process_object_image
Вся нижеследующая информация сгенерирована из комментариев в исходном коде. Поэтому она на английском языке. Документы из раздела API полезны тем, что они показывают описания всех аргументов каждого метода и класса библиотеки Grab.
Базовый интерфейс:
Расширения:
Утилиты: