Grab - фреймворк для парсинга сайтов

Grab - библиотека для работы с сетевыми документами. Основные области использования Grab:

  • извлечение данных с веб-сайтов (site scraping)
  • работа с сетевыми API
  • автоматизация работы с веб-сайтами, например, регистратор профилей на каком-либо сайте

Grab состоит из двух частей:

  • Главный интерфейс Grab для создания сетевого запроса и работы с его результатом. Этот интерфейс удобно использовать в простых скриптах, где не нужна большая многопоточность, или непосредственно в python-консоли.
  • Интерфейс Spider, позволяющий разрабатывать асинхронные парсеры. Этот интерфейс позволяет, во-первых, более строго описать логику парсера, во-вторых, разрабатывать парсеры с большим числом сетевых потоков.

Grab сайты

Документация Grab

API

Вся нижеследующая информация сгенерирована из комментариев в исходном коде. Поэтому она на английском языке. Документы из раздела API полезны тем, что они показывают описания всех аргументов каждого метода и класса библиотеки Grab.

Базовый интерфейс:

Расширения:

Утилиты:

Похожие проекты

  • urllib and urllib2 - для суровых python-хакеров
  • Scrapy - пожалуй, самый известный python фреймворк для парсинга сайтов
  • Mechanize - одна из самых старых python-библиотек парсинга сайтов
  • Requests - простой интерфейс к стандартной urllib библиотеке
Read the Docs v: latest
Versions
latest
Downloads
PDF
HTML
Epub
On Read the Docs
Project Home
Builds

Free document hosting provided by Read the Docs.