Python 17.10.2016 admin No comments

Простой парсер на Python

В этой статье я покажу вам как создать простой парсер страницы в интернете на Python 3.

Для этого понадобится 2 библиотеки — urllib и lxml. Первая является встроенной, а вторую вам нужно будет подгрузить.

Для начала необходимо получить код самой страницы. Это можно сделать следующим образом:

После этого шага нам необходимо воспользоваться библиотекой lxml и получить доступ к какому-нибудь элементу на странице. Давайте возьмём к примеру название моего блога.
Для меня самым удобным способом получения информации из страницы, является xpath. Его очень просто получить. Покажу вам на примере Google Chrome.

Получение xpath:

  • Выберите необходимый элемент и откройте для него пункт меню «Просмотреть код».

show_code

  • Затем для выделенной строки перейдите в меню правой кнопкой мыши и выполните Copy -> Xpath.

copy_xpath_google_chrome

Всё, готово. Требуемый Xpath у нас есть. Осталось только при помощи него получить заголовок блога.

Для этого к уже имеющемуся коду добавим следующее:

Как видите, ничего сложного в этом нет.
Надеюсь статья вам помогла.




1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (6 оценок, среднее: 4,33 из 5)
Загрузка...