В этой статье я покажу вам как создать простой парсер страницы в интернете на Python 3.
Для этого понадобится 2 библиотеки — urllib и lxml. Первая является встроенной, а вторую вам нужно будет подгрузить.
Для начала необходимо получить код самой страницы. Это можно сделать следующим образом:
1 2 3 |
import urllib.request # подключение библиотеки response = urllib.request.urlopen('http://progtask.ru').read() # получаем страницу в строковом представлении |
После этого шага нам необходимо воспользоваться библиотекой lxml и получить доступ к какому-нибудь элементу на странице. Давайте возьмём к примеру название моего блога.
Для меня самым удобным способом получения информации из страницы, является xpath. Его очень просто получить. Покажу вам на примере Google Chrome.
Получение xpath:
- Выберите необходимый элемент и откройте для него пункт меню «Просмотреть код».
- Затем для выделенной строки перейдите в меню правой кнопкой мыши и выполните Copy -> Xpath.
Всё, готово. Требуемый Xpath у нас есть. Осталось только при помощи него получить заголовок блога.
Для этого к уже имеющемуся коду добавим следующее:
1 2 3 4 5 6 7 |
import urllib.request from lxml.html import fromstring # подключаем библиотеку lxml response = urllib.request.urlopen('http://progtask.ru').read() page = fromstring(response) # делаем из нашей строки объект для манипулирования страницей nameSite = page.xpath('//*[@id="masthead"]/div/h1/a') # получаем все элементы с переданным xpath print(nameSite[0].text) # выводим результат |
Как видите, ничего сложного в этом нет.
Надеюсь статья вам помогла.