Я новичок в веб-скрейпинге и работаю над проектом по извлечению контактной информации команд НБА с их официальных сайтов. Я использую request.get для извлечения html-кода для веб-сайта, но по какой-то причине html, который я загружаю, сильно отличается от html, который я вижу, затем нажимаю «Проверить», и я не могу найти информацию, которую я необходимость. Пример веб-сайта: https://www.nba.com/lakers/contact?ls=nav_extended_fans.
Я подозреваю, что это как-то связано с javascript, но я не могу найти решение в Интернете. Могу ли я в любом случае получить то, что я вижу в «проверке»? (кстати, я использую хром)
Решение проблемы
Этот контент исходит из другого запроса:
import requests
from bs4 import BeautifulSoup
import re
url = 'https://orchestration-layer-lalakers.vercel.app/HiKPY7hhv7UtFI4Cpr542'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
contact = soup.find('div', {'class':re.compile("^TextModule--body")}).get_text(separator="\n")
print(contact)
Выход:
Phone:
(310) 426-6000
Crypto.com Arena:
1111 S. Figueroa St.
Los Angeles, CA 90015
UCLA Health Training Center:
2275 E. Mariposa Ave.
El Segundo, CA 90245
Комментариев нет:
Отправить комментарий