GOOGLE ADS

пятница, 6 мая 2022 г.

Как очищать ссылки внутри тегов td в python

Вот htmlкод, который я нашел на веб-сайте. Мне нужна ссылка vk, которая находится внутри tdтега.

Я пробовал так много способов в python, чтобы очистить эту ссылку, но она всегда показывает какую-то ошибку, а иногда показывает разные ссылки.

<thead>
<tr class="footable-header">
<th scope="col"
class="ninja_column_0
ninja_clmn_nm_date ">Date</th><th scope="col"class="ninja_column_1ninja_clmn_nm_download">download</th></tr></thead><tbody><tr data-row_id="0"
class="ninja_table_row_0 nt_row_id_0"><td>01-05-2022</td><td>https://vk.com/doc722551386_632783806? hash=gjIfCA0ILqZ1LQlzftCyxZ4zOATANYnUqZXiZ1vsAJH&dl=5wFKrFiIzvVfYJ6M4m1z9ALqKzGdXJdsGAXv1NaBtSg</td> </tr>

Вот pythonкод, который я пробовал:

import requests
from bs4 import BeautifulSoup
url="https://www.careerswave.in/dainik-jagran-newspaper-download/"
reqs = requests.get(url)
soup = BeautifulSoup(reqs.text,'html.parser')
f = open("vkdain.txt", "w")
for link in soup.find_all("a"):
data = link.get('href')
print(data)

Решение проблемы

Если вы просто хотите, чтобы ссылки в tdэтом работали для меня:

import requests
from bs4 import BeautifulSoup
url = "https://www.careerswave.in/dainik-jagran-newspaper-download/"
reqs = requests.get(url)
soup = BeautifulSoup(reqs.text, 'html.parser')
f = open("vkdain.txt", "w")
for link in soup.find_all("td"): # find all the td's
if link.text.startswith('https://vk'): # check if the pattern is the one you want
print(link.text)

Это дает вам следующий результат:

https://vk.com/doc722551386_632783806?hash=gjIfCA0ILqZ1LQlzftCyxZ4zOATANYnUqZXiZ1vsAJH&dl=5wFKrFiIzvVfYJ6M4m1z9ALqKzGdXJdsGAXv1NaBtSg
https://vk.com/doc722551386_632705478?hash=mXInLmfkZNSLz5UVqRoRW60bRlzynUFUpRZoiBeW4ko&dl=zFzHm0Edhycg4ulJp33jdeFbypSaynNcjpZ41cUnID0
...
https://vk.com/doc623586997_607921843?hash=c6f706ee5f09f4d4e5&dl=f780520e509b9f671b
https://vk.com/doc623586997_607809766?hash=ef486a0fb1e873640e&dl=eeb60781cef9e58541

Вот некоторые сопутствующие вопросы:

  • Python BeautifulSoup — как сканировать ссылки <a> внутри значений в <td>

  • Получить ссылку атрибута href из тега td BeautifulSoup Python
  • Комментариев нет:

    Отправить комментарий

    Laravel Datatable addColumn returns ID of one record only

    Я пытаюсь использовать Yajra Datatable для интеграции DataTable на свой веб-сайт. Я смог отобразить таблицу, но столкнулся с проблемой. В по...