我的 Excel 檔案的最后一列充滿了 url 鏈接。我想從這些 url 中讀取文本,以便在文本中搜索關鍵詞。問題是 requests.get 無法讀取一列 url。你能幫我解決這個問題嗎?謝謝!!!
我當前的代碼在這里:
import pandas as pd
data=pd.read_excel('/Users/LE/Downloads/url.xlsx')
url=data.URL
res=requests.get(url, headers=headers)
html=res.text
soup = BeautifulSoup(html, 'lxml')
它不能作業,因為 'url' 是一列。
完成Excel
uj5u.com熱心網友回復:
正如您所注意到的,這一行將為您提供整列:
url=data.URL
但是,您可以遍歷列并單獨訪問每個 URL,如下所示:
import pandas
data = pandas.read_excel("PATH/TO/XLSX")
for url in data.URL:
print(url)
uj5u.com熱心網友回復:
您在打開檔案并使用 url 提取列方面做得很好,
最后一步是遍歷它們 - 對 url 中的每個 url 重復請求 -
import requests
import pandas as pd
# open the file
data = pd.read_excel('/Users/LE/Downloads/url.xlsx')
# get the urls
urls = data.URL
# go through every url in the urls
for url in urls:
# do the request for this url
res = requests.get(url, headers=headers)
# soup-it
html = res.text
soup = BeautifulSoup(html, 'lxml')
uj5u.com熱心網友回復:
此行將 Dataframe 的 URL 列分配給“url”:
url=data.URL
'url' 現在是 Pandas Series 物件,可以使用 for 回圈進行迭代:
for u in url:
# your request here
有關更多資訊,請參閱有關系列的 Pandas 檔案:https ://pandas.pydata.org/docs/reference/series.html
請注意,將位于 URL 的文本檔案的內容保存在本地可能會更容易,然后搜索這些保存的檔案以避免對相同檔案執行多個請求。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qiye/492887.html
上一篇:從電話號碼中洗掉點
下一篇:使用scrapy抓取一些資訊