我想計算從網站上獲取的文本的字數。我正在嘗試下面的代碼:
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
def get_text(url):
page = urlopen(url)
soup = BeautifulSoup(page, "lxml")
text = ' '.join(map(lambda p: p.text, soup.find_all('p')))
return soup.title.text, text
number_of_words = 0
url = input('Enter URL - ')
text = get_text(url)
我想計算這個文本變數的字數
以https://www.ibm.com/in-en/cloud/learn/what-is-artificial-intelligence作為 URL,一切正常,除了獲取文本變數的字數。
PS - 作為引數輸入的word_count計數變數,與生成的摘要的字數不同。
我還設法使用以下代碼從 URL 中檢索到原始文本的文本字符長度
print('Text character length - ', len(str(text)))
uj5u.com熱心網友回復:
len(str(text))
將計算字母而不是單詞,要計算總單詞數,您必須拆分文本len(str(text).split())
:
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
def get_text(url):
page = urlopen(url)
soup = BeautifulSoup(page, "lxml")
text = ' '.join(map(lambda p: p.text, soup.find_all('p')))
return soup.title.text, text
url = input('Enter URL - ')
text = get_text(url)
number_of_words = len(str(text).split())
print(number_of_words)
輸出:
1080
轉載請註明出處,本文鏈接:https://www.uj5u.com/qianduan/537411.html
上一篇:指定css空url()的正確方法