主頁 > 後端開發 > 【停用詞】NLP中的停用詞怎么獲取?我整理了6種方法

【停用詞】NLP中的停用詞怎么獲取?我整理了6種方法

2023-07-08 08:19:25 後端開發

目錄
  • 一、停用詞介紹
  • 二、停用詞應用場景
    • 2.1 提取高頻詞
    • 2.2 詞云圖
  • 三、停用詞獲取方法
    • 3.1 自定義停用詞
    • 3.2 用wordcloud調取停用詞
    • 3.3 用nltk調取停用詞
      • 3.3.1 nltk中文停用詞
      • 3.3.2 nltk英文停用詞
    • 3.4 用sklearn調取停用詞
    • 3.5 用gensim調取停用詞
    • 3.6 用spacy調取停用詞

一、停用詞介紹

您好,我是@馬哥python說 ,一名10年程式猿,

在自然語言處理(NLP)研究中,停用詞stopwords是指在文本中頻繁出現但通常沒有太多有意義的詞語,這些詞語往往是一些常見的功能詞、虛詞甚至是一些標點符號,如介詞、代詞、連詞、助動詞等,比如中文里的"的"、"是"、"和"、"了"、","等等,英文里的"the"、"is"、"and"、"..."等等,

停用詞的作用是在文本分析程序中過濾掉這些常見詞語,從而減少處理的復雜度,提高演算法效率,并且在某些任務中可以改善結果的質量,避免分析結果受到這些詞的干擾,

二、停用詞應用場景

2.1 提取高頻詞

在使用jieba.analyse提取高頻詞時,可以事先把停用詞存入stopwords.txt檔案,然后用以下陳述句設定停用詞:jieba.analyse.set_stop_words('stopwords.txt') 這樣提取出的高頻詞就不會出現停用詞了,

2.2 詞云圖

在使用wordcloud畫詞云圖時,可以設定WordCloud物件的引數stopwords,把需要設定的停用詞放到這個引數里(通常情況下,需要手動多次增加停用詞,多輪迭代,才能繪制出滿意的詞云圖結果),

圖1:加入停用詞后的「淄博燒烤」詞云圖

圖2:未加入停用詞的「淄博燒烤」詞云圖

圖2摻雜了太多無意義的詞語,嚴重影響了詞頻分析結果,圖1效果就好多了,由此可見停用詞在文本分析里的重要性,

三、停用詞獲取方法

3.1 自定義停用詞

在科研領域,很多機構公開了一些停用詞庫,比如中文停用詞表、哈工大停用詞表、百度停用詞表、四川大學機器智能實驗室停用詞庫等,以方便廣大科研者使用,

下面,以哈工大停用詞表為例,完整代碼如下:

# 讀取停用詞(哈工大通用停用詞表)
with open('hit_stopwords.txt', 'r') as f:
    stopwords_list = f.readlines()
stopwords_list = [i.strip() for i in stopwords_list]

print('停用詞數量:', len(stopwords_list))
print('停用詞串列:')
print(stopwords_list)

運行截圖:

自定義停用詞

可以看到,中文停用詞還是挺全面的,共767個,

我整理了一份較詳盡的停用詞詞典,包含:中文停用詞表、哈工大停用詞表、百度停用詞表、四川大學機器智能實驗室停用詞庫,公眾號"老男孩的平凡之路"后臺回復"停用詞"直接拿!

3.2 用wordcloud調取停用詞

Python中的wordcloud是用來畫詞云圖的庫,它可以根據文本中單詞的頻率或重要性,將單詞以不同的大小、顏色等形式展示在影像中,從而形成一個視覺上吸引人的詞云圖,

同時,它也內置了英文停用詞庫,完整代碼如下:

from wordcloud import STOPWORDS

print('停用詞數量:', len(STOPWORDS))
print('停用詞串列:')
print(STOPWORDS)

運行截圖:

用wordcloud調取停用詞

可以看到,wordcloud共包含了192個常用英文停用詞,

3.3 用nltk調取停用詞

nltk是一個流行的自然語言處理庫,提供了許多文本處理和語言分析的功能,包含停用詞加載、文本分詞、詞性標注、命名物體識別、詞干提取和詞形還原等常見功能,

其中,nltk內置了多種語言的停用詞,下面分別介紹中文、英文停用詞,

3.3.1 nltk中文停用詞

完整代碼:

import nltk
from nltk.corpus import stopwords

# 下載停用詞資源
nltk.download('stopwords')

# 獲取中文停用詞串列
stopwords_cn_list = stopwords.words('chinese')
# 列印中文停用詞串列
print('中文停用詞數量:', len(stopwords_cn_list))
print('中文停用詞:\n', stopwords_cn_list)

運行截圖:

nltk中文停用詞

可以看到,nltk共包含841個中文停用詞,

3.3.2 nltk英文停用詞

完整代碼:

import nltk
from nltk.corpus import stopwords

# 下載停用詞資源
nltk.download('stopwords')

# 獲取英文停用詞串列
stopwords_en_list = stopwords.words('english')
# 列印英文停用詞串列
print('英文停用詞數量:', len(stopwords_en_list))
print('英文停用詞:\n', stopwords_en_list)

運行截圖:

nltk英文停用詞

可以看到,nltk共包含179個英文停用詞,

3.4 用sklearn調取停用詞

sklearn是一個用于機器學習的Python庫,它包含了各種經典和先進的機器學習演算法,如分類、回歸、聚類、降維、特征選擇、模型選擇等,

其中,sklearn.feature_extraction是用于特征提取的模塊,可以利用它調取停用詞庫,完整代碼如下:

from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS

# 列印停用詞串列
print('停用詞數量:', len(ENGLISH_STOP_WORDS))
print('停用詞串列:')
print(list(ENGLISH_STOP_WORDS))

運行截圖:

sklearn調取停用詞

可以看到,sklearn共包含318個英文停用詞,

3.5 用gensim調取停用詞

gensim是一個用于主題建模和自然語言處理的Python庫,它提供了一組功能強大的工具和演算法,用于從大規模文本語料庫中提取語意主題和執行相關的文本處理任務,

其中,gensim.parsing.preprocessing是gensim庫中用于文本預處理的模塊,該模塊提供了一系列函式和工具,用于對文本進行標記化、停用詞去除、大小寫轉換、標點符號去除、詞干提取等常見的文本預處理任務,

用gensim調取停用詞,完整代碼如下:

from gensim.parsing.preprocessing import STOPWORDS

# 列印停用詞串列
print('停用詞數量:', len(STOPWORDS))
print('停用詞串列:')
print(list(STOPWORDS))

運行截圖:

gensim調取停用詞

可以看到,gensim共包含337個英文停用詞,

3.6 用spacy調取停用詞

spacy是一個用于自然語言處理的Python庫,具有高性能、易用性和多語言支持的特點,它提供了一系列的功能和工具,用于詞法分析、命名物體識別、句法分析、依存關系分析等常見的自然語言處理任務,

用spacy調取停用詞,完整代碼如下:

import spacy

nlp = spacy.load("en_core_web_sm")
stopwords = nlp.Defaults.stop_words

# 列印停用詞串列
print('停用詞數量:', len(stopwords))
print('停用詞串列:')
print(list(stopwords))

運行截圖:

spacy調取停用詞

可以看到,spacy共包含326個英文停用詞,
以上,


您好,我是@馬哥python說,一名10年程式猿,開發過很多原創文本挖掘、情感分析案例,可移步:https://zhuanlan.zhihu.com/p/508625189

推薦閱讀:
【爬蟲+資料清洗+可視化】用Python分析“淄博燒烤“的評論資料
【爬蟲+資料清洗+可視化分析】輿情分析嗶哩嗶哩"陽了"的評論
【爬蟲+資料清洗+可視化分析】輿情分析嗶哩嗶哩"狂飆"的評論

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/556821.html

標籤:其他

上一篇:Netty-LengthFieldBasedFrameDecoder-解決拆包粘包問題的解碼器

下一篇:返回列表

標籤雲
其他(162238) Python(38266) JavaScript(25528) Java(18291) C(15239) 區塊鏈(8275) C#(7972) AI(7469) 爪哇(7425) MySQL(7291) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5876) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4614) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2438) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) HtmlCss(1993) .NET技术(1986) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1882) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • 【停用詞】NLP中的停用詞怎么獲取?我整理了6種方法

    [toc] # 一、停用詞介紹 您好,我是[@馬哥python說](https://www.zhihu.com/people/13273183132) ,一名10年程式猿。 在自然語言處理(NLP)研究中,停用詞stopwords是指在文本中頻繁出現但通常沒有太多有意義的詞語。這些詞語往往是一些常見 ......

    uj5u.com 2023-07-08 08:19:25 more
  • Netty-LengthFieldBasedFrameDecoder-解決拆包粘包問題的解碼器

    ### 構造器引數 - maxFrameLength:指定解碼器所能處理的資料包的最大長度,超過該長度則拋出 TooLongFrameException 例外; - lengthFieldOffset:指定長度欄位的起始位置; - lengthFieldLength:指定長度欄位的長度:目前支持1( ......

    uj5u.com 2023-07-08 07:53:25 more
  • java wordcount

    import com.google.common.base.Splitter; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.j ......

    uj5u.com 2023-07-08 07:53:20 more
  • 【numpy基礎】--目錄(完結)

    # 概述 NumPy是一個開源的科學計算庫,它提供了高效的數值計算和陣列操作功能,主要包括: * 多維陣列的創建、操作和索引。 * 陣列的切片、拼接和轉置。 * 陣列的乘法、除法、求導、積分、對數等基本運算。 * 陣列的逐元素操作、求平均值、中位數、眾數等統計量。 * 陣列作為串列、元組等資料型別進 ......

    uj5u.com 2023-07-08 07:53:16 more
  • 在MAC OS上的vscode 安裝java開發環境

    在Mac OS上安裝vs code的java開發環境. 按照vs code的官方說明安裝Java相關插件, 遇見下列問題并解決了. 安裝JDK環境 安裝Extension Pack for Java 插件后,vscode會提示你安裝一個java,我安裝提示安裝了java.后來才發現安裝的是jre,并 ......

    uj5u.com 2023-07-08 07:53:12 more
  • 基于JavaFX的掃雷游戲實作(三)——互動邏輯

    相信閱讀過上期文章,動手能力強的朋友們已經自己跑出來界面了。所以這期我要講的是互動部分,也就是對于滑鼠點擊事件的回應,包括計時計數對點擊事件以及一些狀態量的影響。 回憶下第一期介紹的掃雷規則和操作,游戲從開局到結束可能會涉及到哪些情況呢?我認為比較重要的就是明確什么情況下游戲已經結束,結束代表的是勝 ......

    uj5u.com 2023-07-08 07:53:08 more
  • python multiprocessing庫使用記錄

    # python multiprocessing庫使用記錄 需求是想并行呼叫形式化分析工具proverif,同時發起對多個query的分析(378個)。實驗室有40核心80執行緒的服務器(雙cpu,至強gold 5218R*2)。 觀察到單個命令在分析時記憶體占用不大,且只使用單核心執行,因此考慮同時調 ......

    uj5u.com 2023-07-08 07:52:05 more
  • python:匯入庫、模塊失敗

    一般發生在程式開始部分: `from pymodbus.client.sync import ModbusSerialClient` `from pymodbus.payload import BinaryPayloadDecoder` `from pymodbus.constants import ......

    uj5u.com 2023-07-07 07:47:05 more
  • Java 構造器

    # Java 構造器 # 1. 構造器 ## 構造器也叫構造方法,是用來完成物件的初始化。 ## 構造器的定義: > ## 構造器的定義:[訪問修飾符] 方法名(形參),構造器與方法不同,并沒有回傳值,也不能寫void,訪問修飾符可以是不同的,方法名要與本類的類名相同 > > ## 構造器的呼叫是由 ......

    uj5u.com 2023-07-07 07:47:01 more
  • 《Effective C++ 改善程式與設計的55個具體做法》讀書筆記

    ### 1 .讓自己習慣C++ #### 條款01 視C++為一個語言聯邦 * `C` * `Object-Oriented C++` * `Template C++` * `STL` * `C++`高效編程守則視情況而變化,取決于你使用`C++`的哪一部分。 #### 條款02 盡量與const, ......

    uj5u.com 2023-07-07 07:46:56 more