中文停用词表(个人搜集整理,近两千五百行)

本文汇总了百度停用词表、哈工大停用词表等主流词表,并进行了去重处理。提供了可以直接使用的TXT文件,适用于多种自然语言处理任务。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

包含百度停用词表、哈工大停用词表等主流词表,已去重。直接复制到TXT文件即可,使用方法见我上一篇博客。

!
"
#
$
%
&
'
(
)
*
+
,
-
--
.
..
...
......
...................
./
.../
//
0
1
2
3
4
5
6
7
8
9
:
://
::
;
<
=
>
>>
?
@
A
Lex
[
\
]
^
_
`
exp
sub
sup
|
}
~
~~~~
·
×
×××
Δ
Ψ
γ
μ
φ
φ.
В
—
——
———
‘
’
’‘
“
”
”,
…
……
…………………………………………………③
′∈
′|
℃
Ⅲ
↑
→
∈[
∪φ∈
≈
①
②
②c
③
③]
④
⑤
⑥
⑦
⑧
⑨
⑩
──
■
▲
 
、
。
〈
〉
《
》
》),
」
『
』
【
】
〔
〕
〕〔
㈧
一
一.
一一
一下
一个
一些
一何
一切
一则
一则通过
一天
一定
一方面
一旦
一时
一来
一样
一次
一片
一番
一直
一致
一般
一起
一转眼
一边
一面
七
万一
三
三天两头
三番两次
三番五次
上
上下
上升
上去
上来
上述
上面
下
下列
下去
下来
下面
不
不一
不下
不久
不了
不亦乐乎
不仅
不仅...而且
不仅仅
不仅仅是
不会
不但
不但...而且
不光
不免
不再
不力
不单
不变
不只
不可
不可开交
不可抗拒
不同
不外
不外乎
不够
不大
不如
不妨
不定
不对
不少
不尽
不尽然
不巧
不已
不常
不得
不得不
不得了
不得已
不必
不怎么
不怕
不惟
不成
不拘
不择手段
不敢
不料
不断
不日
不时
不是
不曾
不止
不止一次
不比
不消
不满
不然
不然的话
不特
不独
不由得
不知不觉
不管
不管怎样
不经意
不胜
不能
不能不
不至于
不若
不要
不论
不起
不足
不过
不迭
不问
不限
与
与其
与其说
与否
与此同时
专门
且
且不说
且说
两者
严格
严重
个
个人
个别
中小
中间
丰富
串行
临
临到
为
为主
为了
为什么
为什麽
为何
为止
为此
为着
主张
主要
举凡
举行
乃
乃至
乃至于
么
之
之一
之前
之后
之後
之所以
之类
乌乎
乎
乒
乘
乘势
乘机
乘胜
乘虚
乘隙
九
也
也好
也就是说
也是
也罢
了
了解
争取
二
二来
二话不说
二话没说
于
于是
于是乎
云云
云尔
互
互相
五
些
交口
亦
产生
亲口
亲手
亲眼
亲自
亲身
人
人人
人们
人家
人民
什么
什么样
什麽
仅
仅仅
今
今后
今天
今年
今後
介于
仍
仍旧
仍然
从
从不
从严
从中
从事
从今以后
从优
从古到今
从古至今
从头
从宽
从小
从新
从无到有
从早到晚
从未
从来
从此
从此以后
从而
从轻
从速
从重
他
他人
他们
他是
他的
代替
以
以上
以下
以为
以便
以免
以前
以及
以后
以外
以後
以故
以期
以来
以至
以至于
以致
们
任
任何
任凭
任务
企图
伙同
会
伟大
传
传说
传闻
似乎
似的
但
但凡
但愿
但是
何
何乐而不为
何以
何况
何处
何妨
何尝
何必
何时
何止
何苦
何须
余外
作为
你
你们
你是
你的
使
使得
使用
例如
依
依据
依照
依靠
便
便于
促进
保持
保管
保险
俺
俺们
倍加
倍感
倒不如
倒不如说
倒是
倘
倘使
倘或
倘然
倘若
借
借以
借此
假使
假如
假若
偏偏
做到
偶尔
偶而
傥然
像
儿
允许
元/吨
充其极
充其量
充分
先不先
先后
先後
先生
光
光是
全体
全力
全年
全然
全身心
全部
全都
全面
八
八成
公然
六
兮
共
共同
共总
关于
其
其一
其中
其二
其他
其余
其后
其它
其实
其次
具体
具体地说
具体来说
具体说来
具有
兼之
内
再
再其次
再则
再有
再次
再者
再者说
再说
冒
冲
决不
决定
决非
况且
准备
凑巧
凝神
几
几乎
几度
几时
几番
几经
凡
凡是
凭
凭借
出
出于
出去
出来
出现
分别
分头
分期
分期分批
切
切不可
切切
切勿
切莫
则
则甚
刚
刚好
刚巧
刚才
初
别
别人
别处
别是
别的
别管
别说
到
到了儿
到处
到头
到头来
到底
到目前为止
前后
前此
前者
前进
前面
加上
加之
加以
加入
加强
动不动
动辄
勃然
匆匆
十分
千
千万
千万千万
半
单
单单
单纯
即
即令
即使
即便
即刻
即如
即将
即或
即是说
即若
却
却不
历
原来
去
又
又及
及
及其
及时
及至
双方
反之
反之亦然
反之则
反倒
反倒是
反应
反手
反映
反而
反过来
反过来说
取得
取道
受到
变成
古来
另
另一个
另一方面
另外
另悉
另方面
另行
只
只当
只怕
只是
只有
只消
只要
只限
叫
叫做
召开
叮咚
叮当
可
可以
可好
可是
可能
可见
各
各个
各人
各位
各地
各式
各种
各级
各自
合理
同
同一
同时
同样
后
后来
后者
后面
向
向使
向着
吓
吗
否则
吧
吧哒
吱
呀
呃
呆呆地
呐
呕
呗
呜
呜呼
呢
周围
呵
呵呵
呸
呼哧
呼啦
咋
和
咚
咦
咧
咱
咱们
咳
哇
哈
哈哈
哉
哎
哎呀
哎哟
哗
哗啦
哟
哦
哩
哪
哪个
哪些
哪儿
哪天
哪年
哪怕
哪样
哪边
哪里
哼
哼唷
唉
唯有
啊
啊呀
啊哈
啊哟
啐
啥
啦
啪达
啷当
喀
喂
喏
喔唷
喽
嗡
嗡嗡
嗬
嗯
嗳
嘎
嘎嘎
嘎登
嘘
嘛
嘻
嘿
嘿嘿
四
因
因为
因了
因此
因着
因而
固
固然
在
在下
在于
地
均
坚决
坚持
基于
基本
基本上
处在
处处
处理
复杂
多
多么
多亏
多多
多多少少
多多益善
多少
多年前
多年来
多数
多次
够瞧的
大
大不了
大举
大事
大体
大体上
大凡
大力
大多
大多数
大大
大家
大张旗鼓
大批
大抵
大概
大略
大约
大致
大都
大量
大面儿上
失去
奇
奈
奋勇
她
她们
她是
她的
好
好在
好的
好象
如
如上
如上所述
如下
如今
如何
如其
如前所述
如同
如常
如是
如期
如果
如次
如此
如此等等
如若
始而
姑且
存在
存心
孰料
孰知
宁
宁可
宁愿
宁肯
它
它们
它们的
它是
它的
安全
完全
完成
定
实现
实际
宣布
容易
密切
对
对于
对应
对待
对方
对比
将
将才
将要
将近
小
少数
尔
尔后
尔尔
尔等
尚且
尤其
就
就地
就是
就是了
就是说
就此
就算
就要
尽
尽可能
尽如人意
尽心尽力
尽心竭力
尽快
尽早
尽然
尽管
尽管如此
尽量
局外
居然
届时
属于
屡
屡屡
屡次
屡次三番
岂
岂但
岂止
岂非
川流不息
左右
巨大
巩固
差一点
差不多
己
已
已矣
已经
巴
巴巴
带
帮助
常
常常
常言说
常言说得好
常言道
平素
年复一年
并
并不
并不是
并且
并排
并无
并没
并没有
并肩
并非
广大
广泛
应当
应用
应该
庶乎
庶几
开外
开始
开展
引起
弗
弹指之间
强烈
强调
归
归根到底
归根结底
归齐
当
当下
当中
当儿
当前
当即
当口儿
当地
当场
当头
当庭
当时
当然
当真
当着
形成
彻夜
彻底
彼
彼时
彼此
往
往往
待
待到
很
很多
很少
後来
後面
得
得了
得出
得到
得天独厚
得起
心里
必
必定
必将
必然
必要
必须
快
快要
忽地
忽然
怎
怎么
怎么办
怎么样
怎奈
怎样
怎麽
怕
急匆匆
怪
怪不得
总之
总是
总的来看
总的来说
总的说来
总结
总而言之
恍然
恐怕
恰似
恰好
恰如
恰巧
恰恰
恰恰相反
恰逢
您
您们
您是
惟其
惯常
意思
愤然
愿意
慢说
成为
成年
成年累月
成心
我
我们
我是
我的
或
或则
或多或少
或是
或曰
或者
或许
战斗
截然
截至
所
所以
所在
所幸
所有
所谓
才
才能
扑通
打
打从
打开天窗说亮话
扩大
把
抑或
抽冷子
拦腰
拿
按
按时
按期
按照
按理
按说
挨个
挨家挨户
挨次
挨着
挨门挨户
挨门逐户
换句话说
换言之
据
据实
据悉
据我所知
据此
据称
据说
掌握
接下来
接着
接著
接连不断
放量
故
故意
故此
故而
敞开儿
敢
敢于
敢情
数/
整个
断然
方
方便
方才
方能
方面
旁人
无
无宁
无法
无论
既
既...又
既往
既是
既然
日复一日
日渐
日益
日臻
日见
时候
昂然
明显
明确
是
是不是
是以
是否
是的
显然
显著
普通
普遍
暗中
暗地里
暗自
更
更为
更加
更进一步
曾
曾经
替
替代
最
最后
最大
最好
最後
最近
最高
有
有些
有关
有利
有力
有及
有所
有效
有时
有点
有的
有的是
有着
有著
望
朝
朝着
末##末
本
本人
本地
本着
本身
权时
来
来不及
来得及
来看
来着
来自
来讲
来说
极
极为
极了
极其
极力
极大
极度
极端
构成
果然
果真
某
某个
某些
某某
根据
根本
格外
梆
概
次第
欢迎
欤
正值
正在
正如
正巧
正常
正是
此
此中
此后
此地
此处
此外
此时
此次
此间
殆
毋宁
每
每个
每天
每年
每当
每时每刻
每每
每逢
比
比及
比如
比如说
比方
比照
比起
比较
毕竟
毫不
毫无
毫无例外
毫无保留地
汝
沙沙
没
没奈何
没有
沿
沿着
注意
活
深入
清楚
满
满足
漫说
焉
然
然则
然后
然後
然而
照
照着
牢牢
特别是
特殊
特点
犹且
犹自
独
独自
猛然
猛然间
率尔
率然
现代
现在
理应
理当
理该
瑟瑟
甚且
甚么
甚或
甚而
甚至
甚至于
用
用来
甫
甭
由
由于
由是
由此
由此可见
略
略为
略加
略微
白
白白
的
的确
的话
皆可
目前
直到
直接
相似
相信
相反
相同
相对
相对而言
相应
相当
相等
省得
看
看上去
看出
看到
看来
看样子
看看
看见
看起来
真是
真正
眨眼
着
着呢
矣
矣乎
矣哉
知道
砰
确定
碰巧
社会主义
离
种
积极
移动
究竟
穷年累月
突出
突然
窃
立
立刻
立即
立地
立时
立马
竟
竟然
竟而
第
第二
等
等到
等等
策略地
简直
简而言之
简言之
管
类如
粗
精光
紧接着
累年
累次
纯
纯粹
纵
纵令
纵使
纵然
练习
组成
经
经常
经过
结合
结果
给
绝
绝不
绝对
绝非
绝顶
继之
继后
继续
继而
维持
综上所述
缕缕
罢了
老
老大
老是
老老实实
考虑
者
而
而且
而况
而又
而后
而外
而已
而是
而言
而论
联系
联袂
背地里
背靠背
能
能否
能够
腾
自
自个儿
自从
自各儿
自后
自家
自己
自打
自身
臭
至
至于
至今
至若
致
般的
良好
若
若夫
若是
若果
若非
范围
莫
莫不
莫不然
莫如
莫若
莫非
获得
藉以
虽
虽则
虽然
虽说
蛮
行为
行动
表明
表示
被
要
要不
要不是
要不然
要么
要是
要求
见
规定
觉得
譬喻
譬如
认为
认真
认识
让
许多
论
论说
设使
设或
设若
诚如
诚然
话说
该
该当
说明
说来
说说
请勿
诸
诸位
诸如
谁
谁人
谁料
谁知
谨
豁然
贼死
赖以
赶
赶快
赶早不赶晚
起
起先
起初
起头
起来
起见
起首
趁
趁便
趁势
趁早
趁机
趁热
趁着
越是
距
跟
路经
转动
转变
转贴
轰然
较
较为
较之
较比
边
达到
达旦
迄
迅速
过
过于
过去
过来
运用
近
近几年来
近年来
近来
还
还是
还有
还要
这
这一来
这个
这么
这么些
这么样
这么点儿
这些
这会儿
这儿
这就是说
这时
这样
这次
这点
这种
这般
这边
这里
这麽
进入
进去
进来
进步
进而
进行
连
连同
连声
连日
连日来
连袂
连连
迟早
迫于
适应
适当
适用
逐步
逐渐
通常
通过
造成
逢
遇到
遭到
遵循
遵照
避免
那
那个
那么
那么些
那么样
那些
那会儿
那儿
那时
那末
那样
那般
那边
那里
那麽
部分
都
鄙人
采取
里面
重大
重新
重要
鉴于
针对
长期以来
长此下去
长线
长话短说
问题
间或
防止
阿
附近
陈年
限制
陡然
除
除了
除却
除去
除外
除开
除此
除此之外
除此以外
除此而外
除非
随
随后
随时
随着
随著
隔夜
隔日
难得
难怪
难说
难道
难道说
集中
零
需要
非但
非常
非徒
非得
非特
非独
靠
顶多
顷
顷刻
顷刻之间
顷刻间
顺
顺着
顿时
颇
风雨无阻
饱
首先
马上
高低
高兴
默然
默默地
齐
︿
!
#
$
%
&
'
(
)
)÷(1-
)、
*
+
+ξ
++
,
,也
-
-β
--
-[*]-
.
/
0
0:2
1
1.
12%
2
2.3%
3
4
5
5:0
6
7
8
9
:
;
<
<±
<Δ
<λ
<φ
<<
=
=″
=☆
=(
=-
=[
={
>
>λ
?
@
A
LI
R.L.
ZXFITL
[
[①①]
[①②]
[①③]
[①④]
[①⑤]
[①⑥]
[①⑦]
[①⑧]
[①⑨]
[①A]
[①B]
[①C]
[①D]
[①E]
[①]
[①a]
[①c]
[①d]
[①e]
[①f]
[①g]
[①h]
[①i]
[①o]
[②
[②①]
[②②]
[②③]
[②④
[②⑤]
[②⑥]
[②⑦]
[②⑧]
[②⑩]
[②B]
[②G]
[②]
[②a]
[②b]
[②c]
[②d]
[②e]
[②f]
[②g]
[②h]
[②i]
[②j]
[③①]
[③⑩]
[③F]
[③]
[③a]
[③b]
[③c]
[③d]
[③e]
[③g]
[③h]
[④]
[④a]
[④b]
[④c]
[④d]
[④e]
[⑤]
[⑤]]
[⑤a]
[⑤b]
[⑤d]
[⑤e]
[⑤f]
[⑥]
[⑦]
[⑧]
[⑨]
[⑩]
[*]
[-
[]
]
]∧′=[
][
_
a]
b]
c]
e]
f]
ng昉
{
{-
|
}
}>
~
~±
~+
¥
1876
19371949
10
1979
12
理论
研究
实践
评估
模式
引和元
流派
方法
交流
实验
改革
对策
方案
框架
标准
创新
机制
调查
分析
挖掘
技术
价值
室
实施
效果
整理
度量
意义
考
引导
关系
视野
体系
构建
转型
建设
路径
刊行
1901
1945
1918
1917
2016
18721939
1970
2020
06
30
1912
2012
20
201050
系统
概论
整合
过程
重构
研发
之间
发展
自动
探源
目标
网上
动态
35
物
态势
感知
引用
中国
我国
因素
影响
面向
领域
环境
追寻
合作
开发
利用
变革
运行
工作
策略
导向
完善
设计
规则
基础
途径
结构
功能
方式
---
体制
扩展
评价
智能
分布式
企业
语言
社会
需求
当代
中文
测度
人文
升级
共享
调控
效率
网格
成效
网络
配置
检索
共建
推荐
采购
效能
基层
文档
综合
指标
持续
期刊
认证
制度
建立
社科
分类
干部
教育
市场 
社会化
复合
集成
优化
定制
服务
相关
主动
制约
馆藏
历代
主题
发行
现状
信息
历史
总目
编制
接口
人类
变化
各阶层
现代化
面临
挑战
规划
研制
机
条件
战略
论文
特殊性 
发展史
世纪
近现代
两个
文明 
越境
全国
全
群
全文
管理模式
部门
障碍
进程
一体化
文化
采访
收集
法治
可持续性 
经济
真实性
完整性
保证
认定 
载体
含义
组织
工具
认知
内在
能力 
重建 
过滤
业史
相互关系 
管理
启发式
答疑
无人
值守
虚拟
查寻
导航
国内外
解决方案 
效益 
运行机制
优势
功能设计
兼容性
词表
地位
作用 
先进
模型
开放
现行
文件
核心
控制
机理
三级 
考察
都市
城镇
乡村
作用
未来
资本
21世纪
运营
能力
濒危
抢救
应急
为例
激励
公平
绩效
测评     
经济效益 
基础理论
政策
若干
前沿
传统
支撑
监管
分布
国家
水平
质量
架构
标引
流播
内容
查缉
风险
范式
专题
采集
空间
测定
新
文
叙
状况
上古
三代
秦汉
三国
六朝
事业
测评
调整
保护
史
概念
兼论
现实
扩散
视角
协同
学习
网
推进
分享
性
证
探索
辨识
聚
例外
特色
存储
现存
普查
建构
差距
展望
保存
长期
培养
中多
属性
1909
2009
发育
活动
执行
映射
展示
审查
互动
t
位
档
新型
1927
2015
快乐
测量
变迁
版
化
内存
特征
六十年
背景
动力
式
非
17
18
19
正
重组
提升
发现
应对
型
注
近代
学
揭示
一种
二十
契合
微
信
更新
考证
读
舆
参与
相互
1974
图
圈
南
硬
跨
华
伪
智
段
翻译
流域
原始
驱动
卷及
可行
主流
脑卒中
高
发生
判别
涌现
干预
藏
低
稿
遗
库
级
缺口
责任
俄巴家
再造
抽取
论证
培育
可及
保障
推动
振兴
用于
下多源
注及
搜索
所藏
生成
查询
体验
修
清宫
辑
副
美
省级
市
预测
原因
程度
搜寻
场景
视域
著名
共生
真实
启示
发布
宫藏
识别
传递
交换
宏观
时代
早期
角色
贡献
及适
传播
赠送
共创
助力
法
水
精准
流程
转换
自主
考核
推广中心
原理
深化
1930
1895
1860
1044
2018
道
拉
喜
脱
顾廷龙
代表性
友朋
花儿
谷腾堡
之策
因应
率
调研
下低
实证
研
书
总体
权
入
度
间
泛
云
馆
类
观点
相关性
敏捷
潜在
敏感
密集
投入
行论
年来
构架
防范
特都不发
实证研究
理论研究
发展趋势 
关键技术
社会科学
中英文
指数
规范
物理
沟通
回应
现象
引进
均衡
意图
关切
信任
特定
下微
聚合
战略性
二十一世纪
二元
搜集
习惯
寻求
老学
古代
反思
影响因素
关键
术
弱
语
视阈
国际
提高
状态
远程
r
中外
延伸
人士
宏
改进
学术会议
开发利用
### 停用词表文件下载方法 停用词表自然语言处理任务中非常重要,特别是在文本预处理阶段。以下是几种常见的停用词表资源以及其获取方式: #### 方法一:通过 GitCode 获取 可以访问以下项目地址来下载多种中文停用词表文件[^1]: - **项目地址**: [https://gitcode.com/open-source-toolkit/29de9](https://gitcode.com/open-source-toolkit/29de9) - 提供的文件包括但不限于: - 中文停用词表 (`cn_stopwords.txt`) - 哈工大停用词表 (`hit_stopwords.txt`) - 百度停用词表 (`baidu_stopwords.txt`) - 四川大学机器智能实验室停用词库 (`scu_stopwords.txt`) 可以通过克隆该项目或者直接点击上述链接中的具体文件进在线查看并保存。 --- #### 方法二:通过个人博客提供的资源下载 另一个可选的方式是从博主分享的资源中获取通用的停用词表文件[^2]: - **文件名称**: `stopwords.txt` - 此文件适用于基础 NLP 预处理场景,包含了常用的停止词集合。 - 可以联系原作者或在其博客页面查找具体的下载入口。 --- #### 方法三:通过百度网盘下载综合版停用词表 如果希望一次性获得多个来源的停用词表组合版本,可以选择从百度网盘下载已整理好的数据集[^3]: - **百度网盘地址**: [https://pan.baidu.com/s/1KBkOzYk-wRYaWno6HSOE9g](https://pan.baidu.com/s/1KBkOzYk-wRYaWno6HSOE9g) - **提取码**: `4sm6` 此压缩包内含多份不同机构发布的停用词列表,并经过 Python 合并形成最终统一格式的 `stopword.txt` 文件。 --- ### 使用说明 无论采用哪种途径得到 stopword 表格,在实际应用前需注意清洗和适配目标领域需求。例如某些特定业可能还需要额外补充专属术语作为排除项。 ```python import jieba from collections import Counter def load_stopwords(file_path): with open(file_path, 'r', encoding='utf-8') as f: stopwords = set(f.read().splitlines()) return stopwords def process_text(text, stopwords): words = jieba.lcut(text) filtered_words = [w for w in words if w not in stopwords and w.strip()] word_counts = Counter(filtered_words) return dict(word_counts.most_common()) # 示例调用 file_path = './path/to/cn_stopwords.txt' # 替换为实际路径 text_sample = "这是一个测试样例,用来展示如何加载停用词表并过滤词语。" stopwords_set = load_stopwords(file_path) result = process_text(text_sample, stopwords_set) print(result) ``` 以上脚本展示了如何读取本地存储的停用词文档,并将其应用于一段文字的内容分析过程之中。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

灵海之森

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值