spark + ansj 对大数据量中文进行分词

最新推荐文章于 2022-06-01 15:12:18 发布

原创

最新推荐文章于 2022-06-01 15:12:18 发布 · 2.5k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#spark #Ansj #中文分词 #序列化

本文要解决的问题：

实现将Spark与中文分词源码（Ansj）相结合，进行一系列中文分词操作。

目前的分词器大部分都是单机服务器进行分词，或者使用hadoop mapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢，相对spark来说代码书写较繁琐。本文使用 spark + ansj对存储在hdfs中的中文文本数据进行分词。

首先下载ansj源码文件，下载地址为https://github.com/NLPchina/ansj_seg，同时需要下载nlp-lang.jar包，下载地址上述网站中可以看到。由于spark传输数据必须进行序列化，而ansj中的属性类都没有实现序列化，需要将ansj_seg-master/src/main/java/org/ansj/domain中的属性类AnsjItem、Nature、 NewWord、NumNatureAttr、PersonNatureAttr、Term、TermNature、TermNatures分别实现 Serializable接口。然后使用maven的mvn install生成ansj_seg-2.0.8.jar包，将编译的ansj_seg-2.0.8.jar包和之前下载的nlp-lang-0.3.jar包加入到spark依赖中，spark便可对hdfs中的文本进行分词。另外，将序列化后编译的jar上传至csdn，可以直接下载使用。

实例如下：

import org.apache.spark.SparkContext
import org.ansj.domain.Term
import org.ansj.splitWord.analysis.ToAnal

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sbq63683210

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

spark+ansj中文分词

vasonyang随记

12-18

1203

我是在win10中创建的maven项目，使用的是ansj _seg 5.1.6版本 https://github.com/NLPchina/ansj_seg <dependency> <groupId>org.ansj</groupId> <artifactId>ansj_seg&...

spark ansj中文分词

cxy__s的博客

10-24

520

基于java的中文分词工具ansj，提供了多种模式，而ansj的一个优势是可以能够添加用户自定义辞典 import org.ansj.splitWord.analysis._ import org.ansj.recognition.impl.StopRecognition import org.ansj.library.DicLibrary 第一个是导入ansj分词库；第二个导入停用...

参与评论您还未登录，请先登录后发表或查看评论

Spark + ansj 对大数据量中文进行分词

wangqiaowqo的专栏

03-02

229

1、参考 http://www.open-open.com/lib/view/1432542541707 Spark + ansj 对大数据量中文进行分词

Spark 使用ansj进行中文分词

diusha19920117的博客

12-08

362

在Spark中使用ansj分词先要将ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程 ansj源码github：https://github.com/NLPchina/ansj_seg ansj下载链接：https://oss.sonatype.org/content/repositories/releases/org/ansj/ansj_seg/ ...

spark scala 用ansj分词

oZincO的博客

04-15

4672

本文编辑于2017.4.15，使用ansj最新的版本5.1.1分词先要将ansj_seg-5.1.1.jar和nlp-lang-1.7.2.jar加入工程 ansj源码github：https://github.com/NLPchina/ansj_seg ansj下载链接：https://oss.sonatype.org/content/repositories/releases/org/

ansj中文分词工具

08-20

5. **大数据处理**：对于海量文本数据，ansj可以与Hadoop、Spark等大数据框架结合，实现分布式分词，提高处理能力。 **四、使用示例** 在Java工程中使用ansj通常包括以下步骤： 1. 引入ansj的jar包依赖。 2. 创建`...

最新发布

06-04

好的，我现在需要解决用户的问题，使用SparkSQL和ANSJ分词器来分析岗位要求中的技能，并统计次数后存入MySQL。首先，我得仔细理解任务要求。用户提供的代码框架是Java，所以需要用Spark的JavaAPI来处理。任务分为几...

Java Spark ML实现的文本分类

马伟明的博客

06-01

1264

使用Java Spark ML实现的文本分类

分词工具的实时处理与大规模数据支持

分词工具就是用来实现这一任务的软件工具，它能够有效地将输入的文本进行分词处理，为后续的文本分析和信息提取提供基础支持。 ## 1.2 分词工具在文本处理中的重要性分词是文本处理的基础步骤，对于很多NLP任务来...

使用Spark、Ansj分词进行词频统计

D578781015的博客

08-25

3469

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦： Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传 LaTex数学公式 UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl

IK分词器通过spark加载词典，并在spark中使用

01-08

IK分词器通过spark加载词典，并在spark中使用

Spark大数据中文分词统计Scala语言工程源码

08-20

参考网络资源使用IKAnalyzer分词组件，实现了在Spark框架下使用Scala语言对唐诗宋词等国学经典进行中文分词统计排序的功能，你可以轻松发现唐诗宋词中最常用的词是那几个。

使用spark 对文本分词统计

08-10

NULL 博文链接：https://xiaofancn.iteye.com/blog/2205024

spark分词工具

weixin_40901056的博客

04-17

1549

分词工具调研一、背景调研了两种分词工具： Ansj：https://github.com/NLPchina/ansj_seg HanLP（https://github.com/hankcs/HanLP#7-极速词典分词）最终选择了HanLP 二、Ansj 利用DicAnalysis可以自定义词库： val forest = DicLibrary.get() if(forest ...

Spark 中文分词

weixin_33910460的博客

02-12

1120

Spark 中文分词 一、导入需要的分词包 import org.ansj.domain.Term import org.ansj.recognition.impl.StopRecognition import org.ansj.splitWord.analysis.ToAnalysis 二、停用词过滤 def filter(stopWords: Array[String]): StopRecog...

sparkmllib算法之特征转换-第一篇（分词器）

03-16

484

0、分词器分词是将文本（例如句子）分解为单个术语（通常是单词）的过程。一个简单的 Tokenizer类提供此功能。下面的示例显示了如何将句子拆分为单词序列。RegexTokenizer 允许基于正则表达式（正则表达式）匹配的更高级标记化。默认情况下，参数“pattern”（正则表达式，默认值:) "\\s+"用作分隔符以分割输入文本。或者，用户可以将参数“gap”设置为 false，指示正则表...

【Spark学习笔记】Spark下的四种中文分词工具

不可能打工的博客

06-24

1003

1. Spark下四种中文分词工具使用 hanLP ansj jieba fudannlp 2. 获取四种分词工具在maven 项目工程下的 pom.xml文件中添加点击import即可完成对前三种的获取 <dependency> <groupId>org.ansj</groupId> <artifactI...

Hanlp分词器(通过spark)

li1579026891的博客

01-10

1902

这里主要是对内容数据进行标签处理这里我们是用分词器是HanLP HanLP是哈工大提供的一种中文分词的工具，因为他支持Java API 这里我们使用spark + hanlp进行中文分词 1、准备工作 ##1. 在hdfs创建目录用于存放hanlp的数据 [root@hadoop ~]# hdfs dfs -mkdir -p /common/nlp/data ##2. 将hanlp的工具上传到服务器的指定位置 ##3. 解压到当前目录 [root@hadoop soft]# tar -zxvf ha.

【pyspark】jieba 中文分词

baibaiw5的博客

03-21

7327

：

掌握ansj_seg-master：中文分词工具包

- 条件随机场（CRF）：一种判别式概率模型，能够对序列化数据进行标注，通常用于分词中的词性标注。 #### 4. ansj的特点 - **准确性**：提供了多种算法，用户可以根据自己的需求选择最适合的分词方式。 - **可扩展...