对于倒排索引来说,很重要的一件事情就是需要对文本进行分词,经过分词可以获取情感、词性、质性、词频等等的数据。
Elasticsearch 分词工作原理
在 Elasticsearch 中进行行分词的需要经过分析器的3个模块,字符过滤器将文本进行替换或者删除,在由分词器进行拆分成单词,最后由Token过滤器将一些无用语气助词删掉。
英文分词
在Elasticsearch 中共支持5种不同的分词模式,在不同的场景下发挥不同的效果。
standard (过滤标点符号)
GET /_analyze
{
"analyzer": "standard",
"text": "The programmer's holiday is 1024!"