自然语言处理:NLTK文本分析实战
1. 上下文搜索与同义词查找
在NLTK中,除了常规的单词搜索,还可以进行上下文搜索。上下文搜索即查找目标单词的前一个和后一个单词。可以使用 common_contexts()
函数来实现这一功能。
text.common_contexts(['Stage'])
输出结果如下:
the_ bloody_: the_,
理解了NLTK在搜索时对单词及其上下文的概念后,就很容易理解同义词的概念。即具有相同上下文的所有单词都可能是同义词。要搜索与被搜索单词具有相同上下文的所有单词,可以使用 similar()
函数。
text.similar('Stage')
输出结果如下:
fogge ayre bleeding reuolt good shew heeles skie other sea feare
consequence heart braine seruice herbenger lady round deed doore
这些搜索方法对于不熟悉文本处理和分析的人来说可能有些奇怪,但它们非常适合分析文本中单词的含义。
2. 单词频率分析
文本分析中最简单和最基本的示例之一是计算文本中单词的频率。NLTK