字符串比较与聚类技术详解
1. 大小写恢复与拼写检查
大小写恢复的类工作方式与拼写检查类似,由语言模型指定模型,编辑距离度量指定通道模型。这里的距离度量仅允许大小写变化,即大小写变体成本为零,其他编辑成本设为负无穷。
操作步骤如下:
1. 用古登堡计划的英文文本训练拼写检查器,并使用 CompiledSpellChecker
类的 CASE_RESTORING
编辑距离。
int NGRAM_LENGTH = 5;
NGramProcessLM lm = new NGramProcessLM(NGRAM_LENGTH);
TrainSpellChecker sc = new TrainSpellChecker(lm,CompiledSpellChecker.CASE_RESTORING);
- 调用
bestAlternative
方法获取大小写恢复后的最佳文本估计。
String bestAlternative = csc.didYouMean(query);
2. 自动短语补全
自动短语补全与拼写检查不同,它会在一组固定短语中为用户输入的文本找到最可能的补全。在网络上,如谷歌搜索,自动短语补全非常常见。它在补全的同时还会进行拼写检查,并且提供的是短语建议而非单词建议。
自动补全通常在