信息检索与数据挖掘 | (三)模糊检索

本文详细介绍了模糊检索,包括单个通配符查询、一般通配符查询和k-gram索引,并探讨了拼写校正,涉及词项独立的校正方法,如编辑距离和k-gram重合度法,以及上下文敏感的校正方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

📚通配符查询

  • 大爷想查找一个姑娘叫马*梅,但他确实不记得了,只能采用模糊查询
  • 这里的*可以代替任何字符,这种查询叫做通配符查询

🐇单个通配符查询

  • 一个诸如mon*的查询称为尾通配符查询,可以构建一个正向的搜索树,依次按照字符m、o、n从上到下遍历搜索树,直到能列举词典中所有以mon开头的词项集合W为止。
  • 推广尾通配符查询,考虑诸如*mon首通配符查询,此时可以引入词典的反向B树结构。
  • 基于以上,要查找马*梅,可以构造两棵二叉搜索树,一棵存储正向的词项(A),另一棵存储反向的词项(B)。那么我们只需要在A中检索以“马”为前缀的词项集合以及在B中检索以“梅”为前缀的词项集合,然后对这两者取并集即得“马*梅”所对应的所有词项。

🐇一般的通配符查询

  • 如果用户查询的包含多个通配符,基于单个通配符的查询方法就不能完全适用了。这里引入轮排索引

  • 轮排索引
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

啦啦右一

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值