1,文本纠错(query纠错),可用于爬取的新闻资讯等进行预处理,去掉错别字、可用于搜索业务中query词纠错、可用于对话中的智能改错。中文相关的纠错paper
两个指标:过纠率(FAR,也就误报率),召回率
过纠率:正确的句子被改错的比率(FAR=正确句子被错纠的个数/正确句子个数);召回率:错误的句子被全部纠正的比率。较大的过纠率将会对系统和用户体验带来负面效果。因而,纠对句子数量远远大于被改错句子的数量,如果句子出错概率是K,则K*RECALL>>(1-K)*FAR。
github1,并不是说有了huggingface就可以拿来用,关键是在此基础上进行修改和设计模型,fine-tune,这才是水平和能力。
from transformers import pipeline
unmasker = pipeline('fill-mask', model=