
出品 | AI科技大本营(ID:rgznai100)中文分词和词性标注是中文自然语言处理的两个基本任务。尽管以BERT为代表的预训练模型大行其道,但事实上,中文中基于全词覆盖 (whole word masking)的预训练模型比直接使用单字编码的效果更好,所以引入词信息可能会达到更好的效果。 同时,尤其在工业场景对分词有非常直接的诉求,比如,虽然字模型对于各种字的编码器能够达到非常好的效果,但是依然无法达到效率和性能的平衡,而且在很多场景下,需要进行人工干预及后处理。当前也没有比较好的一体化解决方案,而且中文分词普遍存在歧义和未登录词的难题。
基于此,创新工场近日公布的两篇论文各自提出了“键-值记忆神经网络的中文分词模型”和“基于双通道注意力机制的分词及词性标注模型”,将外部知识(信息)创造性融入分词及词性标注模型,有效剔除了分词“噪音”误导,大幅度提升了分词及词性标注效果。这两篇论文均聚焦中文分词领域,将该领域近年来广泛使用的各数据集上的分数全部刷至新高。值得一提的是,这两篇论文已被ACL 2020收录。 两篇文章的作者有:华盛顿大学博士研究生、创新工场实习生田元贺,创新工场大湾区人工智能研究院执行院长宋彦,创新工场科研合伙人张潼,创新工场CTO兼人工智能工程院执行院长王咏刚等人。

在媒体沟通会上,宋彦详细解读了两篇论文的内容。
利用记忆神经网络,中文分词性能刷新五大数据集第一篇论文《Improving Chinese Word Segmentation with Wordhood Memory Networks》中,他们提出一个基于键-值记忆神经网络的中文分词模型(WMSeg),该模型使用wordhood记忆神经网络(wordhood memory networks),来更好利用wordhood信息。 论文链接:
https://www.aclweb.org/anthology/2020.acl-main.734.pdf中文分词目的是在中文的字序列中插入分隔符,将其切分为词。例如,“我喜欢音乐”将被切分为“我/喜欢/音乐”(“/”表示分隔符)。 中文语言因其特殊性,在分