农业与对话推荐系统的前沿研究进展
1. 农业领域的命名实体识别数据集AgriNER
在农业领域,大量的学术文献产生了海量相关数据。为了从这些数据中获取尽可能多的相关信息,需要提取其上下文和含义。语义网技术可以为数据提供上下文和含义,而命名实体识别(NER)系统有助于提取命名实体以及实体之间的关系。这些实体和关系可用于构建知识图谱(KG),并使用资源描述框架(RDF)进行存储,通过SPARQL进行查询。
1.1 研究背景与贡献
农业研究论文包含了该领域的最新进展信息,但由于论文数量庞大且信息非结构化,从业者(包括科学家和农民)并不总是能轻松获取这些信息。农业行业、研究人员、食品加工公司等许多组织需要提取作物名称、农药、影响植物生长的因素等实体及其关系,以做出有用的战略决策。
目前已有一些农业领域的NER研究,但存在一定局限性。例如,Malarkodi等人提出了19种农业领域的实体类型,但未涵盖农业的许多重要方面,且语料库未公开;Lun等人仅关注4种实体类型,且局限于中文农业网站;Gangadharan等人仅处理3种实体类型,且仅使用印度农业网站;Liu等人处理6种实体类型,使用10种典型园艺期刊的文章摘要。
相比之下,本研究提出了一个包含36种实体类型和9种关系的NER数据集,具体贡献如下:
- 引入了一个包含36个有用农业领域实体的细粒度标签集。
- 引入了9种实体之间的关系,包括对称和非对称关系。
- 引入了一个使用上述标签进行完全注释的公开可用语料库,该语料库可在GitHub上获取。
1.2 实体和关系的分类体系
数据集基于农业研究论文的摘要构建。经过对摘要的