语义分析(Semantic Parsing)调研

最新推荐文章于 2025-05-16 22:37:33 发布

置顶

nlp_coder

最新推荐文章于 2025-05-16 22:37:33 发布

阅读量1.4w

点赞数 15

CC 4.0 BY-SA版权

分类专栏： NLP 文章标签： sematic parsing nlp dl

本文链接：https://blog.csdn.net/u013011114/article/details/79703924

本文调研了语义解析（Semantic Parsing）的最新进展，重点关注2015年至2017年间ACL, EMNLP等会议上的论文。研究发现，使用seq-to-seq模型结合Attention-based Copying机制能显著提升模型性能，如在GEO数据集上从74.6提升至85.0。此外，还讨论了如何通过生成更多训练样例和不依赖于标注数据的方法来改进模型，如利用知识库和自然语言的概念联系进行匹配。近年来的趋势包括深度学习模型的应用，如seq-to-seq和Attention机制，以及与符号系统和先验知识的结合。" 107999207,9961673,制作便携版VScode并保持环境同步,"['visual studio code', 'portable', 'settings', 'extensions']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

semantic parsing 调研综述

任务说明

semantic parsing，语义解析，从名称上来说，是一种相对于语法分析级别上更为高层的分析。具体来说，通常指的是将自然语言转换成为机器可以理解的意义表示。这种机器可以理解的意义表示，通常指逻辑形式（Logic Forms）。以下给出一个范例说明：

NL（natural language）: article published in 1950
CF（canonical form）: article whose publication date is 1950
LF（logic form）: get[[lambda,s,[filter,s,pubDate,=,1950]],article]
DT（derivation tree）: s0(np0 (np1 (typenp0), cp0 (relnp0, entitynp0))
DS（derivation seqs）: s0 np0 np1 typenp0 cp0 relnp0 entitynp0

本文调研角度，主要侧重于semantic parsing这个任务的当前进展形式如何，了解在各个常用的实验数据集上的the-state-of-the-art的方法发展等。

调研结果

本文涉及的论文集合主要包含的是2015~2017年在ACL,EMNLP等会议上的文章，其中做了一些筛选，可能有所遗漏。

在所调研的文章中，其中实验使用较广的数据集有：GEO,JOBs,WebQuestions,WebQuestionsSP,WIKITABLEQUESTIONS,OVERNIGHT等。接下来从在从各个数据集上出发，做一个 state-of-the-art的报告:

GEO DATA：89.3
构建更多的训练数据：在Data recombination for neural semantic parsing这篇文章中，基于 seq-to-seq 的 RNN 模型，结合 Attention-based Copying 机制，对应的是将一些可能没有转换规则的word直接输出，而不是再去从softmax 层去获取输出。这一点可以将 RNN-based的方法从74.6提升至85.0。本文更为重要的贡献是从给定的初始训练集中，利用同步上下文文法，以及抽象实体等方式，生成更多的in-domain的训练样例，使得模型获得了提升。
JOBs DATA：90.0
不要手工特征，DL使我 happy：在 Language to logical form with neural attention一文中，作者利用 RNN以及注意力机制构建了seq-to-seq 模型，已经在此基础上构建了一个 tree-decoder，即为 seq-to-tree。其中 seq-to-tree model 获得了在神经网络方法上的state-of-the-art,在此之前，Percy liang（2013）一篇基于DCS-L 的方法拥有更好的性能，但需要一系列手工特征设计。
FREE：79.2
标注，不存在的：Large-scale semantic parsing without question answer pairs。在之前提过的方案中，训练实例是<sentence,logical forms>，这种形式需要的代价往往较大；还有一些人提到的方案面向 question-answer pair，但本文更厉害，连 question-answer 的 pair 都不需要了。基于 Freebase，利用 CCG parser 将输入转为 semantic graph，利用了自然语言与知识库中的概念之间的联系，用该semantic graph去 Freebase 中去进行匹配获取 answer。
WebQuestions 52.5/52.6(ranking)
分级搜索？知识库帮我pruning：在Semantic Parsing via Staged Query Graph Generation: Question Answering with Knowledge Base中，定义query graph 为可以直接从知识库转为 logical form，定义 semantic parsing 的任务为生成 query graph。本文利用 knowledge base 进行预先的实体链指，利用 Deep CNN 来进行 question 和 predicate 的匹配程度计算，获得了当前的 state-of-the-art.
OVER