知识表示学习与知识引导的自然语言处理
立即解锁
发布时间: 2025-09-04 00:51:33 阅读量: 6 订阅数: 17 AIGC 


自然语言处理的表示学习
### 知识表示学习与知识引导的自然语言处理
#### 1. 引言
知识是人类智能的重要特征,反映了人类语言的复杂性。自 1956 年达特茅斯人工智能夏季研究项目以来,知识在自然语言处理(NLP)的发展历程中扮演了重要角色。早期受数学逻辑和语言学影响,NLP 研究主要探索符号知识表示,利用符号系统让机器理解和推理语言。但符号表示存在泛化和覆盖问题,20 世纪 90 年代起,数据驱动方法广泛应用于分布式表示人类知识。2010 年后,深度学习兴起,分布式知识表示从浅层向深层发展,为利用知识理解复杂语义提供了强大工具。
为实现更好的语言理解,需充分利用知识。下面介绍组织和利用知识的通用框架,包括知识表示学习、知识引导的 NLP 和知识获取。知识表示学习旨在将符号知识编码为分布式表示,使机器更易获取知识;知识引导的 NLP 利用知识表示改进 NLP 模型;基于知识引导的模型,可进行知识获取,从文本中提取更多知识丰富现有知识系统。
在现实世界中,人们组织了多种知识,如世界知识、语言知识、常识知识和领域知识。这里以世界知识为例介绍知识框架,因其定义明确且具有普遍性。
#### 2. 符号知识与模型知识
在详细介绍知识表示学习、知识引导的 NLP 和知识获取框架前,先了解组织知识的有效系统。
##### 2.1 符号知识
20 世纪 50 - 70 年代,NLP 主要致力于符号计算系统。1956 年,Allen Newell 和 Herbert A. Simon 编写了首个能进行自动推理的 AI 程序 Logic Theorist,可证明 Bertrand Russell 在《数学原理》中前 52 个定理中的 38 个。同期,Noam Chomsky 提出句法结构和转换语法,用精确数学符号的形式语言驱动自然语言的机器处理。受其启发,Herbert A. Simon 和 John McCarthy 分别开发了信息处理语言(IPL)和列表处理语言(LISP),支持机器智能的计算机编程。
由于逻辑和语法规则难以解决实际场景中的复杂多样问题,早期从符号系统推导通用智能的方向陷入瓶颈。70 年代后,研究人员转向为特定应用设计领域特定的智能系统,代表性的是 Edward Feigenbaum 发起的专家系统。专家系统由知识库(KB)和推理引擎组成,知识库存储大量人类知识,推理引擎利用知识库中的专业知识和规则解决特定问题。
与早期基于数学系统的 AI 方法相比,专家系统在商业和医学等实际领域表现良好。80 年代,Edward Feigenbaum 提出知识工程,强调知识获取、表示和应用对机器智能的重要性。受其启发,出现了各种知识库,如常识库 Cyc 和语义网。专家系统最显著的成就是 IBM 开发的 Watson 系统,它在问答节目 Jeopardy 中击败了两名人类选手,展示了富含知识的知识库的潜在有效性。
21 世纪,互联网繁荣,知识转移到网络上的半结构化文本信息中。但由于信息爆炸,从互联网上大量嘈杂的纯文本中提取所需知识并非易事。2012 年,Google 提出知识图谱(KGs)的概念,它将现实世界中具体和抽象实体的结构化多关系数据进行排列,可视为图结构的知识库。知识图谱不仅能用字符串等传统形式描述世界知识,还从实体和关系的角度提供了组织世界知识的新工具,适合组织网络语料库中存储的大量知识以实现快速知识检索,近年来其构建蓬勃发展,受到学术界和工业界的广泛关注。
知识图谱通常借助手动注释从资源描述框架(RDF)中的现有语义网数据集构建,也可通过从网络上的大量纯文本中提取知识自动丰富。一个典型的知识图谱包含实体和关系两个元素,现实世界中的具体对象和抽象概念定义为实体,实体间的复杂关联定义为关系。知识通常以三元组 ⟨头实体, 关系, 尾实体⟩ 形式表示,如 ⟨《百万英镑》, 作者, 马克·吐温⟩。由于结构良好,知识图谱广泛应用于各种应用中以提高系统性能。目前在 NLP 中广泛使用的知识图谱有 Freebase、DBpedia、YAGO 和 Wikidata 等,特定领域也有许多较小的知识图谱,其知识可用于特定领域任务。
以下是符号知识系统的发展历程表格:
| 时间 | 事件 |
| ---- | ---- |
| 1956 年 | Allen Newell 和 Herbert A. Simon 编写 Logic Theorist |
| 同期 | Noam Chomsky 提出句法结构和转换语法 |
| 70 年代后 | 专家系统兴起 |
| 80 年代 | Edward Feigenbaum 提出知识工程 |
| 2006 年 | 语义网发展 |
| 2011 年 | IBM Watson 系统出现 |
| 2012 年 | Google 提出知识图谱概念 |
##### 2.2 模型知识
语法规则、专家系统甚至知识图谱等符号知识系统的痛点之一是泛化能力弱,且难以用机器擅长的数值计算操作处理符号知识。因此,建立基于数值计算且泛化能力强的知识框架对自然语言处理很重要。20 世纪 90 年代后,统计学习广泛应用,如支持向量机、决策树、条件随机场等。这些数据驱动的统计学习方法可从数据中获取知识,用数值特征隐式描述知识,用概率模型隐式表示知识背后的规则,并基于概率计
0
0
复制全文
相关推荐










