知识表示学习与知识引导的自然语言处理

立即解锁

发布时间: 2025-09-04 00:51:33 阅读量: 6 订阅数: 17

自然语言处理的表示学习

### 知识表示学习与知识引导的自然语言处理 #### 1. 引言知识是人类智能的重要特征，反映了人类语言的复杂性。自 1956 年达特茅斯人工智能夏季研究项目以来，知识在自然语言处理（NLP）的发展历程中扮演了重要角色。早期受数学逻辑和语言学影响，NLP 研究主要探索符号知识表示，利用符号系统让机器理解和推理语言。但符号表示存在泛化和覆盖问题，20 世纪 90 年代起，数据驱动方法广泛应用于分布式表示人类知识。2010 年后，深度学习兴起，分布式知识表示从浅层向深层发展，为利用知识理解复杂语义提供了强大工具。为实现更好的语言理解，需充分利用知识。下面介绍组织和利用知识的通用框架，包括知识表示学习、知识引导的 NLP 和知识获取。知识表示学习旨在将符号知识编码为分布式表示，使机器更易获取知识；知识引导的 NLP 利用知识表示改进 NLP 模型；基于知识引导的模型，可进行知识获取，从文本中提取更多知识丰富现有知识系统。在现实世界中，人们组织了多种知识，如世界知识、语言知识、常识知识和领域知识。这里以世界知识为例介绍知识框架，因其定义明确且具有普遍性。 #### 2. 符号知识与模型知识在详细介绍知识表示学习、知识引导的 NLP 和知识获取框架前，先了解组织知识的有效系统。 ##### 2.1 符号知识 20 世纪 50 - 70 年代，NLP 主要致力于符号计算系统。1956 年，Allen Newell 和 Herbert A. Simon 编写了首个能进行自动推理的 AI 程序 Logic Theorist，可证明 Bertrand Russell 在《数学原理》中前 52 个定理中的 38 个。同期，Noam Chomsky 提出句法结构和转换语法，用精确数学符号的形式语言驱动自然语言的机器处理。受其启发，Herbert A. Simon 和 John McCarthy 分别开发了信息处理语言（IPL）和列表处理语言（LISP），支持机器智能的计算机编程。由于逻辑和语法规则难以解决实际场景中的复杂多样问题，早期从符号系统推导通用智能的方向陷入瓶颈。70 年代后，研究人员转向为特定应用设计领域特定的智能系统，代表性的是 Edward Feigenbaum 发起的专家系统。专家系统由知识库（KB）和推理引擎组成，知识库存储大量人类知识，推理引擎利用知识库中的专业知识和规则解决特定问题。与早期基于数学系统的 AI 方法相比，专家系统在商业和医学等实际领域表现良好。80 年代，Edward Feigenbaum 提出知识工程，强调知识获取、表示和应用对机器智能的重要性。受其启发，出现了各种知识库，如常识库 Cyc 和语义网。专家系统最显著的成就是 IBM 开发的 Watson 系统，它在问答节目 Jeopardy 中击败了两名人类选手，展示了富含知识的知识库的潜在有效性。 21 世纪，互联网繁荣，知识转移到网络上的半结构化文本信息中。但由于信息爆炸，从互联网上大量嘈杂的纯文本中提取所需知识并非易事。2012 年，Google 提出知识图谱（KGs）的概念，它将现实世界中具体和抽象实体的结构化多关系数据进行排列，可视为图结构的知识库。知识图谱不仅能用字符串等传统形式描述世界知识，还从实体和关系的角度提供了组织世界知识的新工具，适合组织网络语料库中存储的大量知识以实现快速知识检索，近年来其构建蓬勃发展，受到学术界和工业界的广泛关注。知识图谱通常借助手动注释从资源描述框架（RDF）中的现有语义网数据集构建，也可通过从网络上的大量纯文本中提取知识自动丰富。一个典型的知识图谱包含实体和关系两个元素，现实世界中的具体对象和抽象概念定义为实体，实体间的复杂关联定义为关系。知识通常以三元组 ⟨头实体, 关系, 尾实体⟩ 形式表示，如 ⟨《百万英镑》, 作者, 马克·吐温⟩。由于结构良好，知识图谱广泛应用于各种应用中以提高系统性能。目前在 NLP 中广泛使用的知识图谱有 Freebase、DBpedia、YAGO 和 Wikidata 等，特定领域也有许多较小的知识图谱，其知识可用于特定领域任务。以下是符号知识系统的发展历程表格： | 时间 | 事件 | | ---- | ---- | | 1956 年 | Allen Newell 和 Herbert A. Simon 编写 Logic Theorist | | 同期 | Noam Chomsky 提出句法结构和转换语法 | | 70 年代后 | 专家系统兴起 | | 80 年代 | Edward Feigenbaum 提出知识工程 | | 2006 年 | 语义网发展 | | 2011 年 | IBM Watson 系统出现 | | 2012 年 | Google 提出知识图谱概念 | ##### 2.2 模型知识语法规则、专家系统甚至知识图谱等符号知识系统的痛点之一是泛化能力弱，且难以用机器擅长的数值计算操作处理符号知识。因此，建立基于数值计算且泛化能力强的知识框架对自然语言处理很重要。20 世纪 90 年代后，统计学习广泛应用，如支持向量机、决策树、条件随机场等。这些数据驱动的统计学习方法可从数据中获取知识，用数值特征隐式描述知识，用概率模型隐式表示知识背后的规则，并基于概率计

最低0.47元/天解锁专栏

赠100次下载

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

知识表示学习与知识引导的自然语言处理

相关推荐

专栏目录

知识表示学习与知识引导的自然语言处理

相关推荐

深度学习与自然语言处理.pdf

大型语言模型与知识图谱统一：综述与发展路线图

深度学习在自然语言处理中的应用.docx

自然语言处理

知识图谱与自然语言处理_基于预训练模型与语义解析的中文知识库问答系统_包含大规模百科知识库与问答数据集的中文KBQA测评基准_用于促进中文知识图谱问答领域的研究发展与应用实践_支持.zip

人工智能-机器学习-面向自然语言处理的深度学习基础

智能客服_自然语言处理知识图谱语音图像数据采集王巍巍.pdf

自然语言处理1

统计自然语言处理

AI人工智能-NLP技术-自然语言处理技术分享 自然语言处理之序列模型 第01课_自然语言处理概论 共53页.pptx

记录一个Vue项目的特殊浏览器回退

perl-parent-1:0.237-1.el8.tar.gz

专栏目录

最新推荐

前端交互效果与Perl服务器安装指南

碳纳米管在摩擦学应用中的最新进展

数据处理与自然语言编码技术详解

人工智能的组织、社会和伦理影响管理

数据提取与处理：字符、字节和字段的解析

Web开发实用技巧与Perl服务器安装使用指南

Rails微帖操作与图片处理全解析

分形分析与随机微分方程：理论与应用

零售销售数据的探索性分析与DeepAR模型预测

编程挑战：uniq与findr实现解析

AI人工智能-NLP技术-自然语言处理技术分享自然语言处理之序列模型第01课_自然语言处理概论共53页.pptx