生物医学知识表示学习:知识引导的NLP方法与应用
立即解锁
发布时间: 2025-09-03 02:02:05 阅读量: 7 订阅数: 28 AIGC 


自然语言处理的表示学习
# 生物医学知识表示学习:知识引导的NLP方法与应用
## 1. 生物医学数据处理与趋势
生物医学待处理的数据形式多样,主要包括分子图像、医学磁共振图像等可在一定程度上由人工智能系统自动处理的数据,以及连续监测的健康数据等需用适应生物医学领域的自然语言处理(NLP)方法处理的数据。深度学习方法在处理这些数据方面已取得了令人满意的效果。为了深入理解和精确捕捉生物医学知识,对各种材料进行自适应和通用处理将逐渐成为生物医学NLP研究的趋势。
## 2. 知识引导的生物医学NLP方法
### 2.1 输入增强
为了用生物医学知识引导神经网络,可直接将知识作为系统的输入增强。知识来源多样,主流来源是生物医学知识图谱(KG),它以结构化形式组织人类知识和事实;此外,知识还可能来自语言规则、实验结果和其他非结构化记录。输入增强的关键在于选择有用信息、进行编码并将其与处理输入融合。
- **编码知识图谱信息**:专业知识图谱中的信息质量高,适合指导下游任务的模型。例如:
- 借助知识图谱改进词嵌入,基于图卷积网络(GCN)的图表示学习方法可根据生物医学知识图谱为链接预测任务获得更好的初始化嵌入。
- 用知识增强输入,如混合Transformer模型可同时编码标记序列和三元组序列,并将知识融入原始文本。
- 通过额外模块挂载知识,如基于图的网络对知识图谱子图进行编码,以辅助生物医学事件提取。
- **编码其他信息**:除知识图谱信息外,句法信息等其他类型的知识也被证明是有用的。句法信息虽不属于生物医学专家知识,但可作为增强输入,帮助更好地分析句子、识别实体等。对于非文本材料处理任务,实验验证的先验知识(如蛋白质和基因相互作用)也很重要,可将其与原始输入物质连接以获得表示,体现输入增强的有效性。总体而言,引入额外知识通常对性能无害,但需要通过人类经验或自动过滤来判断知识是否与特定任务相关且有用。
### 2.2 架构重构
人类的先验知识有时会反映在模型架构的设计中,这在处理特定领域材料时尤为重要,因为主流模型通常是为通用材料设计的,与生物医学物质可能存在显著差异。以下是两个具体例子:
- **Enformer**:是适用于DNA序列的Transformer框架的改进版本。该模型有两个关键设计有助于更好地捕捉超长基因序列中的低级语义信息,这对高级序列分析至关重要。
- 强调相对位置信息,精心选择相对位置编码基函数,并使用指数、伽马和中心掩码编码的串联。
- 应用卷积层捕捉低级特征,扩大感受野,显著增加模型可看到的相关增强子数量。
- **MSA Transformer**:受AlphaFold中多序列比对(MSA)信息重要性的启发而提出,用于处理多个蛋白质序列。普通Transformer对每个序列单独进行注意力计算,而同一蛋白质家族的不同序列共享包括共同进化信号在内的信息。MSA Transformer引入了与每个序列的行注意力对应的列注意力,并通过跨不同蛋白质家族的掩码语言建模变体进行训练。实验结果表明,与仅处理单个序列相比,MSA Transformer的性能明显更好,成为处理蛋白质序列的基本范式。
### 2.3 目标正则化
从额外知识中形式化新任务可以改变模型的优化目标,引导模型更好地完成目标任务。在生物医学领域,有许多现成的任务可用于目标正则化,通常在下游适应期进行多任务训练,也有研究人员在预训练期探索目标正则化。
- **多任务适应**:引入的多个任务可以与目标任务相同或略有不同。对于相同任务,通常会收集多个数据集(可能分布不同或语言
0
0
复制全文
相关推荐










