### 基于深度神经网络的临床记录ICD自动编码方法
#### 一、引言与背景
国际疾病分类(International Classification of Diseases, ICD)是世界卫生组织制定的一种标准化编码系统,旨在对疾病和健康状况进行分类。随着ICD编码数量的增加,基于临床记录的人工编码工作面临着越来越大的挑战,包括成本上升、准确性下降等问题。因此,自动ICD编码技术成为当前研究的热点之一。
本研究提出了一种基于多尺度残差图卷积网络的自动ICD编码方法,旨在解决临床记录中自动编码面临的两个主要挑战:第一,临床记录文本长度不一,其中只有部分片段与特定ICD编码相关;第二,ICD编码的标签空间庞大,存在严重的标签不平衡问题。
#### 二、关键技术点
##### 2.1 多尺度残差网络
传统的自动编码技术大多使用单一的卷积核大小进行特征提取,这种方式可能无法有效捕捉到不同长度的文本模式。为此,本研究采用了多尺度残差网络。该网络能够抽取不同跨度的文本片段特征,同时通过残差连接扩大感受野,从而更好地捕捉临床记录中与特定ICD编码相关的文本片段。
##### 2.2 图卷积神经网络
考虑到ICD编码的层级结构,本研究还引入了图卷积神经网络(Graph Convolutional Network, GCN)来抽取出标签之间的依赖关系。通过建立标签间的图结构,GCN能够有效地利用标签间的关系,缓解标签分布不平衡的问题,进而提高模型的泛化能力和编码精度。
#### 三、模型架构及原理
本研究提出的模型主要包括两个核心组件:多尺度残差网络和图卷积神经网络。
1. **多尺度残差网络**:该网络由多个残差块组成,每个残差块内包含多个不同大小的卷积核。这种设计使得网络不仅能够捕捉到不同长度的文本特征,还能通过残差连接保持信息流的连续性,避免梯度消失问题。
2. **图卷积神经网络**:首先构建一个标签图,其中节点代表ICD编码,边表示编码之间的相似性或相关性。然后,通过图卷积操作在网络中传播信息,增强相关编码之间的联系,减少孤立编码的影响,从而改善标签不平衡的问题。
#### 四、实验结果与分析
为了验证所提方法的有效性,研究者们在MIMIC-III数据集上进行了实验。MIMIC-III是一个大型的、公开的ICU医疗记录数据集,包含了丰富的临床信息和超过8900种不同的ICD编码。
实验结果显示,该方法在MIMIC-III数据集上的性能优于现有的自动编码技术,其P@k(精确率@k)和Micro-F1得分分别为72.2%和53.9%。这表明所提出的模型能够更准确地识别和编码临床记录中的疾病信息。
#### 五、讨论
本研究所提出的基于多尺度残差图卷积网络的自动ICD编码方法具有较高的实用价值。通过对临床记录中不同长度文本片段的捕捉以及标签间关系的有效利用,该方法不仅提高了自动编码的准确性,也解决了标签不平衡这一难题。未来的研究方向可以进一步优化网络结构,探索更多样化的特征融合策略,以及将这种方法应用于其他类型的临床文档,以期获得更广泛的应用价值。
基于多尺度残差图卷积网络的自动ICD编码方法为临床记录的自动编码提供了一种高效、准确的新途径,对于提高医疗服务质量和效率具有重要意义。