文章主要内容总结
该研究旨在评估具有推理能力的大型语言模型(LLMs)在层级化临床文档分类(特别是ICD-10编码)中的表现,以探索其辅助临床编码的潜力。
- 研究背景:ICD-10编码是医疗运营的核心任务,但人工编码耗时且易出错。LLMs有望自动化该过程,但其可靠性和推理能力尚未明确。
- 研究目标:对比推理型与非推理型LLMs在ICD-10层级分类中的表现,评估结构化推理对模型性能的影响。
- 研究方法:
- 数据集:选取MIMIC-IV数据集中1500份出院小结,涵盖10个最频繁的ICD-10代码,平衡成本与规模。
- 预处理:使用临床NLP工具cTAKES提取医疗相关概念(如疾病、症状),精简输入文本。
- 模型与评估:测试11个LLM(5个推理型,6个非推理型),采用标准化提示模拟临床编码场景,通过F1分数在ICD-10的3、4、5级(从泛化到具体)评估“主要诊断”和“所有诊断”任务。
- 关键结果:
- 所有模型的F1分数均未超过57%,推理型模型平均表现优于非推理型