2025年8月,阿里巴巴集团宣布开源其最新医疗多模态大模型 灵枢(Lingshu),在医学图像与文本联合推理任务中表现显著超越GPT-4.1和Claude Sonnet 4。该模型支持12类医学影像(如CT、MRI、皮肤镜等),并提供 Lingshu-7B 和 Lingshu-32B 两个版本,为医疗AI开发提供了高精度、低成本的解决方案。
灵枢的核心能力:多模态医疗推理新标杆
1. 多模态融合:覆盖12种医学影像
灵枢通过统一架构处理以下医学影像:
- 传统影像:X光、CT、MRI、超声
- 专科影像:皮肤镜、眼底OCT、内窥镜、PET
- 病理与显微:组织病理学切片、数码摄影
技术亮点:
- 跨模态对齐:通过多模态Transformer将文本描述与影像特征深度融合,解决“影像-报告”不匹配问题。
- 细节感知:针对医学影