MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering

最新推荐文章于 2025-07-03 19:05:15 发布

UnknownBody

最新推荐文章于 2025-07-03 19:05:15 发布

阅读量123

点赞数

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM for Medical 文章标签：语言模型人工智能大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/141258344

LLM Daily 同时被 2 个专栏收录

1320 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

LLM for Medical

56 篇文章

订阅专栏

本文是LLM系列文章，针对《MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering》的翻译。

MedExpQA：用于医学问答的大型语言模型的多语言基准测试

摘要
1 引言
2 相关工作
3 材料和方法
4 MedExpQA：医疗质量保证的新多语言基准
5 实验设置
6 结果
7 讨论
8 结束语

摘要

大型语言模型（LLMs）有可能促进人工智能技术的发展，以协助医学专家提供交互式决策支持。LLM在医学问答方面取得的最先进的成绩证明了这一潜力，取得了令人瞩目的成绩，例如在执照医学考试中取得了及格成绩。然而，尽管令人印象深刻，但医疗应用所需的质量标准仍远未达到。目前，LLM仍然受到过时知识和产生幻觉内容倾向的挑战。此外，大多数评估医学知识的基准缺乏参考金解释，这意味着无法评估LLM预测的推理。最后，如果我们考虑对英语以外的语言进行LLM基准测试，情况尤其严峻，据我们所知，英语仍然是一个完全被忽视的话题。为了解决这些缺点，本文提出了MedExpQA，这是第一个基于医学考试的多语言基准，用于评估医学问答中的LLM。据我们所知，MedExpQA首次包含了由医生撰写的关于考试中正确和不正确选项的黄金参考解释。使用黄金参考解释和检索增强生成（RAG）方法进行的全面多语言实验表明，LLM的性能仍有很大的改进空间，英语的最佳结果约为75分，特别是对于英语以外的语言，其准确率下降了10分。因此，尽管使用了最先

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。