
医疗大模型研发 + 慢病逆转
文章平均质量分 94
致力于打造【个性化用药助手】、【全科专科医务培训助手】、【安全可控稳定兼备全流程精准诊疗】、【多模态】、【单病种智能化管理】、【慢病恢复停药逆转】、【生活方式】的医学大模型
Debroon
AI 医疗深度强化学习AI左右互博算法研究,让天下没有疾病缠身的人生和无法治愈的疾病。
WEB3 投研科学家系统性心得,让天下没有痛苦的创业者和家庭。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
医疗大模型 的 应用优化指南
阿尔茨海默病新药Aducanumab的疗效”“急性ST段抬高型心肌梗死PCI适应症”“3天前发热,昨天出现皮疹,今天关节痛”“血常规+心电图+胸片异常的综合分析”“患者本次住院与上次住院的病情对比”“CAR-T治疗血液肿瘤的最新进展”“胸痛+呼吸困难+D-二聚体升高”“糖尿病肾病的ACE抑制剂应用”“急性ST段抬高型心肌梗死治疗”“65岁男性心房颤动治疗方案”“罕见遗传病XYZ的治疗方案”“心电图报告中的QT间期数值”等等,而非简单的检索+生成。“X光片显示的肺部阴影位置”“生化全套+血常规综合分析”原创 2025-07-22 15:00:22 · 1142 阅读 · 0 评论 -
Gemini、Kimi 超长上下文秘密,100 万超长上下文如何实现?从 Scaling Law 到 超长上下文 的大模型优化
SRAM 是 GPU 的一级缓存(L1 cache)和二级缓存(L2 cache)的基础,它存储计算过程中非常频繁访问的数据,例如某些局部计算结果或重要的计算参数,其速度非常快。这样做的好处是,当计算一个小块时,计算所需要的数据可以更容易地存储在 GPU 的高速缓存(比如 SRAM,计算速度提高 20 倍)中,而不必每次都从内存中读取整个大矩阵。它使得在推理过程中,生成模型能够在每一步的计算中重复利用先前的计算结果,而不需要重新计算整个输入序列的注意力矩阵,从而加速计算和减少内存占用。原创 2025-02-10 16:05:27 · 3894 阅读 · 0 评论 -
如何复现o1模型,打造医疗 o1:大模型自改进(Self-Improve / Revision)、左右互博 Self-Play 思路?
DeepSeek-R1 所谓“慢系统”,本质是让模型自然写出超长推理链 (因为 RL 回合数够多,Reward 主要看最终对错+格式),相当于一种纯后验策略:一边生成 COT,一边计算结果能不能通过,让模型在训练中逐渐形成了“先多想一会再回答”的习惯。与其把更多算力用在“训练/模型规模”上,不如把算力放到“推理时的搜索/迭代过程”上,也许可以在某些(尤其是难度中等或较简单)任务上取得与“大模型+一次性推理”相当的效果。如果没有后续改正机制,最终结果几乎必然出错。如果当前步骤答案是错的,后面的步骤都是错的。原创 2025-01-26 22:05:56 · 1463 阅读 · 0 评论 -
Baichuan-M1:打破SFT模型“问→答“的简单映射,实现从“一步到位“到“逐步探索-验证-决策→再探索“的医疗迭代推理链
让模型生成多样化的推理路径,避免思维定式。医学诊断往往需要考虑多种可能性,不能一开始就锁定某个答案。原创 2025-08-18 11:35:47 · 321 阅读 · 0 评论 -
AI看例子也讲“位置“:前面的例子比后面的例子管用,给AI看的例子放在提示词前面比放在后面效果好20%
QWEN-1.5B在AG News上:ssp(76%) vs eum(56%),相差20个百分点,预测变化率高达45.5%(从sum切换到eum时)因为transformer架构使用因果掩码,后面的token只能"看到"前面的token,而前面的token会影响所有后续位置的计算。AI处理提示词时,会给前面的内容分配更多注意力权重,这导致前面的演示样例对最终输出影响更大。小模型(1.5B-8B):位置敏感性强,ssp/esp明显优于eum。生成任务:位置效应更复杂,大模型有时偏好后置位置。原创 2025-08-04 09:39:56 · 351 阅读 · 0 评论 -
研究者分析了116个健康APP发现,虽然AI技术已经很厉害了,但86%的健康APP还在用最基础的AI功能(比如简单提醒、聊天机器人),真正智能化的APP少得可怜,说明这个市场还有巨大发展空间。
这个研究告诉我们:现在大部分健康APP的AI功能都很初级,就像用大炮打蚊子,明明有很厉害的AI技术,却只用来做最基础的事情。市场上缺少真正智能化的健康APP,这是个巨大的商机!成功健康App的关键在于精准匹配用户确定性需求与AI信息处理能力用户在健康领域优先需要"掌控感"而非"便利性",AI应赋能用户而非替代用户需求有层次性(确定性→便利性→智能化),技术应分阶段匹配设计分层级信息透明化功能,用AI优化信息处理而非决策制定。原创 2025-08-04 08:54:21 · 655 阅读 · 0 评论 -
大模型幻觉的本质:深度=逻辑层次,宽度=组合限制,深度为n的神经网络最多只能处理n层逻辑推理,宽度为w的网络无法区分超过w+1个复杂对象的组合
当遇到超出能力的复杂逻辑时,它就用已知的简单逻辑"拼凑"答案,就像不认识字的人看图说话,会编出似是而非的故事。:应该开发"专科化"的AI,比如专门处理心血管逻辑的AI、专门处理神经系统逻辑的AI,而不是追求"全科万能"。:需要多层嵌套推理,比如"症状A+症状B→可能疾病C,但如果还有症状D,则排除疾病C,考虑疾病E"。:是的,这是典型的高阶逻辑推理,需要同时处理多个条件的复杂组合,超出了论文描述的网络深度限制。:罕见病往往需要精确识别"症状组合的独特性",这需要高精度的逻辑区分能力,正是AI的薄弱环节。原创 2025-08-01 15:07:15 · 1221 阅读 · 0 评论 -
多源知识库建设噩梦:把知识图谱结构化当精密雷达,比文本匹配更准确的多源冲突自动识别技术,解决比数据丢失更可怕的知识矛盾传播
通过图结构操作实现冲突复杂度的精确控制。原创 2025-08-01 11:56:20 · 911 阅读 · 0 评论 -
怎么解决 医疗RAG 多术语,用户口语化表达和知识库专业资料的匹配差异?
❌ 张阿姨的困惑: "我肚子胀,吃不下饭,没劲儿,这是怎么回事?" → 系统返回:一堆不相关的碎片信息→ 患者更困惑: "到底是什么病?我该怎么办?原创 2025-07-25 17:49:12 · 1051 阅读 · 0 评论 -
多模态数据处理系统:用AI读PDF的智能助手系统分析
多模态PDF识别子解法(因为PDF包含图文混合特征) + 锚点文本辅助子解法(因为需要位置信息辅助理解特征) + 文档结构化解析子解法(因为文档存在层级标题结构特征) + 知识图谱三元组抽取子解法(因为需要提取原子事实和关键元素特征) + 并发处理优化子解法(因为多页处理效率特征)双卡 48G 显存可部署,单卡 22 G 只能用 3B多模态模型 + 7B语言模型。这些局限性都直接来源于代码实现,体现了当前系统的技术约束。原创 2025-07-24 17:37:12 · 780 阅读 · 0 评论 -
最强中医大模型,同时解决 AI 不会主动追问 + 多模态融合难题 + 没有参考幻觉问题
诊断准确率提升 60%,多轮问诊准确率 85%,问诊轮次匹配医生91%,治疗建议超GPT-4o 2.3倍,可代替50%初级医生,效率提升 5 倍原创 2025-07-10 10:16:44 · 1208 阅读 · 0 评论 -
将 150 套提示词推理模版微调给大模型,模型自己就能选最佳解题路径
MoR 把“思维路线(Reasoning Path)”由“人类的即时指令”沉淀为“模型的长期记忆”,让 LLM 从遵命执行者升级为“带脑子”的自适应体。再增加到 500 条,对提示依赖更小(IO 准确率 0.734),但未必持续增益,说明策略多而不精可能稀释训练信号。整张图说明:MoR 通过“先批量生成推理模板→再筛选并与真实题目配对→过滤正确答案”这两大阶段,把多样化的推理策略写入模型参数。答1:把多样的推理策略直接“写进”大模型(LLM)的参数里,让模型。答9:衡量“策略多样性”对效果的影响。原创 2025-07-04 16:43:17 · 958 阅读 · 0 评论 -
医学 Agent:自带医学深度调研 deep research,优化治疗策略+药物参考
医疗顾问AI系统 - 基于Qwen API 的智能医疗助手最终目标:构建一个能够查询疾病治疗方案和药物知识的AI医疗顾问系统层层分解:输出结果,居然连不上网========== 医疗顾问AI系统启动 ==========基于Qwen API的智能医疗助手功能:疾病治疗方案查询 + 药物处方建议[1/5] 正在配置系统环境…[2/5] 正在初始化Qwen模型…[3/5] 正在准备医疗工具…[4/5] 正在创建医疗AI代理…[5/5] 系统启动完成,开始医疗咨询…===== 用户咨询: 患者有2原创 2025-06-23 17:18:33 · 764 阅读 · 0 评论 -
rStar-Math:蒙特卡洛搜索增强 LLM 逻辑推理能力
本文提出了一种名为rStar-Math的创新方法,旨在提升小型语言模型(1.5B-7B参数)的数学推理能力。该方法通过结合蒙特卡洛树搜索(MCTS)和代码辅助的多步验证,让小型模型能够进行深度推理。核心创新点包括:1)使用代码执行验证中间推理步骤的准确性;2)开发过程偏好模型(PPM)对推理步骤进行细粒度评估;3)构建多轮自我进化框架,通过迭代训练不断提升模型性能。实验表明,该方法能使7B参数模型在MATH等数学竞赛数据集上取得与更大规模模型相媲美的表现。研究发现小型模型具备自我反思能力,能纠正错误推理路径原创 2025-05-26 15:30:55 · 1248 阅读 · 0 评论 -
链式思维模型可能并非如我们所想,如果中间语义推理可以乱写.....
摘要:本文探讨了链式思维模型(CoT)在大模型中的有效性,特别是中间推理步骤对最终答案准确性的影响。研究通过实验对比了仅答案训练、正确轨迹训练和随机轨迹训练三种方法,发现即使中间推理步骤与问题不匹配,模型性能仍可能提升。这表明中间推理的语义正确性并非模型性能提升的关键因素,而可能是提示工程的作用。研究还指出,模型输出的推理链不一定反映其内部计算过程,警示对模型“自我思考”能力的过度解读。核心发现包括:中间推理序列能提升准确率,但无需严格对应问题;随机推理轨迹亦可能带来提升;生成的推理文本未必反映真实内部过程原创 2025-05-23 15:18:44 · 1124 阅读 · 0 评论 -
患者图谱RAG + GAP提示框架:解决医疗大模型忽视关键细节(如怀孕 30 周 -> 孕期禁忌)乱开药
本文提出了一种基于图辅助提示(GAP)框架的医疗对话系统,旨在解决大规模语言模型(LLMs)在医疗对话中忽视关键细节和缺乏专业知识的问题。研究背景指出,LLMs在医疗对话中常忽略细粒度信息,导致用药推荐不准确甚至存在安全风险。为此,作者设计了GAP框架,通过构建以患者为中心的图结构,显式表示患者状态、疾病、症状和药物等关键信息,并结合检索增强生成(RAG)方法,生成更准确的用药推荐。核心方法包括医学信息抽取、图构建、邻域提示与路径提示生成,最终综合对话、图结构和检索信息生成推荐。实验表明,GAP框架在准确率原创 2025-05-21 09:38:06 · 1124 阅读 · 0 评论 -
让大模型像人类一样,边搜索+边提炼:非常医疗诊疗的循证支持
论文《Search and Refine During Think: Autonomous Retrieval-Augmented Reasoning of LLMs》提出了一种名为AutoRefine的新框架,旨在解决大语言模型(LLMs)在检索增强推理中的局限性。传统方法通常只关注最终答案的正确性,而忽视了检索和提炼过程的质量。AutoRefine通过引入“search-and-refine-during-think”范式,显式地增加了信息提炼步骤,并结合检索奖励和答案奖励,利用强化学习算法(GRPO)原创 2025-05-20 10:33:08 · 1230 阅读 · 0 评论 -
开源项目学习的最新方法,解决 LLM 长上下文限制,深度理解 Github 项目
本文介绍了两种学习开源项目的新方法,旨在解决大型语言模型(LLM)在处理长上下文时的限制。第一种方法是通过DeepWiki平台,用户只需输入Github项目链接,即可自动生成项目文档和代码解析,极大简化了代码阅读过程。第二种方法是结合本地工具Cursor和Gemini 2.5 pro,利用Gemini的深度推理能力和超长上下文处理技术,结合Cursor的RAG(检索增强生成)功能,适合深入学习大型项目。这两种方法为开发者提供了更高效的项目学习途径,减少了对手动代码阅读的依赖。原创 2025-05-15 08:25:01 · 264 阅读 · 0 评论 -
Satori:元动作 + 内建搜索机制,让大模型实现超级推理能力
相比同基座的纯指令微调模型,Satori-Qwen-7B 在数学和跨域推理测试中通常提升 2~10 个点。与此同时,模型只需要一个单体便能实现“自我搜索、自我纠错”,无需外部大模型做审校,也不必依赖昂贵的手动逐步标注。原创 2025-05-10 23:23:25 · 1508 阅读 · 0 评论 -
医学大模型的谨慎模式上线:用精密推理告诉你,这病还差哪些证据?
诊断AI三合一:会诊断、能解释,还会提醒你证据不足。这不是普通的病例分类,而是“自动承认盲区”的全新范式原创 2025-05-09 14:45:15 · 897 阅读 · 0 评论 -
中科院开源:多智能体 + 知识图谱,自动生成高质量医学数据
答10论文实验证明,用 m-KAILIN 生成的数据给生物医学大模型做连续预训练 (CPT) 或监督微调 (SFT),模型在各种医学 QA 任务上精度显著提升。甚至在一些场景下,小参数模型也能和更大规模的商用模型接近或超越。总结m-KAILIN 的核心思路把海量医学文献先“提取+转换”成问答格式再用先进 LLM 去“填”答案,最终持续迭代生成一个规模庞大、质量高的生物医学问答训练集。通过多智能体协作,尤其借助MeSH层次结构来评估问题质量,m-KAILIN 能大幅减少人工标注。原创 2025-05-08 09:05:39 · 1693 阅读 · 0 评论 -
医疗AI存在 9 类系统性漏洞
问2:什么是文中提到的“Red Teaming”?答2:在这篇文章里,“Red Teaming”指的是有意地设计各种可能的问题或情况(包括刁钻提问、实际场景模拟等),用来测试大模型在医疗使用场景下会不会出现错误回答、误导、危险建议等。问9:如果要总结这篇文章的核心贡献或结论是什么?答9通过一次带有“红队”任务的研讨会,收集了很多实际临床场景下模型可能犯错的例子;对这些错误分类并做了复测;强调了“这些错误会随模型更新而变化”,所以应该按类别而非单一测试用例来把控;原创 2025-05-07 17:32:10 · 655 阅读 · 0 评论 -
哈佛MEGa:解决大模型无法持续学习,适配医疗知识库持续更新
MEGa 方法通过“多 LoRA + 门控机制”将新记忆直接注入模型内部,具有与 RAG 类似的检索能力,却不需要外部数据库。(1) 独立 LoRA Adapter、(2) 冻结基座仅微调 LoRA、(3) 内部门控相似度检索、(4) 多 Adapter 加权融合。相对传统全量微调、RAG 或普通 LoRA,它的关键优势是能在内部完成记忆注入 + 检索,且尽量减少灾难性遗忘。隐性方法主要包括使用模型内部激活做记忆键与“先回忆再问答”的 iRAG 过程。原创 2025-05-07 11:51:16 · 999 阅读 · 0 评论 -
误诊学读书笔记:真正重要的不是喂给大模型更多数据,而是把顶尖医生的逻辑嵌进去
所有的诊断专著只是给我们提供了诊断学方面的规律和技巧,它所提供的是疾病综合的共性特征,却忽视或摒弃了个体差异中那些缺乏共性的次要特征,而误诊则常常是由于疾病的特殊性及个性所引起。误诊学的根本任务是研究误诊发生的规律,运用辩证唯物主义观点,对过去零散的有关误诊的个案报告、病例总结、教训分析综合进行理论总结,使其成为比较全面系统的探索误诊规律的科学。因此,要避免误诊,具有关键意义的,恰恰在于对个体的特殊差异的识别和把握。原创 2025-04-28 09:36:42 · 434 阅读 · 0 评论 -
深度强化学习基础 1:以狗狗学习握手为例
狗狗所处的环境状况,比如主人伸出手掌的姿势、狗狗自身的姿势、周围的环境等。状态s描述了狗狗在特定时刻所感知到的环境信息。: 狗狗可以采取的行为,如抬起前爪、将爪子放在主人手上、坐下、站立等。这些是狗狗能够主动执行的所有可能行为。: 狗狗执行动作后获得的反馈。当狗狗正确抬爪握手时,获得骨头作为正向奖励;不握手则没有奖励;如果咬主人,则会受到负面惩罚。: 狗狗在特定状态下选择动作的行为准则。比如,当主人伸出手时(状态s),狗狗应该抬起前爪放在主人手上(动作a)的概率很高。原创 2025-04-07 16:01:29 · 666 阅读 · 0 评论 -
AI + 慢病逆转 1
论文:Good Energy。原创 2025-04-04 16:27:21 · 1390 阅读 · 0 评论 -
强化学习走出代码和数学,让RL适用于医疗领域,自由格式不再是障碍
可验证奖励(RLVR)在医疗场景下,本质上依赖「有权威或高质量的标准答案/指南」来给模型输出打分,从而实现强化学习的训练闭环。不同子场景(诊断、用药、护理、考试等)都可以依赖“参考答案(文本或结构化)” + “生成式奖励模型”来判定回答与标准的一致程度。在实践中,需要注意数据质量、模型安全性、以及医疗本身的专业复杂度,多使用 soft reward 和多维度判分方式来兼容不确定性。需要对高风险场景加额外安全保障,定期让专家审核和更新标准答案,才能让 RLVR 在医疗领域更好地发挥作用。原创 2025-04-04 10:21:20 · 1071 阅读 · 0 评论 -
零基础 LangGraph 多智能体开发
想象你正在管理一个在线购物系统,系统状态包含:商品列表、总价、用户信息和折扣信息。# 使用 TypedDictitems: List[Dict] # 购物车中的商品列表total: float # 总价user_id: str # 用户IDdiscount: float # 折扣率就像是为数据创建一个模板,确保所有节点(员工)都知道,它们可以期望哪些数据字段,以及每个字段的类型。# 主状态包含所有数据items: List[str] # 需要处理的项目列表。原创 2025-04-02 17:02:24 · 4643 阅读 · 0 评论 -
从“不会问诊”到“专业医生水平”:350万病历 + 强化学习,让多轮诊断准确率提升30%
传统的LLM在医学问答领域的优势主要体现在单轮问题解答上,但在需要多轮交互的诊断场景中,由于缺乏临床经验和高效的信息收集能力,其表现远逊色于专业医生。研究者在LLM外面包了一层“分析器(Analyzer)”,它会解析对话中收集到的症状信息,并把结果传给“问诊策略模型”和“初诊模型”。你们在模拟环境中用 PPO 来训练问诊策略,规模达到上百万级 EMR,是否会导致训练时间过长?利用海量的电子病历(EMR)来模拟病人,把这些EMR做成“问诊环境”,让一个“问诊策略模型(RL训练)”反复在里面试错、学习。原创 2025-04-02 15:03:54 · 957 阅读 · 0 评论 -
应华为 AI 医疗军团之战,各方动态和反应
功能:能清晰追溯每一条诊断建议的证据链(如指南依据、相似病例、影像特征),并实时验证其与患者个体特征的适配性(如基因类型、共病状态、用药史),AI才能真正从“高级版百度”进化为“超级临床助理”。解决多逻辑链、多模块、多回路动态演化,助深层次推演与反应,针对【人体健康 = 稳态调节】、【多药物相互作用】、【慢性病的动态演化】、【多重干预、多重并发症】场景。不是卖给机构的,是给个人的,配备行业数据集 + 垂直领域功能(健康管理、AI垂直导师、塔罗牌等),省去部署流程,一键应用,随插随用。原创 2025-04-02 10:51:03 · 1064 阅读 · 0 评论 -
论文分析方法:让任何人,任何时间,任何地点,看懂,任何专业,任何论文
这次需要明确输入、处理过程、输出及其之间的具体关系,还要解释每一步中涉及的技术和方法,以及它们是如何互相衔接的。追问:对【XXX】所有原文,再做一个概念图,格式:决策树形式+【XXX】代表什么关系。原创 2024-12-02 14:16:14 · 2390 阅读 · 5 评论 -
langchain 0.3 教程
除了- 这个模块是用来做什么的?只保留最近的k条对话,适合限制上下文长度# 创建一个只保留最近2条对话的记忆window_memory = ConversationBufferWindowMemory(k=2, return_messages=True) # k参数指定保留的对话轮数# 保存对话window_memory.save_context({"input": "你好,我叫小明"}, {"output": "你好小明,有什么可以帮你的吗?"})原创 2025-03-27 15:56:51 · 1583 阅读 · 0 评论 -
大模型+专家系统+人机协同消除幻觉,准确率高达95%以上,突破性地实现了指南版本管理与临床个性化需求的高效融合
使癌症诊断前的检查遗漏率显著降低,为医疗质量提升提供切实方案原创 2025-03-26 17:15:43 · 1027 阅读 · 0 评论 -
大模型推理努力存在天花板,问题复杂度到达临界点后反而因为过多干扰而下降
答 1:研究者想探究当 Tents Puzzle 的网格规模不断变大时,大模型的推理努力(例如生成多少推理 token)和成功率是如何随之变化的。之所以 o3-mini 更好,可能和其训练策略(在推理阶段有更多思考token分配,或有更好的链式思考/树式思考等方法)有关。不同模型在能成功解决的最大网格规模上有差异:有的模型在 10×10 或 20×20 还能解,有的在 25×25 就失败。如果发现 LLM 的推理努力在问题变大时无规律地暴增或直接崩溃,就说明它的推理过程在复杂度扩大时存在不足或局限。原创 2025-03-24 16:51:08 · 1008 阅读 · 0 评论 -
ROG:大模型 + 知识图谱 + 关系路径引导机制
如果由模型先“显式生成关系路径”,能够保证“推理链”是大语言模型与知识图谱彼此协作而非相互割裂;让模型先说出它要用到的关系序列,可以减少“盲搜”或“手动写 SPARQL 不一定能执行”的尴尬;这就意味着检索过程更有指向性。我们在 KG 里只需按这条路径做有限的 BFS/DFS,就能大幅减少无关三元组的干扰,提升检索质量。也能让后续在推理时(reasoning module)输出的解释更加清晰。原创 2025-03-21 14:28:02 · 746 阅读 · 0 评论 -
解决 GraphRAG 检索噪声、过度依赖图谱导致性能下降的痛点
论文:Empowering GraphRAG with Knowledge Filtering and Integration解决 GraphRAG 问题:噪音检索:当从外部知识图谱中检索到不相关或误导性的信息时,会干扰模型推理当检索到的信息与问题不匹配、存在大量噪声或冲突时,GraphRAG 会误导模型,从而导致性能下降。尤其是当知识图谱中的实体/路径数量过多或出现无关三元组时,LLM 在生成答案时会“过度信任”外部信息,最终比单独使用 LLM 还差。原创 2025-03-21 11:13:41 · 770 阅读 · 0 评论 -
医疗诊断 + 残差多轮辩论 + 改错知识库:让 AI 通过经验积累真正进化,诊断准确率升到 90.1%
论文:MDTeamGPT: A Self-Evolving LLM-based Multi-Agent Framework for Multi-Disciplinary Team Medical Consultation代 码:https://github.com/KaiChenNJ/MDTeamGPT。原创 2025-03-20 14:13:45 · 1323 阅读 · 0 评论 -
融合拉康语言哲学解决幻觉,医疗可靠性提升 80%,QA幻觉率降低 60%
他们从语言哲学(拉康)切入,剖析了大语言模型“幻觉”的深层原理;提出了“Anchor-RAG”,在RAG流程里显式地找“不确定锚点”再检索,给生成过程“打地基”;判别条件是“模型对某词预测分布的熵值”或“Top-K预测的方差”等,用来决定该token是否存在大概率出现编造的风险。这样能让LLM更加可控、减少胡编乱造,并呼吁学界不要只在“模型调参”里打转,而要回归语言本身的理论。原创 2025-03-20 09:50:15 · 870 阅读 · 1 评论 -
医疗数据大集结
上表主要聚焦中文数据集(和少量混合),其中个别英文数据集或多语数据集也附在最后以便参考。更多“英文”数据集将在后文的**“1.2 英文/多语言数据集”**或“其他附录”中进一步列出。当前出现了大量专注“图像+文本多模态”的医疗模型与评测,主要解决放射学影像、内窥镜图像、病理图像等结合文字报告的多模态理解、问答和生成。的医疗/生物医学相关数据集,涵盖问答、对话、知识图谱、文本抽取等任务。除上述大语言模型及数据集外,以下是一些常见的。原创 2025-03-19 21:56:26 · 3744 阅读 · 0 评论 -
AutoMedPrompt 彻底颠覆了 Prompt,自动Prompt优化胜过千万次手动尝试,让LLM医学答题秒升数级!
以上流程演示了TextGrad收集模型回答 → 比对正确答案 → 得到自然语言的“差异反馈”。解析反馈 中的关键信息,提炼改进方向(即“梯度”)。更新提示词,在系统提示或上下文里强化或弱化相应要点。多轮迭代,直到验证集准确率趋于稳定或达到设定目标。这就是所谓的 “将语言模型输出变成梯度”的示例:并不需要像传统机器学习那样反向传播数值,而是利用文本自身提供的信息,来指导系统提示词的迭代优化。数据来源。原创 2025-03-19 15:30:40 · 1182 阅读 · 0 评论