logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(2025|HKUST & JHU,MeWM,VLM,疾病演化模拟,治疗策略优化)医学世界模型:用于治疗计划的肿瘤演化生成模拟

本文提出的 MeWM 首次将世界模型理念引入医学领域,实现了可视化、可量化、可优化 的肿瘤演化模拟与治疗决策。通过策略-生成-评估闭环,MeWM 在肿瘤合成真实性、生存风险预测及 TACE 个体化方案推荐上均大幅超越现有方法

文章图片
#计算机视觉
(2024|JAMIA|上交,知识注入,指令微调,数据集构建,LLaMA)PMC-LLaMA:构建面向医学的开源语言模型

PMC-LLaMA 是针对医学领域的开源语言模型。研究贡献包括:医学知识注入:整合 480 万篇生物医学论文和 3 万本医学教材,以增强医学专业知识的理解能力。医学指令微调:构建了一个包含 202M tokens 的医学指令数据集,涵盖医学问答、推理和对话。

文章图片
#语言模型#人工智能
(2024,开源轻量级 MUSE,VQ-GAN,余弦掩蔽)aMUSEd:开源的 MUSE 复现

我们提出了aMUSEd,这是一个基于 MUSE 的开源、轻量级的掩蔽图像模型(masked image model,MIM),用于文本到图像的生成。使用 MUSE 的参数的 10%(800M 参数,包括来自 U-ViT、CLIP-L/14 文本编码器和 VQ-GAN 的所有参数),aMUSEd 专注于快速图像生成。相对于潜在扩散,这是文本到图像生成的主流方法,我们认为 MIM 相对未被充分探讨。与

文章图片
#生成对抗网络#人工智能#神经网络
(2024|JAMIA|上交,知识注入,指令微调,数据集构建,LLaMA)PMC-LLaMA:构建面向医学的开源语言模型

PMC-LLaMA 是针对医学领域的开源语言模型。研究贡献包括:医学知识注入:整合 480 万篇生物医学论文和 3 万本医学教材,以增强医学专业知识的理解能力。医学指令微调:构建了一个包含 202M tokens 的医学指令数据集,涵盖医学问答、推理和对话。

文章图片
#语言模型#人工智能
(2024,∞-Brush,无限维扩散,希尔伯特空间,超分辨率,跨注意力神经算子,线性注意)具有无限维度扩散模型的可控大图像合成

本文提出在无限维希尔伯特空间中的条件扩散模型,∞-Brush,用于可控的大图像合成。​此外,它利用带有跨注意力神经算子的条件去噪器来参数化去噪过程。该方法有效解决先前扩散模型的可扩展性限制,并保留了对生成输出的高度控制。

文章图片
#人工智能#计算机视觉
(2025,AR,NAR,GAN,Diffusion,模型对比,数据集,评估指标,性能对比)文本到图像生成和编辑:综述

本文介绍了文本到图像生成的四个基础模型架构(自回归,非自回归,GAN 和 Diffusion)以及常用的关键技术(自编码器,注意力和无分类器引导 )。

文章图片
#计算机视觉#生成对抗网络#深度学习
(2024,弱到强蒸馏(泛化),自适应置信蒸馏,AdaptConf)视觉超对齐:视觉基础模型的弱到强泛化

弱到强泛化,涉及使用一个较弱的模型监督一个较强的模型,旨在提高后者的能力,超越前者的限制。本文提出自适应置信蒸馏,利用弱模型的指导来增强强模型的学习过程。

文章图片
#计算机视觉#深度学习
(2025,推理语言模型 / RLM,deepseek-v3,推理结构,推理策略,强化学习概念,监督学习方法,计算优化技术)

本文介绍推理语言模型(RLM)。当前的 RLM 存在以下挑战:高计算成本、闭源、架构复杂。为了解决这些问题,本文提出了一种系统蓝图,将 RLM 组件模块化,以提高可访问性和可扩展性。

文章图片
#语言模型#人工智能#计算机视觉
(2022|ICML,Diffusion,引导,ADM)GLIDE:使用文本引导扩散模型实现逼真图像生成和编辑

本文提出 GLIDE,它表示,用于生成和编辑的图像扩散的引导语言。使用消融扩散模型 (ADM)架构,并以文本为条件信息对其进行增强。

文章图片
#glide#计算机视觉
(2023|NIPS,LLaVA-Med,生物医学 VLM,GPT-4 生成自指导指令跟随数据集,数据对齐,指令调优)

本文利用大规模、广覆盖的生物医学图表-标题数据集,使用 GPT-4 从标题中自指导生成开放式指令数据,然后通过分阶段微调一个大型通用领域的视觉语言模型得到 LLaVA-Med,一种用于生物医学领域的大型语言与视觉模型

文章图片
#深度学习#人工智能#计算机视觉
    共 148 条
  • 1
  • 2
  • 3
  • 15
  • 请选择