
AI炼丹
文章平均质量分 74
吴脑的键客
凡人修仙,AGI散修。领域展开——四海皆兄弟!!!了解更多前沿资讯,关注公众号——吴脑的键客
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
快手可灵团队开源 HumanAesExpert:推进人类图像美学评估的多模态基础模型
本研究首次提出人物图像美学评估(HIAA)完整框架,发布包含10.8万张标注图像的HumanBeauty数据集,其中5万张采用创新的12维度美学标准手工标注。基于此开发的HumanAesExpert模型创新性地融合专家头模块与MetaVoter评分聚合机制,在整体和细粒度HIAA任务中均表现优异。实验证明该模型显著优于现有方法,相关数据与代码已开源。 关键词:图像美学评估、人物图像、多维度标注、视觉语言模型、开源数据集原创 2025-08-09 13:25:22 · 395 阅读 · 0 评论 -
字节 Seed 团队联合清华大学智能产业研究院开源 MemAgent: 基于多轮对话强化学习记忆代理的长文本大语言模型重构
MemAgent是一种突破性的长文本处理解决方案,通过强化学习优化实现超长上下文理解。最新发布的RL-MemAgent-14B和7B模型在350万token任务中性能衰减低于5%,512K文本处理准确率达95%+。该框架具有三大创新: 1)新型记忆机制突破传统窗口限制 2)线性时间复杂度实现高效处理 3)强化学习驱动的外推能力 提供快速启动脚本支持本地vLLM部署和在线服务集成,并开源完整训练测试流程。MemAgent为处理超长文本提供了全新的技术路径,在原创 2025-07-10 10:16:11 · 1024 阅读 · 0 评论 -
英伟达提出全新图像生成算法 HMAR: 高效分层掩码自回归图像生成
HMAR是一个高效图像生成框架,提供256×256和512×512分辨率下的类别条件ImageNet样本生成。该框架支持多阶段训练:1)基础模型训练需配置数据集路径和实验参数;2)微调阶段引入掩码预测机制;3)通过采样脚本和评估模块实现质量验证。关键特性包括:基于VAR的VQVAE分词器、Triton自动调优的硬件加速,以及模块化基准测试(注意力核心/训练/推理性能)。依赖环境包括PyTorch≥2.0和CUDA支持,代码部分借鉴了VAR和MaskGIT项目。项目文档详细涵盖了从安装、训练到评估的全流程说明原创 2025-07-09 09:21:22 · 367 阅读 · 0 评论 -
清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM,让小模型超越 GPT-4o
在人工智能领域,随着 OpenAI 的 o1和 DeepSeek 的 R1模型受到广泛关注,大语言模型(LLM)的推理能力和测试时扩展(TTS)技术引发了众多研究者的兴趣。GenPRM 的设计理念模拟了人类解题时的思维过程,允许模型在每一步推理时进行自然语言分析,这样不仅提高了透明性,还使得步骤评估更加可解释。这种 “先解释、再验证” 的机制,不仅能够判断对错,还能提供具体的改进建议,显著提升了过程监督的效果。令人惊讶的是,GenPRM 只用了23K 的训练样本,就取得了超过 GPT-4o 的优异表现。原创 2025-04-15 11:13:56 · 513 阅读 · 0 评论 -
Vision-R1:强化学习助力视觉定位,图文模型性能提升 50%
近日,中国科学院自动化研究所与中科紫东太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升,甚至超过了参数规模超过10倍的现有最优模型(SOTA)。当前,图文大模型通常依赖 “预训练 + 监督微调” 的方法来提高对用户指令的响应能力,但这种方法在资源消耗和训练效率上都存在较大挑战。Vision-R1通过结合高质量的指令对齐数据和强化学习,创新性地改变了这一局面。原创 2025-04-09 09:31:26 · 954 阅读 · 0 评论 -
DeepSeek 与清华联合研究:创新奖励模型推理方法,提升可扩展性
近日,DeepSeek 和清华的研究者发布新论文,探讨了奖励模型的推理时 Scaling 方法,让 DeepSeek R2似乎更近一步。目前,强化学习在大语言模型的大规模后训练阶段广泛应用,但面临为大语言模型获取准确奖励信号的挑战。研究者发现,采用点式生成式奖励建模(GRM)能提升模型适应能力和推理阶段可扩展性。为此,他们提出自我原则点评调优(SPCT)学习方法,经此训练得到 DeepSeek - GRM 模型,如基于 Gemma -2-27B 训练的 DeepSeek - GRM -27B。原创 2025-04-06 09:43:35 · 352 阅读 · 0 评论 -
李飞飞团队以成本不足“50美元”,训练出AI推理模型s1,媲美OpenAI的o1
近期,李飞飞等斯坦福大学和华盛顿大学的 AI 研究人员成功训练出了一款名为 s1的 AI 推理模型,训练成本不足50美元,所需的云计算信用额度也非常低。这项研究成果于上周五发布,表明 s1在数学和编程能力测试上表现不逊于 OpenAI 的 o1模型和 DeepSeek 的 R1模型。s1的代码和数据已在 GitHub 上公开,供其他研究者使用。研究团队表示,他们从一个现成的基础模型出发,通过蒸馏技术进行微调,以提取出所需的推理能力。原创 2025-02-07 08:46:43 · 1337 阅读 · 0 评论 -
腾讯混元发布浮点量化训练新理论,揭示大模型训练的极限
通过这些实验,研究人员得出了一套统一的 Scaling Law,揭示了在不同精度下,如何有效配置训练数据和模型参数,以获得最佳的训练效果。最为关键的是,研究指出,在任意低精度的浮点数量化训练中,存在一个 “极限效果”,即在特定的数据量下,模型的性能将达到最优,超过此数据量可能会导致效果下降。最终,这项研究为大模型训练的实践提供了清晰的方向,确保在资源有限的情况下,依然能够实现高效的训练效果。论文地址:https://arxiv.org/pdf/2501.02423。原创 2025-01-18 09:43:58 · 384 阅读 · 0 评论 -
什么是 OpenAI 的强化微调(Reinforcement Fine-Tuning)?
强化微调(RFT)是一种通过奖励驱动的训练循环来完善大型语言模型知识的技术。前沿模型是了不起的通用语言模型。它们中的佼佼者能胜任翻译、辅助、编程等多种任务。然而,目前研究的一个重要领域是对这些模型进行有效的微调。我们的目标是对这些模型进行调整,以适应特定的语气和风格,或专注于狭窄的领域,如提供专家医疗建议或执行特定领域的分类任务。挑战在于如何高效地实现这种微调。效率意味着消耗更少的计算能力,需要更少的标注数据集,同时仍能获得高质量的结果。原创 2025-01-04 15:19:31 · 3560 阅读 · 0 评论 -
谷歌 DeepMind 推新框架 InfAlign:提升语言模型推理对齐能力
此外,InfAlign 增强了模型的鲁棒性,使其能够有效应对各种解码策略,并产生一致的高质量输出。与现有方法相比,InfAlign 在 Best-of-N 采样的推理胜率上提高了8%-12%,在 Worst-of-N 安全评估中则提高了4%-9%。这些改进得益于其校准的奖励变换,有效解决了奖励模型的误校准问题,确保了在不同推理场景下的一致表现。目前的对策,如通过人类反馈的强化学习(RLHF),主要集中在提高模型的胜率上,但往往忽视了推理时的解码策略,例如 Best-of-N 采样和控制解码。原创 2025-01-04 06:00:00 · 443 阅读 · 0 评论 -
Slurm 作业调度系统
(Simple Linux Utility for Resource Management)是一种可扩展的工作负载管理器,已被全世界的国家超级计算机中心广泛采用。它是免费且开源的,根据GPL通用公共许可证发行。本文档将协助您通过 Slurm 管理作业。在这里可以找到更多的工作样本。: 由于跨系统文本编码的问题,我们强烈建议您只用英文字符和数字命名文件夹和目录,并且不要使用特殊字符,以确保作业能顺利运行。原创 2025-01-03 09:22:28 · 1466 阅读 · 0 评论 -
ORPO , DPO 和 PPO
由 Hong 和 Lee(2024 年)提出的 ORPO 将指令调整和偏好调整结合到一个单一的、整体的训练过程中,为这一问题提供了一个优雅的解决方案。这种赔率损失会对被拒绝的反应进行弱惩罚,而对偏好的反应进行强奖励,从而使模型能够同时学习目标任务并与人类偏好保持一致。DPO:直接偏好优化(Direct Preference Optimization,DPO)是一种将大型语言模型(LLM)与人类偏好相匹配的方法,无需强化学习或训练单独的奖励模型。不过,研究人员也发现了这种方法的局限性。等主要微调库中实现。原创 2024-12-22 11:45:18 · 984 阅读 · 0 评论 -
Fine-Tuning Stable Diffusion with LoRA (Workaround for ‘Unscale FP16 Gradients’ Error)
我是在 2024 年 3 月底写这篇文章的,距离这篇文章在 Hugging Face 上发表已经一年多了,距离 Julien Simon 发布视频解释如何使用 AWS EC2 spot instances 以不到 1 美元的价格微调 Stable Diffusion 也有几个月了。首先,这里是你应该参考的官方页面。不幸的是,你很可能会遇到 "Attempting to unscale FP16 gradients. "错误。这里有多个用户报告过这个错误。如果你也遇到了这种情况,下面是解决问题的方法。原创 2024-12-19 10:28:14 · 831 阅读 · 0 评论