- 博客(1831)
- 收藏
- 关注
转载 vLLM 推理引擎的核心优化技术及其工作流程
这种方法巧妙地结合了两种并行策略:专家并行用来处理 MoE 层的巨大专家数量,而数据并行则用来高效地处理非专家层的计算,从而在保证高吞吐量的同时,支持超大规模的 MoE 模型。这种混合并行方法将模型的两个维度都进行了切分:流水线并行切分了模型的层(垂直方向),而张量并行切分了每一层的权重(水平方向),从而能够服务那些规模巨大的模型。All-reduce 是一种高效的通信操作,它能让所有设备上的部分输出汇总到每个设备上,并求和,最终每个设备都拥有完整的输出结果,可以进行下一步的计算。
2025-09-05 12:53:27
36
转载 突发,Agentic新SOTA诞生!美团开源560B大模型
LongCat-Flash-Chat,这是一款non-thinking基础模型,在领先模型中表现极具竞争力,尤其在Agentic任务中表现出色,超过。为了实现先进的训练和推理效率,采用了捷径连接架构,扩大了计算-通信重叠窗口,实现了每秒超过 100 个token(TPS)的高效推理。LongCat-Flash,这是一款拥有 560B 总参数的强大且高效的语言模型,采用了创新的专家混合(MoE)架构。全面训练和扩展策略确保了稳定、高效的训练,而量身定制的数据策略则提升了模型性能。昨晚,美团入局大模型!
2025-08-31 16:17:01
46
转载 英伟达新研究:小模型才是智能体的未来!
说起来,小模型就像Unix“一个程序只做好一件事”(Do One Thing and Do It Well)的设计哲学,把复杂系统(大模型)拆成小、专一、可组合的模块(小模型),每个模块做好一件事,然后让它们协同完成更大任务。最后,也是争议的核心——虽然小模型部署门槛正在下降,但大模型已经占先,行业惯性让创新仍集中在大模型,转型未必会真的降本增效。而在GPU调度中,通过优先调度小模型的低延迟请求,同时预留部分资源应对偶发的大模型调用,就能实现更优的。随后,选择合适的小模型,并匹配相应的GPU分配策略。
2025-08-29 19:53:12
51
转载 科学界论文高引第一人易主!AI站上历史巅峰
它以理解学习世界为核心目标,而非在世界中采取行动,通过透明化外部推理,对问题提供可验证的真实答案,“可用于加速科学发现、为Agent型AI系统提供监督,并深化大家对AI风险及其规避方法的理解”。排在第二的就是三巨头2015年共同发表的《Deep learning》,这篇论文不仅系统总结了深度学习的发展历程,还深入剖析了其理论基础、核心算法和广泛应用,被视为深度学习领域的“圣经”。毕竟,当一个人的论文被全世界数十万次引用,或许就不仅仅只是学术荣耀那么简单,而更有可能代表了时代的注脚。
2025-08-26 15:01:04
37
转载 刚刚,Meta发布了全新开源视觉模型DINOv3
为了应对这一问题,研究团队提出了“Gram anchoring”方法,即通过将学生模型的patch Gram矩阵逼近早期训练阶段表现优异的教师模型的Gram矩阵,来保持patch间的相对相似性,而不限制特征本身的自由表达。最后,由于DINOv3在最初训练时使用了相对较低的分辨率(256×256),为了让模型适应高分辨率的图像场景,研究团队在训练后增加了一个“高分辨率适应步骤”,从而让模型在学会处理更大尺寸图像的同时,还能保持性能稳定。
2025-08-16 16:39:38
123
转载 就在刚刚,GPT-5正式发布!已达博士水平,人人都能免费使用!
看到日程后GPT-5可以自动进行一些助理级工作,比如发现未回复的邮件等。在语音对话方面,现在不仅可以让GPT-5充当外语老师,还能定制语音、让GPT-5根据你的需求来灵活教学,比如调整语速。在写作方面,GPT-5相比前代也有明显提升,它不再局限于模版化的表达,而是能够根据上下文生成富有个性与情绪的表达,GPT-5看到用户提示词后再判断是否执行,同样的提示在不同语境下,GPT-5可能有不同的执行结果。同时在API平台上,推出了GPT-5、GPT-5 nano、GPT-5 mini三种模型选择。
2025-08-08 09:23:43
64
转载 李沐B站更新了!教你手搓语音大模型,代码全开源还能在线试玩
举个例子就是,如果想要教一个徒弟同时会拳脚功夫,但师傅一次又教不了,那就同时教两个徒弟,一个学打拳,一个学踢腿,然后让他们俩天天互相打,打着打着两个就都会拳脚功夫了。最终,这个多模态模型就完成了,不仅可以完成简单的文本转语音,还能实现更复杂的任务,比如让它写一首歌并唱出来,再加上配乐。然后要让模型很好地理解和生成声音,就需要利用模型的文本空间,将语音的语义尽量地映射回文本,当中需要大量的数据支持。传统的语音和文本模型之间相互独立,李沐老师就想,欸,能不能将两者结合起来,直接让LLM用语音进行沟通。
2025-07-24 17:09:48
75
转载 OpenAI创始人力推,火爆全网的Vibe Coding,国内第一本书来了!(免费送书)
本书凝结着他们深耕行业的观察洞见、躬身实践的经验沉淀与传道授业的教学智慧,堪称AI时代编程教育的思想结晶。然而,真正的变革需要让更多人了解并掌握这一创新方式,因而,他们合著了本书,希望通过系统化的知识梳理与清晰易懂的阐述,将Vibe编程的理念和方法传递给更广泛的群体。在过去的一年里,从记者到老师,从产品经理到家庭主妇,无数零编程基础的普通人正在用Vibe编程创造能解决实际问题的应用。你无须记忆烦琐的语法规则,也无须深陷复杂的代码调式,只需通过自然语言与AI对话,即可将脑海中的灵感转化为可运行的应用。
2025-07-24 17:09:48
68
转载 AI 大模型全套学习资料免费领取
包括字节、腾讯等一线大厂的 AI 岗面经分享、LLMs、Transformer、RAG 面试真题等,帮你在面试大模型工作中更快一步。明确学习方向,2025年 AI 要学什么,这一张图就够了!【大厂 AI 岗位面经分享(107 道)】【24 套最新技术大会 AI 分享PPT】【AI 大模型面试真题(102 道)】【26 套 AI 大模型行业研究报告】【AI 大模型面试题 300 道】【LLMs 面试真题(97 道)】【AI学习路线图(2025版)】【GeekGI 知识库】扫码免费领取全部内容。
2025-07-21 08:41:02
37
转载 小作坊的强化之路
注意下图中的紫线,应该是在 no mask stage1 基础上做了 stage2 (更长 response_len)训练的模型,说明第一阶段学到的较短的 response 完全没影响模型的上限,第二阶段的 response_len 和 accuracy 仍然能稳步提升。(这里其实可以更细致的探究一下,两份数据的 response 多样性到底差别多大,比较一下 response 的熵的平均值,也许能给出一个近似的拟合公式:“熵在多大的区间内适合多大的 loss 系数”)。
2025-07-20 10:48:33
32
转载 一篇Graph+AI Agents最新技术综述
例如,A-MEM 通过动态索引和链接创建相互连接的知识网络,Zep 通过时间感知的层次化知识图谱引擎动态整合对话数据,HippoRAG 和 LightRAG 采用动态增量图更新策略,KG-Agent 引入 LLM 进行知识图谱更新,InstructRAG 采用 RL 代理进行图维护。:图技术帮助代理更高效地管理和调用大量工具,通过构建工具图和优化工具调用路径,减少令牌消耗,提高工具使用的准确性和效率。图用于人工智能代理:图和图学习在增强代理核心功能(包括代理规划、执行、记忆和多代理协调)中的作用和潜力。
2025-07-04 13:14:52
40
转载 干翻 GPT-4V 的面壁小钢炮,被《Nature》收录了!
此次论文提及的 MiniCPM-V 模型是面壁智能于 2024 年 5 月发布的端侧多模态大模型,该模型仅以 8B 小参数,在高分辨率图像识别、光学字符识别(OCR)、多语言交互、可信行为等方面展现了出色性能,创造了当时端侧模型中的最佳多模态综合成绩与最佳运行效率水平。今年 1 月,面壁智能再次全方位升级了模型能力,并延续以小博大、高效低成本的优势,发布了行业首个端侧全模态流式模型——面壁小钢炮 MiniCPM-o 2.6,「持续看、实时听、自然说」等多项关键能力均为业界首创,能力全面跻身国际领先水平。
2025-07-03 15:33:40
50
转载 重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
例如,在 RLVR pipeline 训练下,Qwen2.5-7B-Base 的整体准确率从 0.18 提升至 0.52(2.89 倍),Qwen3-30B-A3B-Base 准确率从 0.27 提升至 0.62(2.30 倍),这两个模型在 ROLL 的支持下均展现了稳定且一致的准确率提升,且未发生模型崩溃等异常现象,展现了 ROLL 极佳的稳健性和实用性。为了在生成阶段对每个提示词样本的生命周期进行细粒度的管理,该团队提供了 Rollout 调度器,可以简化响应生成、环境交互和奖励计算之间的流程编排。
2025-07-01 17:02:13
76
转载 Doc2X: 高精度高性价比文档解析神器
Doc2X 提供 RESTful API 与 SDK 工具包,支持多种开发语言与框架,让您轻松将文档处理功能嵌入现有系统,方便快捷地实现将 PDF、扫描件、图片等多种格式的文档精准转换为 Markdown、LaTeX、HTML、Word 等结构化或半结构化格式的能力。当然,除了提供了快速集成的 API 之外,Doc2X 还提供了友好的操作界面,可以让你在页面上快速完成文档解析,解析完成之后可以对照着原文档进行编辑,确保准确性。接口轮询结果,使用的是阿里云的oss,具体速度取决于您的网速(
2025-06-24 13:59:26
370
转载 韦东奕参与项目被提名2025年度国家自然科学奖!
此外,在舆论喧嚣之外,其实专注学术的韦东奕近日与其他两位学者章志飞、邵锋合作在数学界顶级期刊《Forum of Mathematics, Pi(数学论坛,π) 》以“On blow-up for the supercritical defocusing nonlinear wave equation(超临界散焦非线性波动方程的爆破现象研究)”为题发文。28岁起,韦东奕开始担任北京大学助理教授。近日,在北京大学任教的韦东奕、网友熟悉的“韦神”发布视频和网友打招呼,其个人简介标注为“韦东奕本人账号”。
2025-06-19 16:09:33
58
转载 突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
港大、camel-ai 等多家机构联合提出了一种名为新的名为 Workforce 的创新多智能体框架,以及配套的 OWL(Optimized Workforce Learning)训练方法,在通用 AI Assistant 的标杆基准测试 GAIA 上取得了 69.70% 的准确率,不仅刷新了开源系统的最佳纪录,更是超越了多家商业系统以及 OpenAI Deep Research 的开源方案。为此,多智能体系统(MAS)应运而生,通过让多个专门化的智能体协作完成复杂任务,显著提升了系统的整体性能。
2025-06-18 11:21:32
55
转载 Mamba与小目标结合!2025年论文新宠儿!
该框架结合了Siamese CNN网络和跨模态融合Mamba(CFM)模块,通过CNN提取多尺度局部特征,并利用Mamba的选择性扫描机制(SS2D)在四个方向上进行全局特征融合,实现了对密集分布小目标的高效检测。1)Mamba的视觉空间建模改进(比如双向扫描策略),2)多尺度特征融合的轻量化设计,3)与动态卷积的混合架构,4)针对小目标的序列化数据增强。设计了CFM模块,基于Mamba的选择性扫描机制,在四个方向上对多模态特征进行全局扫描和融合,显著提升了小目标的区分能力。
2025-06-10 08:14:33
469
1
转载 研究生期间买房买车的都是什么人
在读研期间,许多小伙伴都会面临的问题,就是只靠国家学业补贴,生活压力很大,又不好意思向父母开口。,目前全网粉丝关注量已接近150万人,共有2000多位论文指导老师,累计服务学员超10万人,现面向全体优秀硕博同学招聘。线上直播上课,构思数模培训计划,提供必要资料,比赛期间全程指导,提供答疑。研究生或准研究生以上学历,有核心或SCI等高水平期刊发表经验。有同学靠发表期刊的奖学金就能cover全部生活费,,主要是带学生做科研、写论文和进行竞赛培训等,全程。↑扫描二维码添加助理微信,即可报名↑。
2025-06-06 08:31:45
77
转载 训练MoE足足提速70%!华为只用了3招
针对Pangu Ultra MoE 718B模型,在单卡内存使用约束下,华为通过DeployMind以训练性能为目标找到了TP8/PP16/VPP2/EP32(其中TP只作用于Attention),这一最适合昇腾集群硬件规格的并行方案,综合实现计算、通信、内存的最佳平衡。为解决这一问题,华为团队提出了一种精度无损的动态数据重排方案,其核心在于:通过线性模型量化单样本计算耗时,在严格保持训练精度无损下,批次内采用贪心算法构建最小化耗时的数据重排,实现负载均衡。感兴趣的小伙伴可以再通过完整技术报告深入了解——
2025-06-05 16:05:14
46
转载 半年时间拿到大厂offer,全靠这本《大模型算法》通关……
书中精心绘制超 100 张架构图,从大模型输入输出层的 Token 映射机制,到 PPO 算法的训练全景图,再到 DPO 核心代码逻辑拆解,用视觉化语言降低技术理解门槛,让抽象的数学公式与算法流程一目了然。全书以 LLM 为载体,但核心技术(如微调策略、对齐算法、解码优化)均适用于视觉语言模型(VLM)和多模态大语言模型(MLLM),帮助读者建立跨模态技术迁移能力,紧跟 AIGC、具身智能等前沿方向。大模型的预训练阶段门槛极高,但后训练阶段(微调、对齐、优化)才是开发者的主战场。
2025-06-05 16:05:14
44
转载 小米多模态大模型开源!MiMo-VL:通向Agent时代的推理基座!
MiMo-VL-7B 在保持 MiMo-7B 纯文本推理能力的同时,在多模态推理任务上,仅用7B参数规模,在奥林匹克竞赛(OlympiadBench)和多个数学竞赛(MathVision、MathVerse)大幅领先10倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越闭源模型 GPT-4o。在 RL 训练过程中,通过不断扩充训练窗口大小(32K->48K),MiMo-7B-RL-0530 的 AIME24 效果可以持续提升,并超过 DeepSeek R1。
2025-05-30 14:42:04
67
转载 阿里开源长文本深度思考模型!渐进式强化学习破解长文本训练难题,登HuggingFace热榜
这个成绩不仅超过了OpenAI-o3-mini(70.4分)、Qwen3-235B-A22B(70.6分),甚至和Claude-3.7-Sonnet-Thinking(70.7分)打成平手。在DocMath、Frames、2WikimQA等七个长文本基准测试中,QwenLong-L1-14B相比基础模型R1-Distill-Qwen-14B,平均提升了4.1分,超越了Gemini-2.0-Flash-Thinking和Qwen3-32B。通过及时验证和回溯,成功过滤掉了不相关的细节,得出了正确答案。
2025-05-28 14:57:59
40
转载 Qwen3技术报告新鲜出炉,8款模型背后的关键技术被揭晓!
具体来说,他们通过Qwen2.5-72B对问题进行筛选,然后使用QwQ-32B模型自动生成初步的解题步骤,这当中,人类专家对这些自动生成的解题步骤进行核对和修正,确保其准确性和可读性。Qwen团队构建了一个包含大量高质量数学和编程问题的数据集,并为每个问题标注了详细的解题步骤,然后使用这些标注数据对模型进行监督微调,使其掌握解题的关键技能和常见思路。可以看到,在明确具体需求之后,Qwen规划了方案,然后分成子问题进行检索、总结,研究过程用时约8分半,最终生成了带有表格的报告,并自动导出pdf。
2025-05-14 15:57:11
168
转载 给MCP加上RAG,工具准确率提升200%,起飞~
测试中,候选MCP服务器的数量从1增加到11100,每次试验中随机选择一个“真实”MCP(唯一能满足任务需求的工具)和若干干扰项(distractors)。:随着可用的MCP(Model Context Protocol)服务器数量增加,将所有工具描述包含在单个提示中会导致提示过长,消耗大量token,并降低模型区分和回忆正确工具的能力。:与传统MCP客户端相比,RAG-MCP仅激活选定的MCP,降低了启动成本,并支持任意大小的工具集,而无需担心基础设施瓶颈。:用户的自然语言任务被编码并提交给检索器。
2025-05-12 16:45:28
120
转载 再见Cursor!谷歌放大招刷爆AI编程榜!
在官方博客中,他们还表示:这个版本原计划在几周后的Google I/O大会上发布,但由于Gemini 2.5太受欢迎,于是决定现在发。就在前几天,Gemini 2.5 Pro在直播中通关了《宝可梦蓝》,成为首个大模型宝可梦联盟冠军,直接打破了此前Claude的记录。此次更新的重点就在于编码能力,包括不限于改进前端和UI开发,以及基础编码任务(例如代码转换和编辑,以及创建复杂的代理工作流)。除此之外,它还增加了一些新功能,比如听写入门应用,只需说出你的想法,Gemini就能将创意变为现实。
2025-05-08 15:59:55
118
转载 RL真让大模型更会推理?清华新研究:其能力边界或仍被基座「锁死」
为此,研究团队人工检查了基座模型正确答案的 CoT 推理过程,发现对于大部分题目,基座模型在多次采样中至少存在一个 CoT 推理过程是正确的,从而确认了答案的得出符合逻辑而非随机蒙对。这篇工作刷新了 AI 圈里的「普遍认知」:此前各类基于 RLVR 做后训练的大模型,如 OpenAI 的 o1、DeepSeek-R1 等,在各项评测中成绩显著,似乎它就能让大模型实现「自我进化」,赋予模型超越其基座模型的能力。灰色表示模型不太可能采样的路径,黑色表示模型更可能采样的路径,绿色表示能获得正向奖励的正确路径。
2025-05-05 15:43:55
183
转载 Qwen3来了!
在多轮对话中,历史模型输出应仅包含最终输出部分,无需包含思考内容。我们提供了一个硬开关,严格禁用模型的思考行为,使其功能与之前的 Qwen2.5-Instruct 模型一致。,在思考模式下超越了之前的 QwQ(思考模式)和 Qwen2.5 指令模型(非思考模式),在数学、代码生成和常识逻辑推理方面表现出色。,在创意写作、角色扮演、多轮对话和指令遵循方面表现出色,能够提供更自然、引人入胜且沉浸式的对话体验。,能够在思考和非思考模式下精准地与外部工具集成,并在复杂的基于代理的任务中实现开源模型中的领先性能。
2025-04-28 22:07:02
299
转载 OpenAI姚顺雨:欢迎来到AI下半场!
的行动——它并不直接影响外部世界,然而推理的空间是开放的、组合上是无限的——你可以思考一个单词、一个句子、一段完整的文章,或者 10000 个随机的英文单词,但你周围的世界并不会立即改变。经过几次重大转折和一系列里程碑式的成就,我们找到了一个可行的方案,利用语言和推理来解决广泛的强化学习任务。在其他地方,方法与基准测试的对比甚至更加悬殊——例如,Transformer 的主要基准测试是 WMT’14,其研讨会报告的引用次数约为 1300 次,而 Transformer 的引用次数超过了 16 万次。
2025-04-24 16:52:31
77
转载 首篇MCP技术生态全面综述:核心组件、工作流程、生命周期
等行业领导者已将MCP集成到其产品中,例如Anthropic的Claude桌面版和OpenAI的Agent SDK,显著提升了AI代理与外部工具的交互能力。Cursor通过MCP集成了AI驱动的代码助手,使开发者能够在IDE中直接调用外部API和工具,自动化复杂任务,提升开发效率。:一种标准化接口,旨在实现AI模型与外部工具和资源之间的无缝交互,打破数据孤岛,促进不同系统之间的互操作性。:MCP服务器接收到请求后,返回一个初始响应,列出其提供的工具、资源和提示,供客户端使用。
2025-04-22 17:35:32
85
转载 第一本给程序员看的DeepSeek图书上市了!(文末送书)
这么全面详细的内容编排,无论是对大模型开发抱有强烈兴趣的初学者,还是有一定基础的技术人员,都能通过本书快速了解并上手DeepSeek 大模型技术,深入探索其在工业与商业场景中的应用潜力。突破传统技术书籍重理论轻实践的局限,从生成式AI的理论基础讲解到DeepSeek-V3的技术架构,再到具体的开发实践,构建了从模型部署、参数微调到应用落地的全链路技术框架。在训练中采用 FP8 混合精度技术,DeepSeek V3 在降低显存需求的同时,保持了数值计算的稳定性与模型性能,大幅减少了硬件资源占用。
2025-04-17 11:03:39
374
转载 聊聊强化学习发展这十年
说个开玩笑的话,如果DS的文章放到几年前RL的审稿人手里,他大概率会得到这样的回复:这只是采用了策略梯度的方式将不可导的损失/奖励函数用于优化神经网络参数而已,请不要说自己使用了强化学习。这导致像作者这样的old school,在看到最新的强化学习应用文章时,总会试图问文章作者几个基础的问题,状态是啥,动作是啥,奖励是啥。同时这个阶段,有大量的强化学习研究者开始涌入这个方向,大家总体分为两拨,学术界的学者试图研究通用的强化学习算法,而工业界的人则在给强化学习找应用场景。
2025-04-13 12:15:05
57
转载 “谷歌版MCP”来了!开源A2A,不同厂商Agent也能协作
每个部分都有指定的内容类型,允许客户端Agent和远程Agent协商所需的正确格式,并明确包括对用户UI功能的协商,例如iframe、视频、网页表单等等。专注于让Agent以自然非结构化的模式进行协作,即使它们之间没有共享内存/工具/上下文信息,致力于实现真正的Agent多场景,不会将某个Agent局限为一种“工具”。“客户端”Agent与“远程”Agent之间进行通信,客户端Agent负责制定和传达任务,远程Agent则负责执行这些任务,或是提供正确信息,或是采取正确行动。
2025-04-12 19:11:21
87
转载 ACM MM 告一段落!NIPS 2025开冲!
这是一支实力强大的高学历导师团队,在计算机科学、机器学习、深度学习等领域,积累了丰富的科研经历,研究成果也发表在国际各大顶级会议和期刊上,在指导学员的过程中,全程秉持初心,坚持手把手个性化带教。我们凭借的是资深导师的指引、高效的辅导策略及严谨的流程,帮助学生解决在论文撰写过程中遇到的问题,提高学生的科研素养和论文质量。研梦非凡背靠研途考研(名师张雪峰、徐涛),深耕教育行业十余年,一直秉持着重交付,重口碑的公司理念,信誉有保障。比如毕业、职称、项目结题等,有明确时间节点,却苦等半年审稿,心力交瘁。
2025-04-10 14:01:05
876
转载 首个AI科学家发论文进ICLR!得分6/7/6,从选题到实验全程零人工,连GitHub代码库都是AI写的
论文中的提出了一种旨在增强神经网络组成泛化的组成正则化方法,进行了大量实验以评估其影响,并分析了算子复杂性对模型性能的影响,讨论了组成正则化没有产生预期效益的潜在原因。AI Scientist-v2提出了科学假设,提出了测试假设的实验,编写和完善了进行这些实验的代码,运行实验,分析数据,将数据可视化为图表,并写下整个科学手稿的每一个字,从标题到最终参考文献,包括放置图表和所有格式。值得一说的是,在拿下谷歌offer前,恰巧遇上2009年的经济危机,狮子哥找不到工作,好几个月都只能靠领取救济金勉强度日。
2025-04-09 15:27:22
45
转载 Llama 4爆料大反转,没在测试集上训练!华人员工实名辟谣,LeCun出面救火
更劲爆的是,团队直指Meta在提交模型时,并非用的是原版,而是Llama-4-Maverick-03-26-Experimental。为了平息争议,团队火速给出解决方案,公开对战数据同时,并尽快上线Llama 4 Maverick公开版,并随后更新榜单结果。业界一直发出质疑——Llama 4的设计更像是古早的模型,复杂MoE架构、超大参数规模、高内存需求,与开发者需求渐行渐远。然而,开发者下载后发现,Meta公开的与HF公开下载的模型大相径庭,一时间大模型排行榜被全网骂惨。
2025-04-09 15:27:22
50
转载 刚刚,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座
秉承对开源的承诺,Meta将Llama 4 Maverick和Llama 4 Scout提供给用户下载,用户可以在llama.com和Hugging Face上获取,之后这些模型还将在最广泛使用的云平台、数据平台、边缘硅片以及全球服务集成商上陆续上线。Llama 4 Maverick是同类中最佳的多模态模型,在编程、推理、多语言支持、长上下文和图像基准测试中超过了类似的模型,如GPT-4o和Gemini 2.0,甚至能与体量更大的DeepSeek v3.1在编码和推理上竞争。
2025-04-06 09:42:32
49
转载 再次封神!AI大模型又起飞!
是衡量大语言模型“从量变到质变”的关键,是针对特定场景的AI解决方案。是指运行一段具有特定功能的代码块的行为,以增强其处理能力,实现更复杂的任务,使大模型能够集成外部工具和资源,提升交互性和实用性。▶AI大模型技术实战—— Transformer 架构的 核心原理、应用 Fine-tuning 技术,精准微调AI大模型,2节直播课,为你展示如何利用RAG、Fine-tuning的技术来改善大语言模型的使用!老师们将大模型技术原理讲透的同时,还将丰富的商业化AI应用项目无偿分享,帮大家快速打通。
2025-04-01 12:00:37
67
转载 智谱发布首个具备深度研究和操作能力的AI Agent
这是因为智能体任务往往涉及多轮复杂交互,32B的参数量使得 GLM-4-Air-0414 能快速执行复杂任务,为AI智能体的真正大规模落地应用提供了坚实基础。将免费模型 GLM-4-Flash 的基座版本更新至 GLM-4-Flash-0414,并推出了对应的推理版本 GLM-Z1-Flash,在保留大部分效果的情况下。AutoGLM 沉思背后的模型,是我们全新推出的Agent大脑——沉思模型,即通过强化学习,让模型学会自我批评、反思、甚至沉思,在AI Agent的发展过程中,智谱始终在不断探索和创新。
2025-04-01 12:00:37
205
转载 关于DeepSeek R1的四个常见误区
而是要看是否这些反思 pattern 帮助模型提高了准确率,或者说是,带反思 token 的 response 的 accuracy 是否真的高于 response 的平均 accuracy。此外,不同的 reflection pattern 对 accuracy 的贡献也不相同,try another approach 就是比 compute again 要高级一些,模型能不能在 reward 持续上涨的过程中,自发地提升优质 reflection pattern 的出现概率,也是我们要观察的重点。
2025-03-31 13:01:35
81
转载 DeepSeek-V3深夜惊爆上新!代码数学飙升剑指GPT-5,一台Mac可跑
在 KCORES大模型竞技场中,Claude-3.7-Sonnet-Thinking无疑是LLM当之无愧的王者,DeepSeek-V3-0324以328.3分拿下第三名,仅次于Claude 3.5 Sonnet。不止如此,Cline还表示,DeepSeek-V3-0324较之前的版本增加了60%的专家(从160增加到256),使用了FP8精度训练将计算效率翻倍,不仅使前端编码能力增强,数学与逻辑能力也有所提升。如果它们能免费提供,那原本只有财力雄厚的大型机构才能获得的高级AI系统,会变得人人可用。
2025-03-26 18:57:12
114
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人