当所有人都在追逐千亿参数的“AI军备竞赛”时,小米却用一个仅70亿参数的模型,打了一场教科书级的逆袭战。
近日,小米正式开源 MiMo-VL-7B-RL-2508 和 MiMo-VL-7B-SFT-2508 两款视觉语言模型(VLM),并在arXiv发布技术报告《MiMo-VL Technical Report》。
结果令人震惊:
🔥 在40项任务中,击败Qwen2.5-VL-7B高达35项!
🚀 OlympiadBench得分59.4,超越高达78B参数的模型!
💻 GUI任务OSWorld-G得分56.1,甚至超过专用模型UI-TARS!
🏆 Elo评分开源第一,横跨7B到72B参数范围登顶!
这不是“差不多”,而是全面碾压。
更惊人的是:这款模型不仅能“看懂”图像和视频,还能告诉你它是怎么想的——甚至你可以命令它:“别想了,直接回答”。
今天,我们就带你逐行拆解这份技术报告,看看小米是如何用“小模型”做出“大事情”的。
🌟 一句话总结:MiMo-VL 到底有多强?
维度 | 成绩 |
---|---|
MMMU | 70.6(图像理解最难测试之一) |
VideoMME | 70.8(视频理解标杆) |
OlympiadBench | 59.4(超越78B参数模型) |
OSWorld-G (GUI) | 56.1(超过专用GUI模型) |
Elo评分 | 开源VLM排名第一(7B~72B) |
社区热度 | 过去一个月下载超 1,600次(RL+SFT) |
📌 一句话概括:
MiMo-VL 是目前性能最强、推理最稳、体验最佳、生态最全的7B级开源视觉语言模型。
🔥 三大核心亮点:为什么它能“封神”?
1️⃣ 性能炸裂:7B模型干翻百B对手
MiMo-VL-7B-RL-2508 在多个权威基准测试中刷新纪录:
基准 | MiMo-VL-7B-RL-2508 | 对比模型 | 表现 |
---|---|---|---|
MMMU | 70.6 | Qwen2.5-VL-7B (~68) | 显著领先 |
VideoMME | 70.8 | 同级SOTA | 视频理解新高 |
OlympiadBench | 59.4 | 高达78B参数模型 | 以小博大 |
OSWorld-G | 56.1 | UI-TARS(专用GUI模型) | 通才胜专才 |
📌 特别值得注意的是:
在 40项综合任务对比中,MiMo-VL-7B-RL 超过了 Qwen2.5-VL-7B 长达35项,几乎全面压制。
小知识:MMMU 是目前最严苛的多模态理解测试集之一,要求跨学科知识整合、复杂逻辑推理能力。70+ 的得分意味着——它真的“懂”你在问什么。
2️⃣ 独家功能:可开关的“思维模式”
这是 MiMo-VL 最具创新性的设计——你可以控制它是否“思考”。
通过添加 /no_think
指令,用户可以在两种模式间自由切换:
模式 | 行为 | 适用场景 |
---|---|---|
✅ 思维模式(默认) | 输出完整推理过程(Chain-of-Thought) | 复杂问题、需要解释逻辑时 |
⚡ 非思维模式(加 /no_think ) | 直接输出答案,不展示中间步骤 | 快速响应、简单任务 |
👉 举个例子:
用户提问:“这张图里有什么?”
- 默认模式:AI会说:“我看到一辆车,它的前脸设计很犀利……可能是小米SU7……所以我认为……”
/no_think
模式:AI直接回答:“一辆红色的小米SU7轿车。”
💡 这种“可调节思维”机制,极大提升了模型的灵活性和实用性——既适合教育、科研等需要透明推理的场景,也适合工业部署中追求效率的应用。
更重要的是:实验数据显示,两种模式下的控制成功率都极高——思考模式100%,非思考模式99.84%,几乎不会“失控”。
3️⃣ 用户体验飙升:真实对话更自然流畅
除了冷冰冰的分数,小米还公布了内部 VLM Arena 评分(一种模拟真实对话场景的对抗性评测):
- 老版本 MiMo-VL-7B-RL:1093.9 分
- 新版本 MiMo-VL-7B-RL-2508:1131.2 分
📈 提升近40分!这意味着在实际使用中,新模型的回答更自然、更准确、更具逻辑性。
此外,MiMo-VL-7B-RL 在 Elo评分体系 下,在所有开源VLM中排名第一,横跨从7B到72B参数范围,真正实现了“小模型,大能力”。
🧠 背后技术揭秘:它是怎么变聪明的?
MiMo-VL 的强大不是偶然,而是源于一套系统性的训练方法。整个开发分为两个阶段:
第一阶段:四步预训练,打牢基础
MiMo-VL 先经历了四个阶段的“基础教育”:
- 投影器预热:让视觉编码器和语言模型初步对接;
- 视觉-语言对齐:教会模型把图像内容和文字描述对应起来;
- 通用多模态预训练:用海量图文数据训练综合理解能力;
- 长上下文SFT微调:针对复杂推理任务进行精细化调整。
这一阶段产出的是 MiMo-VL-7B-SFT 模型,已经具备强大的推理潜力。
📌 关键创新:小米没有只用人工标注数据,而是利用大型推理模型自动生成高质量的长链思维数据(Long CoT),并通过“拒绝采样”确保质量,大大提升了训练效率和数据多样性。
他们甚至将这些合成数据直接融入预训练后期阶段,而不是作为补充微调,从而避免性能饱和,持续提升能力。
📌 类比:不是考前突击,而是从小培养逻辑思维。
第二阶段:混合在线强化学习(MORL),让它“学会做人”
接下来,小米引入了一种创新的 混合在线强化学习框架(Mixed On-policy Reinforcement Learning, MORL),让模型在实战中不断优化自己。
这个过程有点像“AI高考后进职场实习”:
模型每回答一个问题,都会收到多个维度的“反馈评分”,包括:
- 👁️ 是否看清楚了图像细节?(感知准确性)
- 📍 是否准确定位了物体位置?(视觉接地能力)
- 💡 推理是否合乎逻辑?(思维链条完整性)
- 👥 回答是否符合人类偏好?(人类/AI偏好对齐)
通过这些奖励信号联合训练,最终诞生了 MiMo-VL-7B-RL ——一个更像“人类专家”的AI。
📌 挑战:跨模态、跨任务的数据干扰问题依然存在,但小米通过精心设计的训练策略,实现了相对稳定的多目标优化。
📊 实测表现:不只是分数高,实战也很强
✅ 多模态推理:吊打同级对手
在 MathVista、AI2D、PlotQA 等需要图文结合推理的任务中,MiMo-VL 显著优于 LLaVA、Qwen-VL 等主流开源模型。
✅ GUI理解:媲美专业级模型
它不仅能读懂普通图片,还能精准理解手机界面、网页按钮、App布局等 GUI 元素,甚至能告诉你“哪个图标是设置”。
这对于未来智能助手、自动化测试、无障碍访问等应用意义重大。
✅ 视频理解:看得懂动态变化
在 VideoMME 测试中,它能跟踪视频中的动作变化、事件发展,说明它不只是“看帧”,而是真正“理解剧情”。
✅ Elo评分第一:公认的“最强7B VLM”
通过内部数据集 + GPT-4o 判定的 Elo 评分体系,MiMo-VL-7B-RL 在所有开源视觉语言模型中排名第一,横跨7B到72B参数范围!
这意味着:哪怕面对百亿美元投入的大模型,小米这款“小身材”也能一战。
⚙️ 如何使用?开发者友好,一键部署
好消息是:MiMo-VL 已完全开源!
你可以在以下平台免费下载和使用:
- 🤗 Hugging Face:
- MiMo-VL-7B-RL-2508(过去一月下载 1,043 次)
- MiMo-VL-7B-SFT-2508(过去一月下载 619 次)
- 🤖️ ModelScope(魔搭):
🔧 部署建议参数:
temperature=0.3, top_p=0.95
系统提示已内置在 chat_template.json
中,无需额外配置。
📌 使用注意事项:
- 视觉输入必须放在文本之前,否则模型无法正确解析。
/no_think
必须作为用户消息的最后一部分,后面不能再跟图像或其他内容。
✅ 正确示例:
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": "car.jpg"},
{"type": "text", "text": "这辆车有什么特点? /no_think"}
]
}
]
❌ 错误示例:
# 文本在前,图像在后 —— 模型可能无法识别!
{"type": "text", "text": "描述图片 /no_think"},
{"type": "image", "image": "car.jpg"}
🛠️ 开源生态:不只是模型,还有完整评测套件
小米不仅开源了模型,还同步发布了:
- ✅ 完整的评估框架:lmms-eval
- ✅ 涵盖50+项任务的评测集
- ✅ 所有prompt模板公开
这意味着:任何研究者都可以复现结果、横向对比、二次开发,极大推动了多模态AI的可复现性和公平竞争。
小米在arXiv论文中明确表示:“我们希望为社区提供有价值的推理VLM开发经验。”
🤔 对我们普通人意味着什么?
也许你会问:这跟我有什么关系?
其实,MiMo-VL 的出现,正在悄悄改变未来的交互方式:
- 📱 下一代手机助手:未来的小爱同学可能就能“看懂”你拍的照片,自动帮你识别商品、翻译菜单、讲解景点。
- 🚗 车载AI:开车时拍一张路牌,AI立刻告诉你前方是否有施工、限速多少。
- 🎥 视频内容分析:自媒体创作者可用它自动提取视频亮点、生成字幕摘要。
- 🏥 医疗辅助:医生上传X光片,AI快速标注异常区域并提供参考意见(需合规验证)。
- 🧑🏫 教育辅导:学生拍照提问数学题,AI一步步教你解题思路。
而这一切,都基于一个仅70亿参数却异常强大的开源模型。
💡 小米的野心:不止是手机,更是AI生态
很多人以为小米只是做手机和家电,但 MiMo-VL 的发布表明:小米正在构建自己的AI技术护城河。
从自研大模型 MiMo-7B,到如今的 MiMo-VL,再到支持图像、视频、GUI 的全栈能力,小米已经悄然跻身中国AI第一梯队。
更重要的是:他们选择开源,让更多开发者、研究者可以基于 MiMo-VL 做二次开发,形成生态闭环。
这不仅是技术输出,更是一种战略格局。
✅ 总结:MiMo-VL 到底有多强?
维度 | 表现 |
---|---|
📈 性能 | 开源7B级别最强,多项测试破纪录 |
💬 推理 | 支持可开关的“思维模式”,逻辑清晰 |
🖼️ 视觉理解 | 图像、视频、GUI 全能 |
🧪 实战表现 | 内部评测得分大幅提升 |
📦 开源可用 | HuggingFace & ModelScope 免费下载 |
🛠️ 易于部署 | 兼容 Qwen 架构,开箱即用 |
🧪 评测开放 | 提供完整 lmms-eval 框架 |
📣 结语:轻量级AI的胜利
MiMo-VL 的成功告诉我们:参数不是唯一标准,聪明的训练方法 + 精细的工程优化 = 更强的AI。
在一个人人都在追逐“千亿参数”的时代,小米用一款7B模型证明:轻量级、高性能、可解释、可控制的AI,才是真正的未来方向。
如果你是开发者,不妨试试 MiMo-VL;
如果你是用户,准备好迎接一个“看得懂世界”的AI时代吧!
📌 延伸阅读 & 下载地址:
- 📄 arXiv 技术报告:https://arxiv.org/abs/2506.03569
- 🧩 GitHub 项目主页:https://github.com/XiaomiMiMo/MiMo-VL
- 🤗 HuggingFace 模型页:
- 🤖️ ModelScope 页面:
- 📊 评测框架代码:https://github.com/XiaomiMiMo/lmms-eval
💬 欢迎在评论区留言:你觉得“会思考”的AI,离我们还有多远?