MiniCPM-o 2.6：面壁智能开源多模态大模型，仅8B参数量就能媲美GPT-4o，支持实时交互，在ipad等终端设备上运行

最新推荐文章于 2025-03-25 10:12:25 发布

蚝油菜花

最新推荐文章于 2025-03-25 10:12:25 发布

阅读量2k

点赞数 20

CC 4.0 BY-SA版权

分类专栏：每日 AI 项目与应用实例文章标签：人工智能开源

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

minicpm-o-advanced

MiniCPM-o 2.6 是 MiniCPM-o 系列的最新版本，具有 8B 参数量。该模型在视觉、语音和多模态直播等多个领域表现出色，性能与 GPT-4o 相当。MiniCPM-o 2.6 支持实时双语语音识别，超越了 GPT-4o 的实时识别表现，并支持 30 多种语言。

MiniCPM-o 2.6 基于先进的 token 密度技术，处理 180 万像素图像仅产生 640 个 tokens，显著提高了推理速度和效率。该模型还支持在 iPad 等端侧设备上高效运行多模态直播。

领先的视觉能力：支持处理任意长宽比的图像，像素数可达 180 万（如 1344×1344）。
出色的语音能力：支持可配置声音的中英双语实时对话，支持情感/语速/风格控制、端到端声音克隆、角色扮演等进阶能力。
强大的多模态流式交互能力：接受连续的视频和音频流，并与用户进行实时语音交互。
高效的推理能力：仅需 640 个 token 即可处理 180 万像素图像，比大多数模型少 75%。支持在 iPad 等终端设备上高效进行多模态实时流式交互。
易于使用：支持多种推理方式，包括 llama.cpp、ollama、vLLM 等。提供 int4 和 GGUF 格式的量化模型，降低内存使用和加速推理。

首先，克隆仓库并安装依赖：

git clone https://github.com/OpenBMB/MiniCPM-o.git
cd MiniCPM-o
conda create -n MiniCPM-o python

200万优质内容无限畅学