【AIGC月报】AIGC大模型启元:2025.02(DeepSeek月)

(1)o3-mini系列(OpenAI推理大模型)

2025.02.01 今天凌晨3点,OpenAI正式发布了新模型o3-mini,可在ChatGPT和API中可用。
Pro用户可无限使用o3-mini,Plus和Team用户的速率限制将是o1-mini的3倍。免费版ChatGPT用户可以免费使用o3-mini,但有次数限制。此外,o3-mini可以执行网络搜索功能,并展示完整的深度思考过程。遗憾的是,o3-mini不支持视觉推理。
  o3-mini也是 OpenAI 首款支持多项开发者需求特性的小型推理模型,包括函数调用、结构化输出和开发者消息,无需额外调整可直接应用于实际环境中。o3-mini和OpenAI o1-mini、OpenAI o1-preview 一样,也支持流式传输。开发者还能根据具体应用场景,在低、中、高三种推理强度选项中灵活选择:

  • 面对复杂难题时,可选择高推理强度让模型深入思考;
  • 面对延迟敏感问题时,可选择低推理强度优先保证速度。

在性能表现方面,OpenAI o3-mini 针对 STEM 推理进行了优化。

  • 在数学、编码和科学领域,中等推理强度的o3-mini 性能与OpenAI o1相当,但响应速度更快。专家评估发现,o3-mini给出的答案比OpenAI o1-mini更准确、清晰,推理能力更强。
  • 在美国数学竞赛(AIME 2024)中,低推理强度时o3-mini 与 o1-mini 表现相近,中等推理强度时与o1相当,高推理强度时则超越 o1-mini 和 o1;
  • 在博士水平科学问题测试中,不同推理强度的 o3-mini 表现同样出色。
  • 在研究级数学测试里,高推理强度的 o3-mini 表现优于其前代模型;
  • 在竞赛编程中,o3-mini 随着推理强度增加,Elo评分逐步提高,均超过 o1-mini,中等推理强度时与o1表现相当;
  • 在软件工程测试中,o3-mini 是表现最佳的模型。
  • 在速度上,o3-mini 平均响应时间为7.7 秒,比 o1-mini的10.16秒快了24%。

参考博客
刚刚,OpenAI发布o3-mini,可免费使用、3大推理模式
首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

(2)Falcon 3系列(阿联酋大语言模型)

2025.02.01 位于阿布扎比的科技创新研究院(Technology Innovation Institute, TII)再次推出其重磅产品——Falcon3 系列。作为一组参数规模在10亿以下的解码器(Decoder-only)大型语言模型,Falcon3系列不仅在性能和训练效率上取得了重要突破,还彰显了TII致力于推动开放、可访问的基础模型的决心。
  Falcon3 是对其前代模型的自然演进,重点提升了模型在科学、数学和代码领域的能力。这一系列包含五个基础模型:Falcon3-1B-BaseFalcon3-3B-BaseFalcon3-Mamba-7B-BaseFalcon3-7B-BaseFalcon3-10B-Base这些模型通过一系列创新技术实现了高效训练和卓越性能,以下是Falcon3在开发过程中实现的关键技术进展:

  • 1) 大规模预训练:在开发Falcon3-7B模型时,研究团队使用了1024颗H100 GPU芯片,并基于14万亿个高质量多语言数据(涵盖Web内容、代码及STEM领域),进行了一次大规模的预训练。
  • 2) 模型深度扩展:通过对冗余层的复制和2万亿高质量数据的进一步训练,研究团队将7B模型扩展为10B参数的Falcon3-10B-Base,成功提升了零样本(Zero-shot)和少样本(Few-shot)任务性能。
  • 3) 知识蒸馏技术:为开发更加紧凑高效的小模型(如Falcon3-1B和Falcon3-3B),团队采用了剪枝和知识蒸馏技术,利用不到100GB的精选数据完成预训练,显著提升了效率。
  • 4) 强化数学推理能力:Falcon Mamba 7B模型通过额外训练1.5万亿高质量数据,形成了Falcon3-Mamba-7B-Base版本,大幅提升了推理和数学任务的表现。
  • 5) 丰富的模型变体:所有Falcon3基础模型均提供多种变体,包括 Instruct、GGUF、GPTQ-Int4、GPTQ-Int8 等,满足多样化的应用需求。
    在这里插入图片描述
    在这里插入图片描述

参考博客
Falcon 3:阿联酋技术创新研究所推出世界上最小、最强大的人工智能模型
猎鹰翱翔:Falcon 3系列模型发布,端侧模型持续发力(Falcon3测试)

(3)Deep Research(OpenAI推理大模型)

2025.02.03 OpenAI临时举行小型发布会。ChatGPT上新“Deep Research”,把推理大模型的思考能力用于联网搜索。
  Deep Research功能可在数十分钟完成人类专家需要几个小时的复杂研究任务。在“人类最后的考试”上,Deep Research刷新了最高分,比o3-mini高推理设置分数高出一倍。该测试包括3000多个多选和简答题,涵盖从语言学、火箭科学到生态学的100多个主题。与o1相比,Deep Research最突出的地方在化学,人文和社会科学以及数学中,表现出类似人类的“在必要时寻找专业信息”的能力。
  另一项测试GAIA,在现实世界问题上评估AI的公开基准测试,Deep Research在3个级别的难度上均刷新记录。
  OpenAI表示,Deep Research专门为在金融/科学/工程等领域从事高强度知识工作、需要深入精确且可靠研究的人群而设计。它由OpenAI o3驱动,通过基于真实任务(涉及浏览器和Python工具的使用)的训练,采用了与o1相同的强化学习方法。只需一个提示,它就会查找分析并整合数百个在线资源,生成一份达到研究分析师水平的综合报告。
在这里插入图片描述

参考博客
OpenAI紧急加播:ChatGPT上新深度搜索,持续思考30分钟输出1万字,刷榜“人类最后的考试”
刚刚,OpenAI 再出招反击 DeepSeek!「深度研究」在这个终极测试超越 R1

(4)Mistral Small 3(Mistral AI轻量化大模型)

2025.02.03 Mistral AI开源,主打轻量化、低延迟、以Agent为中心的24B新模型Mistral Small 3,Mistral Small 3 并未使用强化学习(RL)或合成数据进行训练,因此它比像 Deepseek R1(一个出色且互补的开源技术)这样的模型更早地处于模型生产流程中。
  Mistral Small 3 在70B以下的“小型”大型语言模型类别中树立了新的标杆,在性能上能够与更大的模型(例如 Llama 3.3 70B 或 Qwen 32B)竞争,并且是像 GPT4o-mini 这样的封闭专有模型的优秀开源替代品。Mistral Small 3 的性能与 Llama 3.3 70B 指令模型相当,但在相同的硬件上速度要快 3 倍以上。
  Mistral Small可以本地部署,经过量化后,它可以完美适配单个RTX 4090或32GB内存的MacBook,是一个极其“知识密集型”的模型。它非常适合以下场景:快速响应的对话Agent、低延迟功能调用、特定领域微调。
关键特性:

  • 多语言支持:支持多种语言,包括英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语。
  • 以Agent为中心:提供顶级的Agent能力,支持原生功能调用和JSON输出。
  • 高级推理:具有最先进的对话和推理能力。
  • Apache 2.0许可:开放许可,允许用于商业和非商业目的的使用和修改。
  • 上下文窗口:32k上下文窗口。
  • 系统提示:对系统提示有很强的遵循和支持。
  • 分词器:使用Tekken分词器,词汇量为131k。

参考博客主打低延迟Agent,Mistral Small 3开源,24B媲美70B!
开源地址
https://mistral.ai/news/mistral-small-3/
https://hf-mirror.com/mistralai/Mistral-Small-24B-Instruct-2501

(5)Qwen2.5-Max(阿里巴巴大模型)

2025.02.04 2月4日凌晨,Chatbot Arena公布了最新的大模型盲测榜单,Qwen2.5-Max轻松办超越了行业翘楚DeepSeek V3、o1-mini和Claude-3.5-Sonnet等知名模型,以1332分位列全球第七名,也是非推理类的中国大模型冠军。同时,Qwen2.5-Max在数学和编程等单项能力上排名第一,在硬提示(Hard prompts)方面排名第二。这一成就不仅标志着中国大模型在国际舞台上的崛起,也展现了阿里云在人工智能领域的强大实力。
在这里插入图片描述

由于使用了大规模MoE架构以及超过20万亿token的预训练数据,可以说Qwen2.5-Max在技术上真正做到了精雕细琢,也让Qwen2.5-Max基准在测试中表现极为惊艳!
  我们都知道,Chatbot Arena LLM Leaderboard是业界公认的最公正、最权威榜单之一,它已经成为全球顶级大模型的重要竞技场,其拥有一套独特且先进的评测体系,确保每一个参与的大模型都能得到公正、科学的评估,让全球用户都能清晰了解各模型的实力与特点。
  在此次榜单更新中,Qwen2.5-Max的表现尤为突出。它不仅在综合排名上位列全球第七,还在数学和编程等单项能力上排名第一,在硬提示(Hard prompts)方面排名第二。
  在实际评测中,Qwen2.5-Max多个基准测试中超越当红炸子鸡DeepSeek V3,展现出极强的综合性能,如在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
  更令人惊叹的是,Qwen2.5-Max在多模态能力上也非常惊艳,例如在联网搜索功能中,它每一句输出都有清晰的来源标注,轻松畅快。用户可以仅用一句话,就能通过Qwen2.5-Max完成旋转球体等各种可视化创作。不仅如此,这款模型甚至能帮用户迅速开发出小游戏,比如丢掉手动操作,秒速玩转扫雷游戏。
在这里插入图片描述
在这里插入图片描述

参考博客
杭州超越杭州:阿里Qwen2.5-Max反超DeepSeek-V3!网友:中国AI正在快速缩小差距
赶超DeepSeek V3,阿里Qwen2.5-Max成非推理类中国大模型冠军
Github地址https://github.com/QwenLM/Qwen2.5

(6)s1-32B(李飞飞团队大模型)

2025.02.06 AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新杰作:s1。在数学和编程能力的评测集上,s1的表现比肩DeepSeek-R1和o1。
  而训一个这样性能的模型,团队仅仅用了16个英伟达H100,训练耗时26分钟。
据TechCrunch,这个训练过程消耗了不到50美元的云计算成本,约合人民币364.61元;而s1模型作者之一表示,训练s1所需的计算资源,在当下约花20美元(约145.844元)就能租到。
  s1团队表示,秘诀只有一个:蒸馏。
  简单来说,团队以阿里通义团队的Qwen2.5- 32B-Instruct作为基础模型,通过蒸馏谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking实验版,最终得到了s1模型。
  为了训练s1,研究团队创建了一个包含1000个问题(精心挑选那种)的数据集,且每个问题都附有答案,以及Gemini 2.0 Flash Thinking实验版的思考过程。
  目前,项目论文《s1: Simple test-time scaling》已经挂上arXiv,模型s1也已在GitHub上开源,研究团队提供了训练它的数据和代码。
  
参考博客
成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏
仅1k样本超越o1,媲美DeepSeek-R1蒸馏模型,李飞飞新作s1发布
论文地址https://arxiv.org/pdf/2501.19393
GitHub地址https://github.com/simplescaling/s1

(7)Wan2.1(阿里巴巴视频生成大模型通义万相)

2025.02.25 阿里巴巴开源 Wan2.1,在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面具有显著的优势,无论是创作者、开发者还是企业用户,都可以根据自己的需求选择合适的模型和功能,轻松实现高质量的视频生成。
同时,万相还支持业内领先的中英文文字特效生成,满足广告、短视频等领域的创意需求。
在权威评测集VBench中,万相以总分86.22%的成绩登上榜首位置,大幅领先了Sora、Minimax、Luma、Gen3、Pika等国内外视频生成模型。
基于主流的DiT和线性噪声轨迹Flow Matching范式,万相大模型通过一系列技术创新实现了生成能力的重大进步。包括自研高效的3D因果VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标,这些创新共同提升了模型的最终性能表现。
在这里插入图片描述

参考博客https://mp.weixin.qq.com/s/B0iiqSWr2MoSYbB0vgjRzQ
Github仓库https://github.com/Wan-Video/Wan2.1

(8)Claude 3.7 Sonnet

2025.02.27 公认的编程开发能力第一!Claude 3.7 Sonnet刚刚登顶WebDev竞技场榜首。
在这里插入图片描述

参考博客Claude 3.7登顶编程竞技场,大幅领先100分!最新布料模拟实测再惊艳网友

(9)GPT-4.5(OpenAI)

2025.02.27 OpenAI 正式发布了其最大、最强的聊天模型 GPT‑4.5 研究预览版本。奥特曼发推称,GPT‑4.5 让他第一次感觉像在与一个有思想的人在交谈,可以从模型那里得到真正好的建议。
  OpenAI 表示,GPT-4.5 在扩展预训练和后训练方面向前迈出了一步。通过扩展无监督学习,GPT-4.5 提高了识别模式、建立联系和产生创造性见解的能力,而无需推理。这意味着,GPT-4.5 从一开始就不是一个推理模型。
  OpenAI 的早期测试表明,与 GPT-4.5 的交互感觉更自然。它的知识库更广泛,更能遵循用户意图,而且「情商」更高,使得在提高写作、编程和解决实际问题等任务中非常有用。同时,GPT-4.5 还减少了幻觉出现。
  Cognition 联合创始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的体验,表示非常棒。在他们的智能体编码基准测试中,GPT-4.5 相较于 o1 和 4o 实现大幅改进。同时发现一个有趣的数据点:虽然 GPT-4.5 和 Claude 3.7 Sonnet 在整体基准测试中得分相似,但他们发现 GPT-4.5 在涉及架构和跨系统交互的任务上峰值更大,而 Claude 3.7 Sonnet 在原始编码和代码编辑上峰值更大。
在这里插入图片描述
  从今天开始,ChatGPT Pro 用户可以在网页版、手机版和桌面版使用 GPT-4.5。下周将向 Plus 和 Team 用户开放,再下周向企业和 Edu 用户开放。
  现在,GPT-4.5 只支持搜索、上传文件和图片和画布功能,还不支持语音模式、视频和屏幕共享等多模态功能。OpenAI 表示,未来会持续更新,让产品变得更容易使用。

  • 在 SimpleQA(评估模型的事实性回答能力)数据集上进行了测试,其中 GPT-4.5 的准确率最高,超越了前代 GPT-4o、o1 和 o3-mini,展现了 GPT-4.5 拥有惊人的世界知识。
  • GPT-4.5 能够更好地理解人类的意思,并以更细致入微的「情商」来解读微妙的暗示或隐含的期望。此外,GPT-4.5 还表现出了更强的审美直觉和创造力,它擅长帮助写作和设计。
  • 在 GPQA(科学)、AIME’24(数学)、SWE-Bench Verfied(编码)等数据集上,GPT-4.5 全面领先于 GPT-4o,但仍然逊色于 o3-mini,尤其是数学和真实编程能力。

参考博客
刚刚,GPT-4.5问世!OpenAI迄今最大、最贵模型,API价格飞涨30倍,不拼推理拼情商
刚刚,GPT-4.5发布!OpenAI最大最贵模型,主打情商高,奥特曼带娃缺席发布会

(10)Hunyuan Turbo S(腾讯快思考模型)

2025.02.27 腾讯混元新一代快思考模型 Turbo S 正式发布。区别于 Deepseek R1、混元T1等需要“想一下再回答”的慢思考模型,混元 Turbo S 能够实现“秒回”,更快速输出答案,吐字速度提升一倍,首字时延降低44%。
通过长短思维链融合,混元 Turbo S 在保持文科类问题快思考体验的同时,基于自研混元 T1 慢思考模型合成的长思维链数据,显著改进了理科推理能力,实现模型整体性能明显提升。
  在业界通用的多个公开 Benchmark 上,混元 Turbo S 在知识、数学、推理等多个领域,展现出对标 DeepSeek V3、GPT 4o、Claude等一系列业界领先模型的效果表现。
  架构方面,创新采用 Hybrid-Mamba-Transformer 融合模式,混元Turbo S有效降低了传统 Transformer 结构的计算复杂度,减少了KV-Cache缓存占用,实现训练和推理成本的下降。
  新的融合模式突破了传统纯 Transformer 结构大模型面临的长文训练和推理成本高的难题。一方面,发挥了 Mamba 高效处理长序列的能力;另一方面,也保留 Transformer 擅于捕捉复杂上下文的优势,最终构建了显存与计算效率双优的混合架构。
这也是工业界首次成功将 Mamba 架构无损地应用在超大型MoE模型上
在这里插入图片描述

在知识、数理、创作等方面,混元 Turbo S 也有不错表现。
参考博客腾讯混元新一代快思考模型 Turbo S 发布
API免费试用地址https://cloud.tencent.com/apply/p/i2zophus2x8

### 实验室九格多模态大模型使用文档 实验室的九格多模态大模型(InternVL 2.0)是一个强大的工具,旨在探索多模态大模型的能力边界[^3]。以下是关于如何查找和使用该模型的相关信息: #### 模型官方资源 - **官方网站**:可以访问 InternVL 2.0 的官方网站以获取详细的使用说明和技术文档。网址为 [https://internvl.intern-ai.org.cn/](https://internvl.intern-ai.org.cn/)。 - **GitHub 仓库**:在 GitHub 上,提供了源代码和教程文件,用户可以通过以下链接访问:[https://github.com/OpenGVLab/InternVL](https://github.com/OpenGVLab/InternVL)。 #### 文档与教程 虽然目前没有直接提到 PDF 格式的具体使用文档,但可以从以下资源中找到相关信息: 1. **GitHub Wiki**:通常,开源项目的 GitHub 页面会包含一个 Wiki 部分,提供详细的安装、配置和使用指南。 2. **示例代码**:GitHub 仓库中通常会包含示例代码,这些代码可以帮助用户快速上手并理解模型的用法。 3. **Hugging Face Collections**:在 Hugging Face 上,也可以找到关于 InternVL 2.0 的更多资源,包括教程和预训练模型文件。地址为 [https://huggingface.co/collections/OpenGVLab/internvl-20-667d3961ab5eb12c7ed1463e](https://huggingface.co/collections/OpenGVLab/internvl-20-667d3961ab5eb12c7ed1463e)。 #### 示例代码 以下是一个简单的加载模型的代码示例,假设你已经下载了模型文件并完成了必要的环境配置: ```python import torch from transformers import AutoTokenizer, AutoModelForSeq2SeqLM # 加载 tokenizer 和模型 tokenizer = AutoTokenizer.from_pretrained("OpenGVLab/InternVL") model = AutoModelForSeq2SeqLM.from_pretrained("OpenGVLab/InternVL") # 序列化模型以便保存 torch.save(model.state_dict(), 'internvl_model.pth') # 保存模型参数 ``` #### 版本控制与序列化 对于模型的训练或微调完成后,需要对模型进行序列化处理,即将经过训练的模型转换为可移植格式。这一步骤可以通过 PyTorch 的 `torch.save` 函数实现,确保模型可以在不同环境中轻松保存、传输和加载[^2]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值