阿里云通义实验室今日正式发布其最新一代超大规模语言模型 Qwen3-235B-A22B-Instruct-2507-FP8,作为 Qwen3 系列的深度优化版本,该模型在指令遵循、复杂推理、多语言理解、长文本处理及工具调用等核心能力上实现全面跃升,综合性能超越 Kimi-K2、DeepSeek-V3 以及 Claude-Opus-2024(Claude-Opus4)等当前主流闭源大模型,再次树立开源模型的新标杆。
该模型现已在 Hugging Face 与 ModelScope 平台同步开源,支持商用与研究使用。
模型概览
Qwen3-235B-A22B-Instruct-2507-FP8 是 Qwen3 系列中面向复杂任务与专业场景的旗舰级指令微调模型,拥有 2350 亿参数(235B),采用 FP8 量化格式 发布,在保证极致推理效率的同时,保留了接近全精度模型的生成质量。
模型代号中的 “2507” 表示其训练与优化完成于 2025 年 7 月,代表了通义千问团队在模型架构、训练数据与对齐策略上的最新研究成果。
核心升级与性能亮点
🔝 256K 超长上下文支持,行业领先
本次发布最大的亮点之一是将最大上下文长度提升至 256,000 tokens,可轻松处理整本小说、大型代码库、长篇科研论文或复杂法律合同。结合优化的注意力机制,模型在长文本中的信息提取、跨段落