阿里Qwen3 全部情报汇总,本地部署指南,性能全面超越 DeepSeek R1

前言

图片

开源 8 款模型:6 款 Dense 模型 +2 款 MoE 模型

技术细节大家可以看看 Qwen 技术博客,建议点开看看,干货很多:https://qwenlm.github.io/blog/qwen3/

图片

8 个不同尺寸的模型,照顾到了所有场景:

6 款 Dense 模型:

0.6B、1.7B、4B、8B、14B、32B

2 款 MoE 模型:

Qwen3-235B-A22B (MoE, 总大小 235B, 激活参数 22B, 上下文 128K)

Qwen3-30B-A3B (MoE, 总大小 30B, 激活参数 3B, 上下文 128K)

混合思维模式,搭载了 thinking 开关,可以直接手动控制要不要开启 thinking

最大的这个 Qwen3-235B-A22B 在强劲性能的基础上,部署成本仅为 Deepseek R1 的 35%。

Qwen3-30B-A3B 的激活参数只有 3B,性能却可以跟 QWQ-32B 打平,成本只有 10%,可以在消费级显卡上部署。

0.6B 的小参数模型适合在移动设备上部署。

图片

在性能上 Qwen 3 的每个尺寸得分都是同尺寸开源最强。

Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 相比,表现出极具竞争力的结果。

此外,小型 MoE 模型 Qwen3-30B-A3B 的激活参数数量是 QwQ-32B 的 10%,表现更胜一筹

图片

正如博客所说,Qwen 朋友圈非常强大,昨晚已发布,一众伙伴就 0day 级支持

图片

你可以在 Qwen 官网直接与 Qwen3v 不同参数模型直接对话:https://chat.qwen.ai/

图片

本地部署

ollama

模型页:https://ollama.com/library/qwen3

运行:ollama run qwen3

其他尺寸,在后面加参数即可,比如:ollama run qwen3:32b

可以在提示词后输入 /no_think 来切换 Ollama 中的无思考模式。

备注⚠️:ollama 运行的是量化版,效果有折扣

LM Studio

地址:https://lmstudio.ai/

图片

图片

vLLM

图片

需要升级到 v0.8.4 以上,最好 v0.8.5

地址:https://github.com/vllm-project/vllm/issues/17327

vllm serve Qwen/Qwen3-235B-A22B-FP8 --enable-reasoning --reasoning-parser deepseek_r1 --tensor-parallel-size 4

SGLang

需要升级到SGLang 0.4.6.post1

地址:https://github.com/sgl-project/sglang

pip3 install "sglang[all]>=0.4.6.post1"

python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B --tp 8 --reasoning-parser qwen3

python3 -m sglang.launch_server --model Qwen/Qwen3-235B-A22B-FP8 --tp 4 --reasoning-parser qwen3

图片

CPU 部署
llama.cpp

可以用 llama.cpp 运行起 Qwen3 量化版本、动态量化版本!

地址:https://huggingface.co/collections/unsloth/qwen3-680edabfb790c8c34a242f95

OpenRouterAI

openrouter 提供了免费的 API

地址:https://openrouter.ai/models?order=newest&q=qwen3

图片

KTransformer

Xeon 铂金 4 代 + 4090 运行 Qwen3-235B-A22B 单个请求可以达到 13.8 token/s, 4 个请求并行可以达到总计 24.4 token/s

地址:http://github.com/kvcache-ai/ktransformers/blob/main/doc/en/AMX.md

Mac

图片

Mac 上也可以跑 Qwen3 了

地址:https://github.com/ml-explore/mlx-lm/commit/5c2c18d6a3ea5f62c5b6ae7dda5cd9db9e8dab16

pip install -U mlx-lm
# or
conda install -c conda-forge mlx-lm

支持设备

  • iPhone: 0.6B, 4B
  • Macbook: 8B, 30B, 3B/30B MoE
  • M2, M3 Ultra: 22B/235B MoE

Qwen3 优点还有很多,我正在下载,随后再发本地部署后的测试情况:

  • Qwen3 是全球最强开源模型,性能全面超越 DeepSeek R1,国内第一个敢说全面超越 R1 的模型,之前都是比肩
  • Qwen3 是国内首个混合推理模型,复杂答案深度思考,简单答案直接秒回,自动切换,提升智力 + 节省算力双向奔赴
  • 模型部署要求大幅降低,旗舰模型仅需 4 张 H20 就能本地部署,部署成本估算下来是能比 R1 下降超 6 成
  • Agent 能力大幅提升,原生支持 MCP 协议,提升了代码能力,国内的 Agent 工具都在等它
  • 支持 119 种语言和方言,包括爪哇语、海地语等地方性语言,全世界都可以用上 AI
  • 训练数据 36 万亿 token,相比 Qwen2.5 直接翻倍,不仅从网络抓取内容,还大量提取 PDF 的内容、大量合成代码片段
  • 模型部署要求大幅降低,旗舰模型仅需 4 张 H20 就能本地部署,是 R1 的三分之一

图片

零基础入门AI大模型

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

需要的可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

这份完整版的学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

### DeepSeek-R1-Distill-Qwen-1.5B 模型本地部署教程 #### 准备工作 为了成功部署 DeepSeek-R1-Distill-Qwen-1.5B 模型,环境配置至关重要。确保安装 Python 3.x 版本以及必要的依赖库[^1]。 #### 安装依赖项 通过 pip 工具来安装所需的软件包: ```bash pip install torch transformers accelerate ``` 这些工具提供了运行深度学习模型所需的核心功能和支持加速计算的能力。 #### 下载预训练模型 利用 Hugging Face 的 `transformers` 库可以方便地获取预训练好的 Qwen 模型权重文件: ```python from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "DeepSeek-R1-Distill-Qwen-1.5B" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) ``` 这段代码会自动下载并缓存指定名称下的模型及其配套词表。 #### 加载与推理设置 完成上述准备工作之后,就可以加载已经保存下来的模型实例来进行预测操作了。下面是一个简单的例子展示如何使用该模型生成文本回复: ```python import torch def generate_response(prompt_text): inputs = tokenizer(prompt_text, return_tensors="pt").input_ids.to('cuda' if torch.cuda.is_available() else 'cpu') outputs = model.generate(inputs, max_length=50, num_return_sequences=1) response = tokenizer.decode(outputs[0], skip_special_tokens=True) return response ``` 此函数接收一段提示作为输入参数,并返回由模型产生的相应输出字符串。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值