大模型如何进行部署_大模型服务平台百炼(Model Studio)-阿里云帮助中心

调优后的模型需要经过部署才能提供推理服务。模型部署后，将提供高并发、低延迟的推理服务。

支持的模型

模型类别

支持的模型

为什么选择模型部署

预置模型

（阿里云百炼支持的标准模型）

获得高并发量、高推理性能（低延迟）的推理服务。

自定义模型

（阿里云百炼平台调优后的模型）

模型调优支持的模型

部署后，模型才能用于推理或评测。

获得高并发量、高推理性能（低延迟）的推理服务。

如果需要部署更多其他模型，请参考解决方案并结合具体业务需求选择最适合的部署方案。

支持的计费方式

计费方式	支持的模型	是否支持自助扩缩容（即最大并发量可动态调节）	计费最小单位	优点	缺点
包时（后付费）	所有可部署模型	支持	小时	-	-
包月（预付费）	部分可部署模型	支持	天	比“包时”计费便宜。	-
按调用量（后付费）	只支持部分基于通义千问 2、通义2.5的自定义模型	不支持提高最大并发量需要在控制台提交申请，并等待阿里云百炼平台的人工审核。	token	不使用不计费。不使用一个月后自动释放。	支持的模型种类少。

重要

选择包时（后付费）时，即使不调用模型，部署服务仍将持续运行并产生费用。如您不再需要，请立即下线部署服务，以免产生预期之外的费用。

您可以查看模型部署的详细计费规则。具体到单次调用 token 使用量、调用次数历史统计可以前往：模型观测。

模型部署后性能参考

（由于 QPM 受调用的 token 长度影响较大，仅供参考）

模型名称	每实例参考处理能力
qwen-plus	70 QPM

计费详情

按时间计费

按时间计费方式都支持手动扩缩容，灵活调整并发量。

按使用时长计费的计费粒度更小（小时），使用灵活。
包月计费的计费周期长（天），但更加便宜（7折）。

计费方式

计费公式

按使用时长计费

费用 = 使用时长（小时）× 实例数量 × 模型对应的实例单价（不满1小时按1小时计费）

部署前可以在模型部署控制台查看不同模型的预估每小时费用。

包月计费/预付费

费用 = 购买时长（月）× 实例数量 × 模型对应的实例单价

购买资源：请前往模型部署控制台（点击右上角的资源池管理）购买。（资源购买完成后便开始计费）

退订资源：请前往主账号的退订管理退订。退订后，将根据未用时长退回未使用金额。（不满1天按1天计费）

通义千问

模型服务	模型类型	独占实例资源规格	实例单价	实例单价（预付费）
通义千问-Turbo-0624	微调模型	基础版v2-Qwen2	40元/实例/小时	20,000元/月
通义千问2.5-开源版-14B
通义千问2.5-开源版-7B
通义千问2-开源版-7B
通义千问1.5-开源版-14B		基础版
通义千问1.5-开源版-7B
通义千问3-14B		NA		无法预付费
通义千问3-8B
通义千问-Plus-0723		标准版v2-Qwen2	160元/实例/小时	80,000元/月
通义千问2.5-开源版-72B
通义千问2.5-开源版-32B
通义千问2-开源版-72B
通义千问1.5-开源版-72B		标准版
通义千问3-32B		NA		无法预付费

通义千问VL

模型服务	模型类型	独占实例资源规格	实例单价	实例单价（预付费）
通义千问VL-Plus	微调模型	基础版	40元/实例/小时	20,000元/月
通义千问VL-Max-0201		标准版	160元/实例/小时	80,000元/月

通义千问2.5-VL-7B		NA	40元/实例/小时	无法预付费
通义千问2.5-VL-32B			160元/实例/小时
通义千问2.5-VL-72B			160元/实例/小时

图像生成

模型服务	模型类型	独占实例资源规格	实例单价	实例单价（预付费）
悦动人像EMO-detect-deployment	预置模型	轻量版	20元/实例/小时	10,000元/月
悦动人像EMO-deployment
舞动人像AnimateAnyone-detect
舞动人像AnimateAnyone
通义万相-文本生成图像-0521

模型部署后性能参考

（由于 QPM 受调用的 Token 长度影响较大，仅供参考）

模型名称	每实例参考处理能力
qwen-plus	70 QPM

按模型调用量计费

按模型调用量计费方式价格很低。而如果需要进一步增加并发量，需要部署后在模型部署控制台手动申请，平台会进行人工审批。

计费方式	按模型调用量
计费公式	费用 = 模型输入 Token 数 × 模型输入单价 + 模型输出 Token 数 × 模型输出单价（最小计费单位：1 token）

重要

一个模型是可以在百炼的模型调优中进行重复训练的。

只有在基于以下基础模型，且只进行一次“SFT高效训练”后获得的自定义模型，才支持按调用量计费。

基础模型	输入单价	输出单价
通义千问3-32B	0.002元/千Token	非思考模式：0.008元/千Token 思考模式：0.02元/千Token
通义千问3-14B	0.001元/千Token	非思考模式：0.004元/千Token 思考模式：0.01元/千Token
通义千问3-8B	0.0005元/千Token	非思考模式：0.002元/千Token 思考模式：0.005元/千Token
通义千问 2.5-72B	0.004元/千Token	0.012元/千Token
通义千问 2.5-32B	0.0035元/千Token	0.007元/千Token
通义千问 2.5-14B	0.002元/千Token	0.006元/千Token
通义千问 2.5-7B	0.001元/千Token	0.002元/千Token
通义千问2.5-VL-72B	0.016元/千Tokens	0.048元/千Tokens
通义千问2.5-VL-32B	0.016元/千Tokens	0.048元/千Tokens
通义千问2.5-VL-7B	0.002元/千Tokens	0.005元/千Tokens
通义千问 2-开源版-7B	0.001元/千Token	0.002元/千Token

调用统计

您可以在模型观测页面查看已部署的模型的调用统计数据。

部署方法

您可以在控制台上部署模型，请参考以下操作步骤：

如果希望使用 API 部署模型请前往：使用 API 进行模型部署。

前往模型部署，点击部署新模型。

选择模型、计费方式，设置模型名称并开始部署。

重要

开始部署后，模型部署服务将产生费用。

部署状态为运行中时，代表该模型已部署成功。

部署后调用

模型部署成功后，支持通过DashScope、LlamaIndex、LangChain、Assistant SDK及 OpenAI 兼容进行调用。

在调用已部署成功的模型时，model的取值应为模型部署成功后的模型code。请您前往模型部署界面获取模型code。

DashScope

import os
import dashscope

messages = [
    {'role': 'system', 'content': 'You are a helpful assistant.'},
    {'role': 'user', 'content': '你是谁？'}
]
#定义字符串来存放完整的回复内容
full_response = ""
# 流式调用DashScope API
response = dashscope.Generation.call(
    # 若没有配置环境变量，请用百炼API Key将下行替换为：api_key="sk-xxx",
    api_key=os.getenv('DASHSCOPE_API_KEY'),
    model="qwen3-8b-ft-2025xxxxxxxx-xxxx",  # 请替换为模型部署成功后的code
    messages=messages,
    result_format='message',
    stream=True,  # 启用流式输出
    # Qwen3模型通过enable_thinking参数控制思考过程（开源版默认True，商业版默认False）
    # 使用Qwen3开源版模型时，若未启用流式输出，请将下行取消注释，否则会报错
    # enable_thinking=False
)
# 处理流式响应
for chunk in response:
    if chunk.output and chunk.output.choices and chunk.output.choices[0].message.content:
        content = chunk.output.choices[0].message.content
        print(chunk)  # 实时打印内容
        full_response += content  # 将内容添加到完整回复字符串中
print(full_response)

OpenAI兼容接口

import os
from openai import OpenAI


client = OpenAI(
    # 若没有配置环境变量，请用百炼API Key将下行替换为：api_key="sk-xxx",
    api_key=os.getenv('DASHSCOPE_API_KEY'),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3-8b-ft-2025xxxxxxxx-xxxx",# 请替换为模型部署成功后的code
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "你是谁？"},
    ],
    stream=True
    # Qwen3模型通过enable_thinking参数控制思考过程（开源版默认True，商业版默认False）
    # 使用Qwen3开源版模型时，若未启用流式输出，请将下行取消注释，否则会报错
    # extra_body={"enable_thinking": False}
)
full_response = ""
for chunk in completion:
    if chunk.choices[0].delta.content:
        content = chunk.choices[0].delta.content
        print(chunk)  # 实时打印每个chunk的内容
        full_response += content  # 将content添加到完整回复字符串中
print(full_response)

部署服务扩缩容

按时间计费方式部署的模型可点击黄框的扩缩容，自助、手动调节实例数量。

按调用量计费方式部署的模型点击红框的扩容申请，填写并提交扩容申请表单，等待人工审核。

部署服务下线

如果不再需要模型部署服务，需要停止服务计费，请您按照此操作下线部署服务，下线后将不再产生计费：

前往模型部署，找到要下线的部署服务，点击下线并确认。
部署状态显示“下线中”时，请耐心等待。直到该服务消失后，下线操作全部完成。

常见问题

可以上传和部署自己的模型吗？

暂不支持上传和部署自有模型，建议您持续关注阿里云百炼最新动态。此外，阿里云人工智能平台 PAI 提供了部署自有模型的功能，您可以参考PAI模型部署与推理了解部署方法。