调优后的模型需要经过部署才能提供推理服务。模型部署后,将提供高并发、低延迟的推理服务。
支持的模型
模型类别 | 支持的模型 | 为什么选择模型部署 |
预置模型 (阿里云百炼支持的标准模型) | 获得高并发量、高推理性能(低延迟)的推理服务。 | |
自定义模型 (阿里云百炼平台调优后的模型) | 部署后,模型才能用于推理或评测。 获得高并发量、高推理性能(低延迟)的推理服务。 |
如果需要部署更多其他模型,请参考解决方案并结合具体业务需求选择最适合的部署方案。
支持的计费方式
计费方式 | 支持的模型 | 是否支持自助扩缩容 (即最大并发量可动态调节) | 计费最小单位 | 优点 | 缺点 |
包时(后付费) | 所有可部署模型 | 支持 | 小时 | - | - |
包月(预付费) | 部分可部署模型 | 支持 | 天 |
| - |
按调用量(后付费) | 只支持部分基于通义千问 2、通义2.5的自定义模型 | 不支持 提高最大并发量需要在控制台提交申请,并等待阿里云百炼平台的人工审核。 | token |
|
|
选择包时(后付费)时,即使不调用模型,部署服务仍将持续运行并产生费用。如您不再需要,请立即下线部署服务,以免产生预期之外的费用。
您可以查看模型部署的详细计费规则。具体到单次调用 token 使用量、调用次数历史统计可以前往:模型观测。
模型部署后性能参考
(由于 QPM 受调用的 token 长度影响较大,仅供参考)
模型名称 | 每实例参考处理能力 |
qwen-plus | 70 QPM |
计费详情
按时间计费
按模型调用量计费
调用统计
部署方法
您可以在控制台上部署模型,请参考以下操作步骤:
如果希望使用 API 部署模型请前往:使用 API 进行模型部署。
| |
重要 开始部署后,模型部署服务将产生费用。 | |
|
部署后调用
模型部署成功后,支持通过DashScope、LlamaIndex、LangChain、Assistant SDK及 OpenAI 兼容进行调用。
在调用已部署成功的模型时,model
的取值应为模型部署成功后的模型code
。请您前往模型部署界面获取模型code。
DashScope
import os
import dashscope
messages = [
{'role': 'system', 'content': 'You are a helpful assistant.'},
{'role': 'user', 'content': '你是谁?'}
]
#定义字符串来存放完整的回复内容
full_response = ""
# 流式调用DashScope API
response = dashscope.Generation.call(
# 若没有配置环境变量,请用百炼API Key将下行替换为:api_key="sk-xxx",
api_key=os.getenv('DASHSCOPE_API_KEY'),
model="qwen3-8b-ft-2025xxxxxxxx-xxxx", # 请替换为模型部署成功后的code
messages=messages,
result_format='message',
stream=True, # 启用流式输出
# Qwen3模型通过enable_thinking参数控制思考过程(开源版默认True,商业版默认False)
# 使用Qwen3开源版模型时,若未启用流式输出,请将下行取消注释,否则会报错
# enable_thinking=False
)
# 处理流式响应
for chunk in response:
if chunk.output and chunk.output.choices and chunk.output.choices[0].message.content:
content = chunk.output.choices[0].message.content
print(chunk) # 实时打印内容
full_response += content # 将内容添加到完整回复字符串中
print(full_response)
OpenAI兼容接口
import os
from openai import OpenAI
client = OpenAI(
# 若没有配置环境变量,请用百炼API Key将下行替换为:api_key="sk-xxx",
api_key=os.getenv('DASHSCOPE_API_KEY'),
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen3-8b-ft-2025xxxxxxxx-xxxx",# 请替换为模型部署成功后的code
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "你是谁?"},
],
stream=True
# Qwen3模型通过enable_thinking参数控制思考过程(开源版默认True,商业版默认False)
# 使用Qwen3开源版模型时,若未启用流式输出,请将下行取消注释,否则会报错
# extra_body={"enable_thinking": False}
)
full_response = ""
for chunk in completion:
if chunk.choices[0].delta.content:
content = chunk.choices[0].delta.content
print(chunk) # 实时打印每个chunk的内容
full_response += content # 将content添加到完整回复字符串中
print(full_response)
部署服务扩缩容
按时间计费方式部署的模型可点击黄框的扩缩容,自助、手动调节实例数量。
按调用量计费方式部署的模型点击红框的扩容申请,填写并提交扩容申请表单,等待人工审核。
部署服务下线
如果不再需要模型部署服务,需要停止服务计费,请您按照此操作下线部署服务,下线后将不再产生计费:
| |
|
常见问题
可以上传和部署自己的模型吗?
暂不支持上传和部署自有模型,建议您持续关注阿里云百炼最新动态。此外,阿里云人工智能平台 PAI 提供了部署自有模型的功能,您可以参考PAI模型部署与推理了解部署方法。