OpenBayes 教程上新丨Qwen-Image 刷新图像编辑 SOTA,实现精准中文渲染

近期,阿里通义千问团队开源首个图像生成基础模型 Qwen-Image,参数量达 20B,采用全新 MMDiT 架构,刷新了图像生成模型 SOTA。

Qwen-Image 专注于提升 AI 在两大核心场景的能力:复杂的文本渲染与精准的图像编辑。无论是海报上的标语、PPT 里的长段落文字,还是古籍中的诗词意境,Qwen-Image 都能凭借卓越的中英文渲染能力精准呈现,字形、排版、语义俱佳。在多个评测榜单中,文字渲染均获得 SOTA。尤其值得一提的是,Qwen-Image 在中文渲染上的强大性能为开源视觉模型的中文能力建设提供了有力补充,中文更自然地嵌入视觉模型渲染体系,单字渲染的准确率达到 58.3%,为需要精确输出中文的应用场景提供了可靠选择。

在图像编辑方面,Qwen-Image 提供了强大的多维度功能,不仅支持风格迁移、增删改等基础操作,也能实现局部修改、人物姿态调整等细节功能,即便是普通用户,也能使用 Qwen-Image 轻松实现媲美专业水准的图像编辑效果。链式编辑赋予了模型强大的「记忆锚定」能力,在多轮连续修改后,仍能保持主体 ID 的一致性,告别「修一次变一次」的困扰。

「Qwen-Image:具有高级文本渲染能力的图像模型」现已上线至 OpenBayes公共教程板块,立即部署,专业效果轻松上手!

教程地址:

https://go.openbayes.com/njajP

Demo 运行

01 Demo 运行阶段

1.登录 OpenBayes,在「公共教程」页面,选择「Qwen-Image:具有高级文本渲染能力的图像模型」教程。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3.选择「NVIDIA RTX A6000-2 48GB」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

小贝总专属邀请链接(直接复制到浏览器打开):

https://go.openbayes.com/9S6Dr

4.等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

02 效果演示

进入运行页面后,在输入框内输入 Prompt,「Advanced Settings」选项中可以设计高级参数,运行即可。经过小贝上手实测,Qwen-Image 的文字渲染能力确实很强,能够稳定实现字形精准、排版工整。

* Prompt:一个二次元风格的女孩,精致动漫脸,眼睛闪亮,粉色长发、戴有白色蝴蝶结发饰。手持发光羊皮纸,纸上工整手写「Qwen-Image 模型开源,在复杂文本渲染和精确图像编辑方面取得了显著进展。」,服装为魔法学院制服,背景为星空书房、悬浮魔法书,带有粒子光效。吉卜力画风,柔光滤镜,景深虚化

* Prompt:平面海报设计,背景采用莫兰迪色系的渐变柔光处理,主色调以灰粉色为基底,叠加雾霾粉与燕麦白的层次过渡,核心文字采用居中排版结构:「Qwen-Image:具有高级文本渲染能力的图像模型」现已上线至 OpenBayes公共教程板块,立即部署,专业效果轻松上手!装饰元素采用抽象几何线条沿主色调延伸,卡通风格动漫机器人在背景,与细微光粒子及纸张褶皱纹理相互呼应,同时确保文字边缘锐利无锯齿。

<think>我们参考用户的题:如何将魔搭平台下载的Qwen-Image模型(即Qwen-VL-Chat)转换为Ollama支持的格式并在本地部署。 根据引用[3]和引用[4],我们知道Ollama支持通过Modelfile来创建自定义模型,而Qwen2.5-VL模型已经支持GGUF格式(一种适用于本地推理的量化格式)。魔搭(ModelScope)上的Qwen-VL-Chat模型可以通过转换工具转换为GGUF格式,然后通过Ollama部署。 具体步骤如下: ### 步骤1:在魔搭上下载Qwen-VL-Chat模型 使用ModelScope下载模型,注意需要下载原始模型(包含模型权重和配置文件),而不是直接使用已经转换的GGUF格式(如果魔搭上没有提供GGUF格式,则需要我们自己转换)。 ```bash pip install modelscope ``` 然后,我们可以使用以下Python代码下载模型(这里以Qwen-VL-Chat为例): ```python from modelscope.hub.snapshot_download import snapshot_download model_dir = snapshot_download('qwen/Qwen-VL-Chat', revision='master') ``` 下载的模型将保存在`model_dir`指定的目录(默认为当前用户的`.cache/modelscope/hub`目录)。 ### 步骤2:将模型转换为GGUF格式 Ollama目前支持GGUF格式的模型文件。我们可以使用[llama.cpp](https://github.com/ggerganov/llama.cpp)项目中的转换脚本将Hugging Face格式的模型转换为GGUF格式。 注意:由于Qwen-VL-Chat是多模态模型,转换过程需要支持其图像编码器。目前,llama.cpp已经支持一些多模态模型的转换,但需要确认Qwen-VL是否在支持之列。我们可以参考llama.cpp的文档和示例。 #### 2.1 克隆llama.cpp并安装依赖 ```bash git clone https://github.com/ggerganov/llama.cpp cd llama.cpp make ``` #### 2.2 将模型转换为GGUF格式 首先,我们需要将下载的模型(Hugging Face格式)转换为FP16格式,然后再转换为GGUF格式。由于是多模态模型,我们需要使用llama.cpp中提供的多模态转换支持。 注意:转换多模态模型可能需要额外的步骤。我们可以参考llama.cpp中关于多模态模型的示例(例如llava模型的转换)。 由于Qwen-VL-Chat的结构与llava类似,我们可以尝试类似的转换命令: 1. 将原始模型转换为FP16格式(使用llama.cpp中的`convert.py`脚本): ```bash # 在llama.cpp目录下 python3 convert.py --model-dir /path/to/downloaded/Qwen-VL-Chat --outtype f16 ``` 这里`/path/to/downloaded/Qwen-VL-Chat`是之前下载的模型目录。 2. 将转换后的FP16模型转换为GGUF格式(使用llama.cpp中的`convert.py`脚本): ```bash # 在llama.cpp目录下 python3 convert.py --model-dir /path/to/downloaded/Qwen-VL-Chat --outtype gguf ``` 但是,请注意,以上步骤是针对纯文本模型的。对于多模态模型,我们需要使用支持多模态的转换方式。目前,llama.cpp已经支持Qwen-VL的转换(参考:https://github.com/ggerganov/llama.cpp/pull/6012)。我们可以使用以下步骤: ```bash # 进入llama.cpp目录 cd llama.cpp # 安装Python依赖 pip install -r requirements.txt # 转换模型(注意:需要指定多模态参数) python3 convert.py /path/to/downloaded/Qwen-VL-Chat --outtype gguf --vocab-type bpe --image-model clip-vit-large-patch14-336 ``` 转换完成后,我们将在模型目录下得到GGUF格式的模型文件(例如`ggml-model-f16.gguf`)。 ### 步骤3:量化模型(可选) 为了减少模型大小并提高推理速度,我们可以对GGUF模型进行量化。llama.cpp提供了多种量化方法,例如Q4_K_M(推荐在性能和精度之间取得平衡)。 ```bash ./quantize /path/to/ggml-model-f16.gguf /path/to/qwen-vl-chat-Q4_K_M.gguf Q4_K_M ``` ### 步骤4:创建Ollama Modelfile 现在,我们有了GGUF格式的模型文件,可以创建Modelfile来构建Ollama模型。 1. 创建一个目录,并将量化后的模型文件(例如`qwen-vl-chat-Q4_K_M.gguf`)放入其中。 2. 在该目录下创建Modelfile,内容如下: ```Modelfile FROM ./qwen-vl-chat-Q4_K_M.gguf PARAMETER temperature 0.7 PARAMETER num_ctx 4096 # 如果使用GPU加速,可以设置num_gpu参数(根据可用显存调整) PARAMETER num_gpu 50 ``` 注意:`num_gpu`参数表示将多少层的参数加载到GPU(如果是多模态模型,图像编码器部分也会占用显存,所以需要根据实际情况调整)。 3. 使用Ollama创建模型: ```bash ollama create qwen-vl-chat -f Modelfile ``` ### 步骤5:运行模型 使用以下命令运行模型: ```bash ollama run qwen-vl-chat ``` 如果希望使用GPU加速,确保Ollama能够检测到GPU(需要安装相应的GPU驱动和CUDA)。在运行命令时也可以指定GPU层数: ```bash ollama run qwen-vl-chat --gpu ``` ### 步骤6:测试多模态功能 在交互模式下,我们可以使用以下命令测试图像识别功能: ``` /image /path/to/image.jpg 描述这张图片的内容。 ``` 如果模型能够正确识别并描述图片内容,说明部署成功。 ### 注意事项 1. 转换过程需要足够的内存(RAM)和磁盘空间,因为原始模型和中间文件可能很大。 2. 多模态模型的推理需要更多的显存,请确保GPU有足够的显存(例如,Qwen-VL-7B在Q4_K_M量化下可能需要8GB以上的显存)。 3. 如果遇到转换题,可以参考llama.cpp的文档和issue,特别是关于多模态模型的部分。 通过以上步骤,我们就可以将在魔搭平台下载的Qwen-Image模型转换为Ollama支持的格式并在本地部署了。 ### 相关题 1. 如何优化Ollama多模态模型的推理速度? 2. 在模型转换过程中遇到错误如何解决? 3. 如何为Ollama模型添加自定义的系统提示词(system prompt)?</think>要将魔搭(ModelScope)平台下载的 Qwen-Image 模型(Qwen-VL-Chat)转换为 Ollama 支持的格式并在本地部署,请按以下步骤操作: --- ### 步骤 1:从魔搭下载原始模型 1. **安装 ModelScope**: ```bash pip install modelscope ``` 2. **下载 Qwen-VL-Chat 模型**: ```python from modelscope import snapshot_download model_dir = snapshot_download('qwen/Qwen-VL-Chat', revision='master') ``` 模型将下载到默认缓存目录(如 `~/.cache/modelscope/hub/qwen/Qwen-VL-Chat`) --- ### 步骤 2:转换模型为 GGUF 格式(Ollama 兼容) 1. **安装转换工具**: ```bash git clone https://github.com/ggerganov/llama.cpp cd llama.cpp pip install -r requirements.txt make ``` 2. **转换模型为 FP16 格式**: ```bash python convert.py /path/to/Qwen-VL-Chat --outtype f16 ``` 3. **量化模型(减小体积)**: ```bash # 推荐使用 Q4_K_M 平衡精度和速度 ./quantize ./ggml-model-f16.gguf ./qwen-vl-7b-Q4_K_M.gguf Q4_K_M ``` > **注**:量化级别选项(按体积升序): > - `Q2_K`:最小体积(约 3GB),精度较低 > - `Q4_K_M`:推荐平衡(约 4.5GB) > - `Q8_0`:高精度(约 8GB)[^3] --- ### 步骤 3:创建 Ollama Modelfile 1. **建模型目录**: ```bash mkdir ~/qwen-vl-ollama && cd ~/qwen-vl-ollama ``` 2. **创建 Modelfile**: ```bash echo 'FROM ./qwen-vl-7b-Q4_K_M.gguf PARAMETER temperature 0.7 PARAMETER num_ctx 4096 PARAMETER num_gpu 50' > Modelfile ``` - `num_gpu 50`:将 50% 的模型层加载到 GPU(根据显存调整) - `num_ctx 4096`:上下文长度[^3] --- ### 步骤 4:部署到 Ollama 1. **构建 Ollama 模型**: ```bash ollama create qwen-vl-custom -f Modelfile ``` 2. **运行模型(GPU 加速)**: ```bash ollama run qwen-vl-custom --gpu ``` 3. **测试多模态功能**: ``` /image /path/to/cat.jpg 描述这张图片中的动物 ``` 预期返回:`图片中是一只橘色的猫...`[^4] --- ### 验证部署 1. **检查模型列表**: ```bash ollama list ``` 输出应包含: ``` NAME SIZE MODIFIED qwen-vl-custom 4.5GB 2 minutes ago ``` 2. **通过 Open WebUI 访**: ```bash docker run -d -p 3000:8080 -v ~/ollama-webui:/app/backend/data ghcr.io/open-webui/open-webui:main ``` 访 `http://localhost:3000`,选择 `qwen-vl-custom` 模型上传图像测试[^2] --- ### 常见题解决 1. **转换失败**: - 确保使用最版 `llama.cpp` - 增加转换内存:`export GGML_METAL_PATH_RESOURCES=./resources` 2. **Ollama 加载错误**: - 检查 Modelfile 路径:`FROM` 后必须是相对路径 `./filename.gguf` - 降低 GPU 层数:`PARAMETER num_gpu 30`(适用于 8GB 显存) 3. **多模态失效**: - 确认使用 `/image` 指令前缀 - Ollama:`ollama upgrade` > **关键提示**:Qwen-VL 需要 Ollama v0.1.31+ 支持多模态[^4] --- ### 部署效果 完成部署后,您将获得: 1. 本地运行的 Qwen-Image 模型,响应速度约 5-15 tokens/秒(RTX 3060) 2. 支持图像理解、描述生成、OCR 等多模态功能 3. 通过 WebUI 或 API 调用(`curl http://localhost:11434/api/generate`)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值