近期,阿里通义千问团队开源首个图像生成基础模型 Qwen-Image,参数量达 20B,采用全新 MMDiT 架构,刷新了图像生成模型 SOTA。
Qwen-Image 专注于提升 AI 在两大核心场景的能力:复杂的文本渲染与精准的图像编辑。无论是海报上的标语、PPT 里的长段落文字,还是古籍中的诗词意境,Qwen-Image 都能凭借卓越的中英文渲染能力精准呈现,字形、排版、语义俱佳。在多个评测榜单中,文字渲染均获得 SOTA。尤其值得一提的是,Qwen-Image 在中文渲染上的强大性能为开源视觉模型的中文能力建设提供了有力补充,中文更自然地嵌入视觉模型渲染体系,单字渲染的准确率达到 58.3%,为需要精确输出中文的应用场景提供了可靠选择。
在图像编辑方面,Qwen-Image 提供了强大的多维度功能,不仅支持风格迁移、增删改等基础操作,也能实现局部修改、人物姿态调整等细节功能,即便是普通用户,也能使用 Qwen-Image 轻松实现媲美专业水准的图像编辑效果。链式编辑赋予了模型强大的「记忆锚定」能力,在多轮连续修改后,仍能保持主体 ID 的一致性,告别「修一次变一次」的困扰。
「Qwen-Image:具有高级文本渲染能力的图像模型」现已上线至 OpenBayes公共教程板块,立即部署,专业效果轻松上手!
教程地址:
https://go.openbayes.com/njajP
Demo 运行
01 Demo 运行阶段
1.登录 OpenBayes,在「公共教程」页面,选择「Qwen-Image:具有高级文本渲染能力的图像模型」教程。
2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
3.选择「NVIDIA RTX A6000-2 48GB」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!
小贝总专属邀请链接(直接复制到浏览器打开):
https://go.openbayes.com/9S6Dr
4.等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。
02 效果演示
进入运行页面后,在输入框内输入 Prompt,「Advanced Settings」选项中可以设计高级参数,运行即可。经过小贝上手实测,Qwen-Image 的文字渲染能力确实很强,能够稳定实现字形精准、排版工整。
* Prompt:一个二次元风格的女孩,精致动漫脸,眼睛闪亮,粉色长发、戴有白色蝴蝶结发饰。手持发光羊皮纸,纸上工整手写「Qwen-Image 模型开源,在复杂文本渲染和精确图像编辑方面取得了显著进展。」,服装为魔法学院制服,背景为星空书房、悬浮魔法书,带有粒子光效。吉卜力画风,柔光滤镜,景深虚化。
* Prompt:平面海报设计,背景采用莫兰迪色系的渐变柔光处理,主色调以灰粉色为基底,叠加雾霾粉与燕麦白的层次过渡,核心文字采用居中排版结构:「Qwen-Image:具有高级文本渲染能力的图像模型」现已上线至 OpenBayes公共教程板块,立即部署,专业效果轻松上手!装饰元素采用抽象几何线条沿主色调延伸,卡通风格动漫机器人在背景,与细微光粒子及纸张褶皱纹理相互呼应,同时确保文字边缘锐利无锯齿。