在AI生成领域,矢量图形(SVG)的高效生成一直是技术难点。传统方法依赖复杂的图形设计工具,而OmniSVG的出现,彻底改变了这一局面。这款由复旦大学与阶跃星辰联合研发的端到端多模态SVG生成模型,支持从简单图标到复杂动漫角色的全场景生成,其核心技术基于Qwen-VL大模型,并创新性地引入了SVG分词器,实现了结构逻辑与底层几何图形的解耦,为设计、动画、UI/UX等领域提供了革命性工具。
一、核心创新:SVG分词器与Qwen-VL的结合
1. SVG分词器:离散化与结构解耦
- 问题:传统SVG生成需直接处理连续的坐标和命令,导致训练效率低下且难以控制细节。
- 解决方案:
- 离散化:将SVG的路径命令(如
M
、L
、C
)和坐标参数转化为离散的标记序列,例如将坐标(100, 200)
编码为x=100,y=200
的离散符号。 - 结构
- 离散化:将SVG的路径命令(如