FPGA 中嵌入式顶点着色器的设计与实现
1. 引言
实时 3D 物体或信息可视化在日常生活中愈发重要,如手机或移动系统。在嵌入式设备(如手持设备)中进行 3D 渲染设计和实现时,需兼顾性能要求与低功耗。
实时渲染三维物体对算术性能要求高,这对运行时钟速度低且常缺乏专用硬件处理模块(如浮点运算单元 FPU)的嵌入式系统是个难题。而在桌面计算机中,显卡的昂贵算术流处理硬件承担 3D 物体渲染相关计算,通过名为着色器的小程序实现可编程性。
着色器执行与 CPU 不同,每个图元、顶点或像素都会调用一个新的程序实例。有三种略有不同类型的着色器,且同一类型实例间无通信,可独立执行,这有利于硬件设计,能并行执行任意数量实例以提高计算速度,还可采用流水线技术提高硬件资源利用率。
我们开发了用于执行顶点着色器的硬件加速器,适用于嵌入式系统,它使用极少硬件资源(FPGA 切片),是一种通过快速总线直接连接 CPU 的协处理器。CPU 上的主程序将着色器代码和输入加载到协处理器,协处理器运行着色器时,主程序可并行进行其他计算,直至读取结果。
为减少硬件资源使用,线程调度预先计算并作为着色器代码一部分存储,控制逻辑仅含程序计数器和几个多路复用器来路由数据流,为浮点计算留出空间。还开发了将 Direct3D9 顶点着色器转换为控制表的着色器转换器,可调度硬件单元操作、分析优化数据流并将计算映射到 ALU 操作,目前 ALU 可并行执行四个线程,相比软件实现有四倍速度提升。
2. 顶点着色器基础
在渲染过程中,每个 3D 点(顶点)需经过一系列计算站(渲染管线),最终在显示器上绘制。这些计算站包括坐标变换(物体到世界、世界