实时语音驱动的虚拟说话人面部动画：动态视素与音素识别

PDF文件

可视语音全成

虚拟说话人

面部动画

下载需积分: 0 | 449KB | 更新于2024-08-10 | 40 浏览量 | 举报收藏

立即下载

动态视素是一种用于精确描述语音发声过程的工具，特别是在人声发音的连续性方面，静态视素无法捕捉动态特性。动态视素概念源于[8]，它关注于某个视素发音时口腔动作从产生到消失的完整变化过程，通过定义每个视素的控制函数来刻画这一动态变化。控制函数如公式（5）和（6）所示，它们依赖于峰值（α）、衰减系数（θ）和时间变量τ，分别代表从无声到有声和有声到无声的转变。这些函数定义了视素在不同时间点的参数变化，例如控制函数的峰值位置以及其前后时间段的衰减。在实时音素识别的背景下，动态视素的生成需要考虑前后视素的影响。传统算法通常计算所有前后视素的影响，但为了满足实时性需求，本文对动态视素算法进行了调整。计算时仅考虑前一个视素的影响，并且权重根据视素出现的先后关系递减，这降低了计算复杂度。动态参数的生成被分为两个时段，一个是当前视素到前一视素控制函数中心的时间段，另一个在后续视素到达时处理。实时语音驱动的虚拟说话人的实现过程中，首先通过音素识别技术对输入的语音信号进行分析，将其分解为最小的可区分单位——音素。然后，通过改进的音素识别算法，考虑到协同发音效应，利用动态视素生成算法将识别出的音素转化为面部动画所需的参数序列。这些参数序列驱动按照MPEG-4标准参数化的3D头部模型，从而实现面部动画的同步生成。实验结果通过主观MOS评测显示，本文提出的实时语音驱动虚拟说话人在同步性和逼真度方面的表现优异，分别获得了3.42和3.50的评分。这项技术在可视电话、虚拟会议、音视频聊天等即时通讯和娱乐媒体领域具有广泛的应用前景，尤其是在无障碍交流方面，对于提升用户体验具有重要意义。关键词：动态视素、实时音素识别、可视语音合成、虚拟说话人、面部动画。通过动态视素和实时音素识别的结合，本文实现了高度同步和真实感的虚拟说话人系统，为未来的语音交互和多媒体通信开辟了新的可能性。