
LLM-tokenizer
文章平均质量分 94
LLM-tokenizer
nopSled
一周一更
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
SoundStream: An End-to-End Neural Audio Codec翻译
波形编解码器和参数编解码器。波形编解码器旨在在解码器端对输入音频样本进行忠实重建。在大多数情况下,这些编解码器依赖于变换编码技术:使用(通常可逆的)变换将输入时域波形映射到时频域。然后,对变换系数进行量化和熵编码。在解码器端,对变换进行逆变换以重建时域波形。编码器处的比特分配通常由感知模型驱动,该模型决定量化过程。(1)通常,波形编解码器对音频内容的类型做出很少或根本不做假设,因此可以对一般音频进行操作。因此,它们可以在中高比特率下产生非常高质量的音频,但在低比特率下运行时往往会引入编码伪影。翻译 2024-10-21 04:34:32 · 478 阅读 · 0 评论 -
High-Fidelity Audio Compression with Improved RVQGAN翻译
高分辨率音频的生成建模由于高维度(每秒约 44,100 个音频样本)以及具有短期和长期依赖性的不同时间尺度的结构而困难。为了缓解这个问题,音频生成通常分为两个阶段:1) 根据某些中间表示(例如梅尔频谱图)预测音频;2) 根据某些条件信息(例如文本)预测中间表示。这可以解释为具有观察中间变量的分层生成模型。自然,另一种方法是使用变分自动编码器 (VAE) 框架学习中间变量,使用学习到的条件先验来预测给定某些条件的潜在变量。翻译 2024-10-14 03:55:10 · 532 阅读 · 0 评论 -
SPEECHTOKENIZER: UNIFIED SPEECH TOKENIZER FOR SPEECH LANGUAGE MODELS翻译
当前的语音大语言模型建立在离散语音表示的基础上,可分为语义token和声学token。然而,现有的语音token并不是专门为语音语言建模而设计的。为了评估语音token是否适合构建语音语言模型,我们建立了第一个基准 SLMTokBench。我们的结果表明,语义token和声学token都不是理想的选择。因此,我们提出了 SpeechTokenizer,一种用于语音大语言模型的统一语音tokenizer。SpeechTokenizer 采用带有残差矢量量化 (RVQ) 的编码器-解码器架构。翻译 2024-08-22 04:27:39 · 876 阅读 · 0 评论