
语音识别
文章平均质量分 92
介绍语音识别的基础概念和实现代码
ZhengXinTang
习重要! 学而实习之, 才叫学习!
只学而不习, 不实践, 这叫本末倒置, 丢了大头顾小头;
因缘际会,所有巧合即为 和合事物;
当一个人悄悄的在反省时,努力时,改过时, 命运的齿轮便被他转动了。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
声音事件检测DESED 数据集介绍
数据集分为两个子集,如下所述。原创 2024-08-27 09:22:50 · 1541 阅读 · 0 评论 -
论文阅读HTS-AT- A HIERARCHICAL TOKEN-SEMANTIC AUDIO TRANSFORMERFOR SOUND CLASSIFICATION AND DETECTION
关于论文的中文阅读参考这里:https://blog.csdn.net/ggqyh/article/details/136098693;代码:https://github.com/RetroCirce/HTS-Audio-Transformer这里主要罗列出作者回答 关于音频事件定位的相关问题:https://github.com/RetroCirce/HTS-Audio-Transformer/issues/25;是的,这个函数是一个临时函数,你可能知道 AudioSet 去年发布了一个带有强大本地原创 2024-08-26 18:56:12 · 1043 阅读 · 1 评论 -
语音辨识中的 X-vector
语音识别中Xvector是什么?在语音识别领域,X-vector是一种用于表示说话人的声音特征的技术。X-vector通常用于说话人识别任务,其目的是从短时语音记录中提取一个固定长度的特征向量,这个向量能够有效地表示说话人的身份信息。X-vector技术涉及使用深度神经网络(DNN)学习说话人的声音特征。:首先从语音中提取基本的声学特征,如梅尔频率倒谱系数(MFCCs)。:使用这些声学特征训练一个深度神经网络。网络的目的是学习如何从特征中区分不同的说话人。原创 2024-05-05 19:05:04 · 1814 阅读 · 0 评论