# Speech Commands Recognition
## 内容介绍
https://zhuanlan.zhihu.com/p/331833198
## 实验结果
| Local CV Score | Test Score |
| -------------- | ------------- |
| 0.977 ± 0.001 | 0.975 ± 0.001 |
本方案基于pytorch和[keras4torch](https://github.com/blueloveTH/keras4torch)。为方便移植到其他框架测试,下面列出了训练用到的主要设定。
## 主要设定
| setting | value |
| ----------------- | ---------------------------- |
| features | 1x32x32 melspectrogram |
| model | wide resnet28 |
| total parameters | 36491726 |
| epochs | 40 |
| batch size | 96 |
| optimizer | SGD with momentum |
| learning rate | 1e-2 -> 3e-3 -> 9e-4 -> 8e-5 |
| L2 regularization | 1e-2 |
| label smoothing | 0.1 |
| epoch time | 82s (1 * RTX 2080Ti) |
## 模型结构

## 运行仓库代码
#### 环境配置
```txt
torch>=1.6.0
keras4torch==1.1.3
scikit-learn==0.23.2
librosa==0.8.0
```
如果使用linux系统,需要先执行如下命令才能安装librosa。
```bash
! sudo apt-get install -y libsndfile1
```
#### 数据预处理
确保原始数据被放在data/ 文件夹中,运行preprocess.ipynb。
这些文件的结构如下:
- data/
- train/
- test/
- preprocess.ipynb
- train.ipynb
#### 训练和预测
在上一步完成的基础上,运行train.ipynb。
结束后,对测试集的预测(概率值)将被保存为一个.npy文件。
## 问题反馈
+ [Github Issue](https://github.com/blueloveTH/speech_commands_recognition/issues)
+ Email: [email protected]

土豆片片
- 粉丝: 1890
最新资源
- 单片机智能充电器的方案设计大学课程方案设计报告书.doc
- 互联网+背景下三三课例研修模式实践研究.docx
- 钢筋工程的质量控制.doc
- 怎样调适光线照射的角度.doc
- 计算机科学与技术的现代化运用.docx
- DGSS-探矿工程数据采集.ppt
- 计量基础知识与计量管理培训讲义.ppt
- 地砖、地板、地面施工方案.docx
- 中医药科教信息管理系统科研项目管理系统用户操作手册.doc
- OCR Large Multi-model Model,基于Internvl2微调OCR文字检测的多模态大模型,在4张A800上基于internvl2-8b模型微调 不仅在ocr文字检测任务上,在大多
- 科来网络回溯分析技术解决方案.docx
- 计算机科学技术对物联网的促进作用研究.docx
- Photoshop设计方案色彩搭配图标及其详解.doc
- 智房在澳洲用AI+大数据帮助解决找房买房问题.docx
- 物业验收与移交资料清单229239.doc
- 主题公园的八大化发展趋势.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈


