FreeSWITCH 阿里云ASR TTS插件模块

最新推荐文章于 2025-08-13 15:51:18 发布

龙腾-虎跃

最新推荐文章于 2025-08-13 15:51:18 发布

阅读量237

点赞数 8

CC 4.0 BY-SA版权

文章标签：阿里云 xcode 云计算

本文链接：https://blog.csdn.net/pzhu1015/article/details/150221908

1. mod_ali_nls.so模块中集成了TTS播放，ASR识别

2. 使用FreeSWITCH标准的speak或playback:say，指定tts_engine, tts_voice即可完成文字的播放

3. 同时使用放音ivr, play_and_get_digits等都可以使用tts放音.

4. TTS还支持SSML高级复合文本的播放

5. TTS播放支持缓存, 重复的文本不再重复实时合成

6. ASR为实时语音识别，识别过程产生speech(开始说话), detected(产生识别结果), detected_timeout(识别超时)事件

配置如下:

<configuration name="ali_nls.conf" description="ali nls Configuration">
    <settings>
        <!-- 阿里语音识别请求地址 -->
        <param name="nls_url" value="ws://nls-gateway.cn-shanghai-internal.aliyuncs.com/ws/v1"/>
        <!-- 阿里云语音识别日志级别(LogError 1, LogWarning 2, LogInfo 3, LogDebug 4) -->
        <param name="log-level" value="4"/>
        <!-- 阿里云语音识别appkey -->
        <param name="appkey" value="xxxxxxxxxxxxx"/>
        <!-- 阿里云语音识别key-id -->
        <param name="access-key-id" value="xxxxxxxxxxxxxxxxxxxxxx"/>
        <!-- 阿里云语音识别key-secret -->
        <param name="access-key-secret" value="xxxxxxxxxxxxxxxxxxxxxx"/>
        <!-- 阿里云请求并发数, 200以下使用1, 以上用4 -->
        <param name="pool-events" value="1"/>
        <!-- 最大识别说话时长(ms) -->
        <param name="max-speech-timeout" value="20000"/>
        <!-- 单个TTS语音合成缓存初始值, 单位B -->
        <param name="buffer-size" value="4096000"/>
        <!-- 单个TTS语音合成缓存最大值,单位B -->
        <param name="buffer-max-size" value="8192000"/>
        <!-- 服务启动时生效，重载无用,最大缓存TTS合成语音个数,缓存几句话(voice_volume_speech_rate_pitch_rate_xxxx) -->
        <param name="max-cache-size" value="1000"/>
    </settings>
</configuration>