Realtime API 语音代理端到端接入全流程教程（含 Demo，延迟 280ms）

原创于 2025-09-11 18:18:23 发布 · 448 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #个人开发

API实战指南专栏收录该内容

71 篇文章

订阅专栏

VibeCoding·九月创作之星挑战赛 10w+人浏览 640人参与

在现代应用中，实时语音交互已经成为重要功能，而低延迟的语音传输更是用户体验的关键指标。本文将详细介绍如何使用 Realtime API 实现 语音代理 的端到端接入，包括环境搭建、接口调用、低延迟优化及 Demo 演示。通过本教程，开发者可以快速掌握完整实现流程，并在自己的项目中部署 280ms 延迟 的实时语音功能。

1. 环境准备

在开始前，请确保你已准备好以下环境：

Node.js 16 及以上版本
npm 或 yarn 包管理工具
Realtime API 账号及 API Key
支持 WebSocket 的网络环境

安装所需依赖：

npm install ws axios

这里我们使用 ws 来建立 WebSocket 连接，axios 用于 REST API 调用。

2. 创建语音代理项目结构

建议创建如下项目目录结构：

realtime-voice-agent/
├── index.js
├── package.json
└── demo/
    └── sample_audio.wav

index.js：核心接入逻辑
demo/sample_audio.wav：测试语音文件

3. 端到端接入流程

3.1 获取 Token

调用 Realtime API 获取临时 Token 用于 WebSocket 鉴权：

const axios = require('axios');

async function getToken() {
  const response = await axios.post('https://api.realtime.example.com/getToken', {
    apiKey: 'YOUR_API_KEY'
  });
  return response.data.token;
}

3.2 建立 WebSocket 连接

const WebSocket = require('ws');

async function connect() {
  const token = await getToken();
  const ws = new WebSocket(`wss://api.realtime.example.com/voice?token=${token}`);

  ws.on('open', () => {
    console.log('WebSocket 连接已建立');
  });

  ws.on('message', (data) => {
    console.log('收到语音数据:', data.toString());
  });

  return ws;
}

3.3 发送语音数据

const fs = require('fs');

async function sendAudio(ws) {
  const audioBuffer = fs.readFileSync('./demo/sample_audio.wav');
  ws.send(audioBuffer);
  console.log('语音数据已发送');
}

3.4 接收识别结果

ws.on('message', (data) => {
  const result = JSON.parse(data);
  if(result.event === 'transcription') {
    console.log('实时识别结果:', result.text);
  }
});