RTE开发者社区-CSDN博客

原创 Meta 收购 AI 音频初创 Waveforms；物业和医疗语音公司 EliseAI 获 a16z 领投，估值 20 亿美元

我们欢迎更多的小伙伴参与。

2025-08-09 15:07:50 562

原创 MiniMax 语音模型升级，跨语种复刻保留口音，多语种增至 40 个；FlowSpeech：书面语转口语 TTS 服务丨日报

我们欢迎更多的小伙伴参与。

2025-08-08 12:28:53 546

原创 Krisp 推出对话轮次转换模型，基于纯音频信号；DeepMind 发布世界模型 Genie 3 ，可保持数分钟一致性丨日报

Krisp 近日推出一款轻量级、低延迟的音频轮次转换模型，旨在显著提升语音 AI 智能体（Voice AI Agents）与用户交互的自然流畅度。该模型专注于预测当前说话者何时结束发言，现已免费集成到 Krisp 的 VIVA SDK 中。

2025-08-07 12:01:47 783

原创 AI 客服还不够聪明，但已超过月薪五千的人类丨RTE Meetup 回顾

未来，消费者更可能倾向于与 AI 沟通，而非人工客服，因为这将成为解决问题的最高效途径。」投资机构 Bessemer Venture Partners 在报告里预测。过去五年，Y Combinator 总共孵化了 80 家语音 AI 项目，其中有近一半共 37 家项目与语音 AI 客服相关，涉及电话外呼、智能客服、餐馆酒店预定、招聘等诸多企业服务场景。

2025-08-07 11:55:02 823

原创小米开源声音理解模型 MiDashengLM-7B；B 站海外上线 AI 原声翻译功能，还原 UP 主声线丨日报

NotebookLM 将为「音频概览」（Audio Overviews）和即将推出的「笔记本应用」（Flashcards 和 Quizzes）提供全新的自定义流程。谷歌 NotebookLM 的最新更新显示其重点扩展到了个人知识管理和学习支持方面。**音频概览自定义菜单引入了预设模式，如深入解析、辩论或批评，允许用户定制生成音频的格式。**选择模式后，用户可以调整语言、长度并添加自定义指令，相较于之前的版本提供了更高的控制度。

2025-08-04 17:41:27 981

原创直播预告：我不是网红，可以 Build in Public 吗？丨RTE Dev Talk

分享作品、获取反馈、推进彼此，在 X 上有 17.3 万人加入了 Build in Public 社群，该社群甚至还有赞助商。与用户一起快速迭代产品？市场推广和产品构建调换次序？还是 AI 时代个体协作的新方式？RTE 开发者社区邀请到了来自多位 builder ，一同探讨其中的机遇和策略。参与嘉宾中，正是从一篇推文开始和网友一起成长的项目。作为最早一批 AI 玩具创业团队，从第一天起践行 Build in Public 理念，Folotoy 借助社区力量，十余人团队跑出数万台出货量、20+%复购率。

2025-08-01 19:57:47 840

原创 Vercel 发布 AI SDK 5，引入语音 API；Ollama 新版本支持多模态交互丨日报

日前，腾讯研究院发布最新一期《仲夏六日谈》，主题为《AI 时代如何把想象力变成一种竞争优势？》. 本次对话嘉宾拥有多位 AI 创企的创始人，大家分别讨论了 AI 时代下，想象力与竞争的相互转化。主持人、腾讯研究院资深专家袁晓辉指出，在 AI 越来越具备行动力的时代，人的想象力反而可能成为最后的独特优势。围绕对未来 3 到 5 年的展望：捏 Ta CEO 胡修涵预测会有个人创作者用智能体 IP 打造「一人公司」；井英科技创始人朱江强调 AI 让人人都能表达内心的故事并与内容更深互动；

2025-08-01 16:58:03 547

原创引爆 AI 会议工具潮流，Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记

以下文章来源于 yikai 的摸鱼笔记，作者 yikai大家好～这是 Voice Agent 学习笔记系列的第 36 篇。我是课代表十三👩🏻‍💻。本期学习笔记的内容来自小宇宙播客节目《跨国串门儿计划》。这是一档使用 AI 技术将英文播客翻译成中文播客，并保留嘉宾原有声线的节目。用中文听英文播客，扫码感受神奇体验！Granola 是一款利用 AI 整理和总结会议纪要的工具，凭借其新颖的交互方式在短时间内迅速成为科技、销售、招聘等多个领域专业人士的必备应用。

2025-07-31 20:27:41 804

原创语音客服公司驯鹿 AI 获数千万 A+轮融资；扎克伯格：眼镜将成为用户与 AI 交互的主要方式丨日报

我们欢迎更多的小伙伴参与。

2025-07-31 17:54:08 674

原创阿里小号停止续费，10 月底下架 App；音频技术公司 Bragi 联合 OpenAI 为第三方耳机引入 GPT 语音助手丨日报

我们欢迎更多的小伙伴参与。

2025-07-30 19:07:26 1068

原创 WPS 灵犀语音助手：AI 对话处理文档；通义 Qwen3-MT：支持 92+语言互译的 AI 翻译引擎丨日报

我们欢迎更多的小伙伴参与。

2025-07-29 21:08:35 732

原创阶跃星辰端到端语音模型 Step-Audio 2：深度思考+音色切换；11Labs 对话式 AI 增加 WebRTC支持丨日报

我们欢迎更多的小伙伴参与。

2025-07-28 19:26:45 888

原创 Voice AI Agent 知识库：打造你自己的语音智能体！

📌 Real-Time AI Demo：通过实际演示，直观感受 Voice AI 的魅力。💻 481 个 Voice Agent 和 Real-Time AI 的创新产品。📝 Voice Agent 学习笔记：洞悉最懂 AI 语音的头脑在思考什么。⚙️ 有话题的技术：深入探讨 Voice AI 领域的热门模型和技术。💻 有亮点的产品：发现前沿的 Voice AI 产品应用和场景。🛎️ 投资资讯：获取 Voice AI 行业的最新投资动态。🧠 和最懂 AI 语音的创新者的思考沉淀。

2025-07-24 19:13:01 169

原创 WAIC 送票丨最关心语音 AI 的一群人都来世界人工智能大会了

7 月 26-29 日，上海，，来全球 AI 领域最受关注的盛会相遇！本次盛会汇聚了全球 AI 行业领导者、初创企业和新锐开发者。其中在世博展览馆有 200 家创新项目在 Future Tech 展区交流。作为合作伙伴，推荐的多个项目也入选其中。我们还准备了 Voice Agent & Real Time AI等活动，欢迎你来一起感受交流技艺，探索新知的乐趣！请翻阅这篇指南，不要错过任何精彩内容。别忘了加入我们的，线上交友线下聊！我们还准备了送给你，请留意文末彩蛋！

2025-07-22 20:49:27 992

原创开源对话式 AI 平台 Intervo：支持电话、语音、聊天多渠道；Runway 发布新动捕模型，支持唇同步和复杂动作捕捉丨日报

我们欢迎更多的小伙伴参与。

2025-07-21 17:43:03 823

原创谷歌搜索推出 AI 代打电话功能；Hume AI 声音克隆支持说话风格模仿丨日报

我们欢迎更多的小伙伴参与。

2025-07-18 17:09:16 929

原创 Grok 虚拟陪伴很火，但你还可以造一个属于自己的丨社区来稿

Grok 的虚拟陪伴很火，但你有没有想过造一个属于自己的 AI 伴侣？Project AIRI 正将这个想法变为现实。它是一个开源的 AI 虚拟伴侣系统，作者将其描述为「承载 Waifu 灵魂的容器」与「数字生命体」，致力于将这些虚拟角色带入现实世界，并期望能达到传奇 VTuber Neuro-sama 的高度。这个 AI 伴侣不仅能与你实时语音聊天，还能陪你一起玩《我的世界》和《异星工厂》等游戏，支持 Web、macOS 及 Windows 平台。

2025-07-18 10:37:53 823

原创语音 AI 公司 Deepgram 发布 Saga，面向开发者的语音操作系统；OpenS2S：完全开源的共情语音大模型丨日报

OpenAI 的 ChatGPT 录音模式已向所有 Plus 用户全面推出，目前在 macOS 桌面应用程序中上线。用户可通过语音直接与 AI 交互，支持实时记录和内容总结。录音模式在会议记录、创意头脑风暴、语言翻译与学习等场景中表现出色，能快速将语音转化为结构化文本内容。其背后是 OpenAI 在语音识别和自然语言处理领域的深厚积累，目前仅限 macOS 桌面端应用程序，未来可能扩展至 iOS 和 Android 平台。

2025-07-17 17:07:31 1028

原创 Mistral 开源首个音频模型 Voxtral：转录+音频理解；语音转写工具 Willow 筹资 420 万美元丨日报

我们欢迎更多的小伙伴参与。

2025-07-16 17:31:55 951

原创自 4O 之后，Voice 从 Assistant 到 Agent，新机会都藏在哪些场景里？｜Voice Agent 学习笔记

今天的 AI 观察来自社区新朋友 Ada 的专栏「语音智能 | Voice, Evolved」。「从命令式助手变为对话型伙伴」，Ada 从技术和场景生态，关系和能力等多方面分析了为什么语音 AI Agent 变得越来越重要。期待文章对你有所启发！十年前，我们对语音的理解：听得懂你说的话，并替你执行命令。十年后，我们也许开始期待：像一个会说话的人，听懂你、理解你、回应你，甚至陪你一会儿。

2025-07-15 19:24:09 623

原创持续挖掘语音人才，Meta 完成收购 PlayAI；B 站推出语音模型 IndexTTS2，精确控制语音时长丨日报

我们欢迎更多的小伙伴参与。

2025-07-14 18:45:02 995

原创专注服务实时多模态 AI，Cerebrium 宣布 850 万美元种子融资；英特尔发布 AI 语音游戏助手 SDK丨日报

我们欢迎更多的小伙伴参与。

2025-07-11 17:05:26 1017

原创从语音识别到智能助手：Voice Agent 的技术进化与交互变革丨Voice Agent 学习笔记

最近看到 Andrew Ng 的一句话让我印象深刻：“While some things in AI are overhyped, voice applications seem underhyped right now.”（尽管 AI 中有些领域被过度炒作，语音应用却似乎被低估了）。的确，在大模型、大生成的热潮中，Voice Agent 这一领域相比之下略显低调，但背后的技术变革与落地潜力正在悄然加速。

2025-07-11 16:28:26 827

原创对话 AI 陪伴新宠 Tolan 创始人：拒绝「恋爱脑」，「非人」陪伴更受欢迎？丨 Voice Agent 学习笔记

好的，Ajay，我想先从你的创业故事开始。这件事发生的时间并不算久远，你们的增长速度令人难以置信。你们最近宣布获得了 1000 万美元的融资，这非常令人兴奋。那么，让我们从「为什么是 Tolan」开始，你是如何启动这个项目的？大约在 18 个月前，我们开始关注这一领域。当时正值 ChatGPT 发布，Midjourney 也获得了广泛关注。我们意识到，计算机展现出了前所未有的能力，或者说，它们能够完成过去无法完成的任务，这让我们深受启发。我们从 GPT 3.5 身上看到了它在文案写作等方面的潜力。

2025-07-10 18:46:30 695

原创 OpenAI 即将推出 AI 浏览器；Perplexity 发布 AI 浏览器 Comet，语音操控网页丨日报

我们欢迎更多的小伙伴参与。

2025-07-10 17:39:55 853

原创告别「一来一往」式对话，Soul App 全双工语音大模型让人机交互更有人情味丨社区来稿

近日，社区伙伴 Soul 分享了最新的全双工语音通话大模型，备受开发者们的关注。这篇文章进一步分享了背后双 LLMs 的结构细节。具体而言，SoulX-DuoVoice 包含一个负责对话理解与生成的 Dialogue Model 和一个负责语音生成的 Speech Model。同时还通过「说话时机」和「沉默持续时间」建模，打造了一个会主动打断、沉默的语音通话智能体模型。2025 年主动式语音 AI 进展迅速，也欢迎更多团队联系 RTE 开发者社区分享最新技术成果。

2025-07-09 18:52:58 877

原创 Meta 斥资 35 亿美元入股全球最大眼镜商；Proactor AI：实时监听语音对话，主动识别用户需求并自主行动丨日报

我们欢迎更多的小伙伴参与。

2025-07-09 18:30:11 1016

原创 B 站推进视频播客战略，「代号 H」AI创作工具同步研发；工业级开源记忆操作系统 MemOS，支持模型持续进化和自我更新丨日报

我们欢迎更多的小伙伴参与。

2025-07-08 20:09:40 754

原创对话式 AI workshop：Voice Agent 全球五城开发实录

过去几个月，TEN Framework 团队与 Agora 和声网围绕 “对话式AI”题，踏上了横跨全球五大城市的精彩旅程——东京、旧金山、巴黎、北京、京都。五场精心筹备的Workshop 场场爆满，汇聚了来自当地及全球的开发者、创业者、产品经理与语音技术爱好者。得益于 RTE 开发者社区与全球多地 AI 社区的鼎力支持，我们得以深入探讨 Voice Agent 的前沿趋势、真实应用场景与落地开发实践。每一站，都上演着不同的故事，碰撞出独特的火花。现在，就让我们一起回顾这趟旅程的精彩瞬间！

2025-07-04 18:50:02 724

原创 Kyutai 开源 TTS 模型；Rokid Glasses ：语音 AR 免提导航丨日报

我们欢迎更多的小伙伴参与。

2025-07-04 18:26:30 657

原创基于世界模型的实时互动游戏引擎 Mirage：可自然语言创造可互动游戏；阿里开源 OmniAvatar：音频生成全身数字人视频丨日报

我们欢迎更多的小伙伴参与。

2025-07-03 16:55:15 1216

原创 Notion 创始人 Ivan Zhao：传统软件开发是造桥，AI 开发更像酿酒，提供环境让 AI 自行发展

我们的客户涵盖各行各业，包括丰田这样的制造业企业，Figma 这样的云和软件公司，以及 90% 的福布斯云 100 强企业，还有 OpenAI 这样的人工智能研究实验室，他们都在 Notion 上运行。我的第一印象是，当时是夏天，非常炎热，而且天空灰蒙蒙的。最终，我们返回了旧金山，但我们非常喜欢在京都的经历，所以第二年，我们又回到了京都，再次这样做，找到了一家 hacker house。有趣的是，当我们住在京都时，我们将我们在旧金山的公寓出租了，因为那里的房价太贵了，我们实际上可以通过这种方式赚钱。

2025-07-02 18:46:21 984

原创知音助聋研发AR字幕手语眼镜，能将手语合成声音；阿里开源泛音频生成模型 ThinkSound 和 2531.8h 的数据集丨日报

我们欢迎更多的小伙伴参与。

2025-07-02 18:28:43 1966

原创 Meta 成立超级智能实验室，多名顶尖语音科学家加入；TEN VAD 开源 ONNX 模型，GitHub 破 700 星丨日报

我们欢迎更多的小伙伴参与。

2025-07-01 18:56:50 1033

原创对话 Wispr Flow 创始人 Tanay：语音输入，如何创造极致的 Voice AI 产品体验

从 Wispr Flow 可以很好地看出一个关注产品本身、且具有”产品Sense“的一个 AI 产品是怎样被创造出来的。而对于 Voice AI Interface 这一全新的交互，对于所有创业者来说都是一种全新的体验的探索。第一，用户体验重于技术指标。传统的语音识别产品追求准确率，但 Wispr Flow 追求的是"零编辑"的用户体验。这个差异看似微小，实则代表了完全不同的产品哲学。核心是从用户角度出发，什么是你希望带给用户的一种好的用户体验？

2025-07-01 17:51:54 934

原创 Meta 拟收购语音 AI 初创 PlayAI；Qwen-TTS API 正式上线，支持京沪川方言丨日报

我们欢迎更多的小伙伴参与。

2025-06-30 21:43:51 756

原创语音能否彻底取代键盘？Wispr Flow 融资 3000 万美金背后的思考丨Voice Agent 学习笔记

语音技术并不新鲜，但为什么 Wispr Flow 能在现在获得成功？我认为有几个关键的时机因素。首先是大语言模型的成熟。以前的语音识别系统主要依赖统计模型和规则系统，无法真正理解语言的语义和上下文。而现在的大语言模型具备了真正的语言理解能力，这为智能的语音交互提供了技术基础。其次是用户期望的改变。经历了 ChatGPT 和其他 AI 工具的用户现在期望技术能够理解自然语言。他们不再满足于机械的命令式交互，而是期望更自然的对话式体验。这种期望的转变为语音交互创造了市场机会。

2025-06-30 21:02:41 872

原创参赛报名|百万奖金+全球曝光:2025港科百创赛事正式启动！

关于香港科技大学香港科技大学（香港科大）（https://www.hkust.edu.hk/）是国际知名的大学，致力推动创新教学、卓越研究及具影响力的知识转移。香港科大着重为学生提供全面及跨学科的教学，于《泰晤士高等教育全球年轻大学排名榜2024》中排行第三，在《泰晤士高等教育大学影响力排名2024》中全球排第19、全港第一。另有13个科目跻身《2025年QS世界大学学科排名》全球50强，其中「数据科学及人工智能」学科全球排名第17位，蝉联本地大学之冠。

2025-06-27 18:39:42 654

原创三星 Galaxy Buds 将提供 AI 实时翻译功能；中科院开源语言-视觉-语音多模态模型 Stream-Omni丨日报

我们欢迎更多的小伙伴参与。

2025-06-27 14:36:48 1025

原创小米 AI 眼镜：主打「小爱 AI 语音助手」和「第一视角拍照录像」；出门问问发布硬件 TicNote：录音过程可发起对话丨日报

我们欢迎更多的小伙伴参与。

2025-06-26 20:41:12 743

空空如也

空空如也