• 博客(1036)
  • 收藏
  • 关注

原创 Meta 收购 AI 音频初创 Waveforms;物业和医疗语音公司 EliseAI 获 a16z 领投,估值 20 亿美元

我们欢迎更多的小伙伴参与。

2025-08-09 15:07:50 562

原创 MiniMax 语音模型升级,跨语种复刻保留口音,多语种增至 40 个;FlowSpeech:书面语转口语 TTS 服务丨日报

我们欢迎更多的小伙伴参与。

2025-08-08 12:28:53 546

原创 Krisp 推出对话轮次转换模型,基于纯音频信号;DeepMind 发布世界模型 Genie 3 ,可保持数分钟一致性丨日报

Krisp 近日推出一款轻量级、低延迟的音频轮次转换模型,旨在显著提升语音 AI 智能体(Voice AI Agents)与用户交互的自然流畅度。该模型专注于预测当前说话者何时结束发言,现已免费集成到 Krisp 的 VIVA SDK 中。

2025-08-07 12:01:47 783

原创 AI 客服还不够聪明,但已超过月薪五千的人类丨RTE Meetup 回顾

未来,消费者更可能倾向于与 AI 沟通,而非人工客服,因为这将成为解决问题的最高效途径。」投资机构 Bessemer Venture Partners 在报告里预测。过去五年,Y Combinator 总共孵化了 80 家语音 AI 项目,其中有近一半共 37 家项目与语音 AI 客服相关,涉及电话外呼、智能客服、餐馆酒店预定、招聘等诸多企业服务场景。

2025-08-07 11:55:02 823

原创 小米开源声音理解模型 MiDashengLM-7B;B 站海外上线 AI 原声翻译功能,还原 UP 主声线丨日报

NotebookLM 将为「音频概览」(Audio Overviews)和即将推出的「笔记本应用」(Flashcards 和 Quizzes)提供全新的自定义流程。谷歌 NotebookLM 的最新更新显示其重点扩展到了个人知识管理和学习支持方面。**音频概览自定义菜单引入了预设模式,如深入解析、辩论或批评,允许用户定制生成音频的格式。**选择模式后,用户可以调整语言、长度并添加自定义指令,相较于之前的版本提供了更高的控制度。

2025-08-04 17:41:27 981

原创 直播预告:我不是网红,可以 Build in Public 吗?丨RTE Dev Talk

分享作品、获取反馈、推进彼此,在 X 上有 17.3 万人加入了 Build in Public 社群,该社群甚至还有赞助商。与用户一起快速迭代产品?市场推广和产品构建调换次序?还是 AI 时代个体协作的新方式?RTE 开发者社区邀请到了来自多位 builder ,一同探讨其中的机遇和策略。参与嘉宾中,正是从一篇推文开始和网友一起成长的项目。作为最早一批 AI 玩具创业团队,从第一天起践行 Build in Public 理念,Folotoy 借助社区力量,十余人团队跑出数万台出货量、20+%复购率。

2025-08-01 19:57:47 840

原创 Vercel 发布 AI SDK 5,引入语音 API;Ollama 新版本支持多模态交互 丨日报

日前,腾讯研究院发布最新一期《仲夏六日谈》,主题为《AI 时代如何把想象力变成一种竞争优势?》. 本次对话嘉宾拥有多位 AI 创企的创始人,大家分别讨论了 AI 时代下,想象力与竞争的相互转化。主持人、腾讯研究院资深专家袁晓辉指出,在 AI 越来越具备行动力的时代,人的想象力反而可能成为最后的独特优势。围绕对未来 3 到 5 年的展望:捏 Ta CEO 胡修涵预测会有个人创作者用智能体 IP 打造「一人公司」;井英科技创始人朱江强调 AI 让人人都能表达内心的故事并与内容更深互动;

2025-08-01 16:58:03 547

原创 引爆 AI 会议工具潮流,Granola 打造 2.5 亿美元估值产品的秘密丨Voice Agent 学习笔记

以下文章来源于 yikai 的摸鱼笔记,作者 yikai大家好~这是 Voice Agent 学习笔记系列的第 36 篇。我是课代表十三👩🏻‍💻。本期学习笔记的内容来自小宇宙播客节目《跨国串门儿计划》。这是一档使用 AI 技术将英文播客翻译成中文播客,并保留嘉宾原有声线的节目。用中文听英文播客,扫码感受神奇体验!Granola 是一款利用 AI 整理和总结会议纪要的工具,凭借其新颖的交互方式在短时间内迅速成为科技、销售、招聘等多个领域专业人士的必备应用。

2025-07-31 20:27:41 804

原创 语音客服公司驯鹿 AI 获数千万 A+轮融资;扎克伯格:眼镜将成为用户与 AI 交互的主要方式丨日报

我们欢迎更多的小伙伴参与。

2025-07-31 17:54:08 674

原创 阿里小号停止续费,10 月底下架 App;音频技术公司 Bragi 联合 OpenAI 为第三方耳机引入 GPT 语音助手丨日报

我们欢迎更多的小伙伴参与。

2025-07-30 19:07:26 1068

原创 WPS 灵犀语音助手:AI 对话处理文档;通义 Qwen3-MT:支持 92+语言互译的 AI 翻译引擎丨日报

我们欢迎更多的小伙伴参与。

2025-07-29 21:08:35 732

原创 阶跃星辰端到端语音模型 Step-Audio 2:深度思考+音色切换;11Labs 对话式 AI 增加 WebRTC支持丨日报

我们欢迎更多的小伙伴参与。

2025-07-28 19:26:45 888

原创 Voice AI Agent 知识库:打造你自己的语音智能体!

📌 Real-Time AI Demo:通过实际演示,直观感受 Voice AI 的魅力。💻 481 个 Voice Agent 和 Real-Time AI 的创新产品。📝 Voice Agent 学习笔记:洞悉最懂 AI 语音的头脑在思考什么。⚙️ 有话题的技术:深入探讨 Voice AI 领域的热门模型和技术。💻 有亮点的产品:发现前沿的 Voice AI 产品应用和场景。🛎️ 投资资讯:获取 Voice AI 行业的最新投资动态。🧠 和最懂 AI 语音的创新者的思考沉淀。

2025-07-24 19:13:01 169

原创 WAIC 送票丨最关心语音 AI 的一群人都来世界人工智能大会了

7 月 26-29 日,上海,,来全球 AI 领域最受关注的盛会相遇!本次盛会汇聚了全球 AI 行业领导者、初创企业和新锐开发者。其中在世博展览馆有 200 家创新项目在 Future Tech 展区交流。作为合作伙伴,推荐的多个项目也入选其中。我们还准备了 Voice Agent & Real Time AI等活动,欢迎你来一起感受交流技艺,探索新知的乐趣!请翻阅这篇指南,不要错过任何精彩内容。别忘了加入我们的,线上交友线下聊!我们还准备了送给你,请留意文末彩蛋!

2025-07-22 20:49:27 992

原创 开源对话式 AI 平台 Intervo:支持电话、语音、聊天多渠道;Runway 发布新动捕模型,支持唇同步和复杂动作捕捉丨日报

我们欢迎更多的小伙伴参与。

2025-07-21 17:43:03 823

原创 谷歌搜索推出 AI 代打电话功能;Hume AI 声音克隆支持说话风格模仿丨日报

我们欢迎更多的小伙伴参与。

2025-07-18 17:09:16 929

原创 Grok 虚拟陪伴很火,但你还可以造一个属于自己的丨社区来稿

Grok 的虚拟陪伴很火,但你有没有想过造一个属于自己的 AI 伴侣?Project AIRI 正将这个想法变为现实。它是一个开源的 AI 虚拟伴侣系统,作者将其描述为「承载 Waifu 灵魂的容器」与「数字生命体」,致力于将这些虚拟角色带入现实世界,并期望能达到传奇 VTuber Neuro-sama 的高度。这个 AI 伴侣不仅能与你实时语音聊天,还能陪你一起玩《我的世界》和《异星工厂》等游戏,支持 Web、macOS 及 Windows 平台。

2025-07-18 10:37:53 823

原创 语音 AI 公司 Deepgram 发布 Saga,面向开发者的语音操作系统;OpenS2S:完全开源的共情语音大模型丨日报

OpenAI 的 ChatGPT 录音模式已向所有 Plus 用户全面推出,目前在 macOS 桌面应用程序中上线。用户可通过语音直接与 AI 交互,支持实时记录和内容总结。录音模式在会议记录、创意头脑风暴、语言翻译与学习等场景中表现出色,能快速将语音转化为结构化文本内容。其背后是 OpenAI 在语音识别和自然语言处理领域的深厚积累,目前仅限 macOS 桌面端应用程序,未来可能扩展至 iOS 和 Android 平台。

2025-07-17 17:07:31 1028

原创 Mistral 开源首个音频模型 Voxtral:转录+音频理解;语音转写工具 Willow 筹资 420 万美元丨日报

我们欢迎更多的小伙伴参与。

2025-07-16 17:31:55 951

原创 自 4O 之后,Voice 从 Assistant 到 Agent,新机会都藏在哪些场景里?|Voice Agent 学习笔记

今天的 AI 观察来自社区新朋友 Ada 的专栏「语音智能 | Voice, Evolved」。「从命令式助手变为对话型伙伴」,Ada 从技术和场景生态,关系和能力等多方面分析了为什么语音 AI Agent 变得越来越重要。期待文章对你有所启发!十年前,我们对语音的理解:听得懂你说的话,并替你执行命令。十年后,我们也许开始期待:像一个会说话的人,听懂你、理解你、回应你,甚至陪你一会儿。

2025-07-15 19:24:09 623

原创 持续挖掘语音人才,Meta 完成收购 PlayAI;B 站推出语音模型 IndexTTS2,精确控制语音时长丨日报

我们欢迎更多的小伙伴参与。

2025-07-14 18:45:02 995

原创 专注服务实时多模态 AI,Cerebrium 宣布 850 万美元种子融资;英特尔发布 AI 语音游戏助手 SDK丨日报

我们欢迎更多的小伙伴参与。

2025-07-11 17:05:26 1017

原创 从语音识别到智能助手:Voice Agent 的技术进化与交互变革丨Voice Agent 学习笔记

最近看到 Andrew Ng 的一句话让我印象深刻:“While some things in AI are overhyped, voice applications seem underhyped right now.”(尽管 AI 中有些领域被过度炒作,语音应用却似乎被低估了)。的确,在大模型、大生成的热潮中,Voice Agent 这一领域相比之下略显低调,但背后的技术变革与落地潜力正在悄然加速。

2025-07-11 16:28:26 827

原创 对话 AI 陪伴新宠 Tolan 创始人:拒绝「恋爱脑」,「非人」陪伴更受欢迎?丨 Voice Agent 学习笔记

好的,Ajay,我想先从你的创业故事开始。这件事发生的时间并不算久远,你们的增长速度令人难以置信。你们最近宣布获得了 1000 万美元的融资,这非常令人兴奋。那么,让我们从「为什么是 Tolan」开始,你是如何启动这个项目的?大约在 18 个月前,我们开始关注这一领域。当时正值 ChatGPT 发布,Midjourney 也获得了广泛关注。我们意识到,计算机展现出了前所未有的能力,或者说,它们能够完成过去无法完成的任务,这让我们深受启发。我们从 GPT 3.5 身上看到了它在文案写作等方面的潜力。

2025-07-10 18:46:30 695

原创 OpenAI 即将推出 AI 浏览器;Perplexity 发布 AI 浏览器 Comet,语音操控网页丨日报

我们欢迎更多的小伙伴参与。

2025-07-10 17:39:55 853

原创 告别「一来一往」式对话,Soul App 全双工语音大模型让人机交互更有人情味丨社区来稿

近日,社区伙伴 Soul 分享了最新的全双工语音通话大模型,备受开发者们的关注。这篇文章进一步分享了背后双 LLMs 的结构细节。具体而言,SoulX-DuoVoice 包含一个负责对话理解与生成的 Dialogue Model 和一个负责语音生成的 Speech Model。同时还通过「说话时机」和「沉默持续时间」建模,打造了一个会主动打断、沉默的语音通话智能体模型。2025 年主动式语音 AI 进展迅速,也欢迎更多团队联系 RTE 开发者社区分享最新技术成果。

2025-07-09 18:52:58 877

原创 Meta 斥资 35 亿美元入股全球最大眼镜商;Proactor AI:实时监听语音对话,主动识别用户需求并自主行动丨日报

我们欢迎更多的小伙伴参与。

2025-07-09 18:30:11 1016

原创 B 站推进视频播客战略,「代号 H」AI创作工具同步研发;工业级开源记忆操作系统 MemOS,支持模型持续进化和自我更新丨日报

我们欢迎更多的小伙伴参与。

2025-07-08 20:09:40 754

原创 对话式 AI workshop:Voice Agent 全球五城开发实录

过去几个月,TEN Framework 团队与 Agora 和声网围绕 “对话式AI”题,踏上了横跨全球五大城市的精彩旅程——东京、旧金山、巴黎、北京、京都。五场精心筹备的Workshop 场场爆满, 汇聚了来自当地及全球的开发者、创业者、产品经理与语音技术爱好者。得益于 RTE 开发者社区与全球多地 AI 社区的鼎力支持,我们得以深入探讨 Voice Agent 的前沿趋势、真实应用场景与落地开发实践。每一站,都上演着不同的故事,碰撞出独特的火花。现在,就让我们一起回顾这趟旅程的精彩瞬间!

2025-07-04 18:50:02 724

原创 Kyutai 开源 TTS 模型;Rokid Glasses :语音 AR 免提导航丨日报

我们欢迎更多的小伙伴参与。

2025-07-04 18:26:30 657

原创 基于世界模型的实时互动游戏引擎 Mirage:可自然语言创造可互动游戏;阿里开源 OmniAvatar:音频生成全身数字人视频丨日报

我们欢迎更多的小伙伴参与。

2025-07-03 16:55:15 1216

原创 Notion 创始人 Ivan Zhao:传统软件开发是造桥,AI 开发更像酿酒,提供环境让 AI 自行发展

我们的客户涵盖各行各业,包括丰田这样的制造业企业,Figma 这样的云和软件公司,以及 90% 的福布斯云 100 强企业,还有 OpenAI 这样的人工智能研究实验室,他们都在 Notion 上运行。我的第一印象是,当时是夏天,非常炎热,而且天空灰蒙蒙的。最终,我们返回了旧金山,但我们非常喜欢在京都的经历,所以第二年,我们又回到了京都,再次这样做,找到了一家 hacker house。有趣的是,当我们住在京都时,我们将我们在旧金山的公寓出租了,因为那里的房价太贵了,我们实际上可以通过这种方式赚钱。

2025-07-02 18:46:21 984

原创 知音助聋研发AR字幕手语眼镜,能将手语合成声音;阿里开源泛音频生成模型 ThinkSound 和 2531.8h 的数据集丨日报

我们欢迎更多的小伙伴参与。

2025-07-02 18:28:43 1966

原创 Meta 成立超级智能实验室,多名顶尖语音科学家加入;TEN VAD 开源 ONNX 模型,GitHub 破 700 星丨日报

我们欢迎更多的小伙伴参与。

2025-07-01 18:56:50 1033

原创 对话 Wispr Flow 创始人 Tanay:语音输入,如何创造极致的 Voice AI 产品体验

从 Wispr Flow 可以很好地看出一个关注产品本身、且具有”产品Sense“的一个 AI 产品是怎样被创造出来的。而对于 Voice AI Interface 这一全新的交互,对于所有创业者来说都是一种全新的体验的探索。第一,用户体验重于技术指标。传统的语音识别产品追求准确率,但 Wispr Flow 追求的是"零编辑"的用户体验。这个差异看似微小,实则代表了完全不同的产品哲学。核心是从用户角度出发,什么是你希望带给用户的一种好的用户体验?

2025-07-01 17:51:54 934

原创 Meta 拟收购语音 AI 初创 PlayAI;Qwen-TTS API 正式上线,支持京沪川方言丨日报

我们欢迎更多的小伙伴参与。

2025-06-30 21:43:51 756

原创 语音能否彻底取代键盘?Wispr Flow 融资 3000 万美金背后的思考丨Voice Agent 学习笔记

语音技术并不新鲜,但为什么 Wispr Flow 能在现在获得成功?我认为有几个关键的时机因素。首先是大语言模型的成熟。以前的语音识别系统主要依赖统计模型和规则系统,无法真正理解语言的语义和上下文。而现在的大语言模型具备了真正的语言理解能力,这为智能的语音交互提供了技术基础。其次是用户期望的改变。经历了 ChatGPT 和其他 AI 工具的用户现在期望技术能够理解自然语言。他们不再满足于机械的命令式交互,而是期望更自然的对话式体验。这种期望的转变为语音交互创造了市场机会。

2025-06-30 21:02:41 872

原创 参赛报名|百万奖金+全球曝光:2025港科百创赛事正式启动!

关于香港科技大学香港科技大学(香港科大)(https://www.hkust.edu.hk/)是国际知名的大学,致力推动创新教学、卓越研究及具影响力的知识转移。香港科大着重为学生提供全面及跨学科的教学,于《泰晤士高等教育全球年轻大学排名榜2024》中排行第三,在《泰晤士高等教育大学影响力排名2024》中全球排第19、全港第一。另有13个科目跻身《2025年QS世界大学学科排名》全球50强,其中「数据科学及人工智能」学科全球排名第17位,蝉联本地大学之冠。

2025-06-27 18:39:42 654

原创 三星 Galaxy Buds 将提供 AI 实时翻译功能;中科院开源语言-视觉-语音多模态模型 Stream-Omni丨日报

我们欢迎更多的小伙伴参与。

2025-06-27 14:36:48 1025

原创 小米 AI 眼镜:主打「小爱 AI 语音助手」和「第一视角拍照录像」;出门问问发布硬件 TicNote:录音过程可发起对话丨日报

我们欢迎更多的小伙伴参与。

2025-06-26 20:41:12 743

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除