
新智元报道
编辑:KingHZ 犀牛
一段令人心碎的离别视频走红:小女孩与 AI 玩具的深情告别,揭示了对话式 AI 如何悄然融入人类情感世界,预示着实时交互技术的革命性突破。
一段视频走红了,只听声音就让人肝肠寸断:
如果只听声音,还以为只是普通的离别。但这是一个只会发生在 AI 时代的场景:
小女孩依依不舍的「姐姐」,其实是具有语音功能的 AI 玩具。

人生中第一次「告别」的痛楚,居然来自 AI 语音模块!
不过,如今很多 AI 的交互还停留在「短信」时代:在输入框中,输入问题,AI 输出文字。
但人类沟通中,重要的从来不止是语言内容——
在《Silent Messages》「沉默的信息」中,心理学家 Albert Mehrabian 提出了「梅拉宾法则」:语言内容占沟通中7% 的信息,声音占 38%,表情等身体语言占 55%。

但正如移动互联网时代,iPhone 不仅仅依赖其通信的性能,还需要触控屏、传感器等交互技术的突破,AI 交互可能是下一个万亿产业。
从技术趋势来看,多模态是大势所趋。与之同时,多模态大模型必然从「生成」演进到「交互」。
下一个关键演进方向,就是实时交互能力的普及。
多模态 LLM,让计算机出现了类人的实时语音对话能力。实时互动,早已不再局限在人与人之间。随着技术发展,一个新 AI 物种诞生了——
具有「活人感」的对话式 AI 爆发了。

今年,不止是智能体元年,也将会成为对话式 AI 的元年。
次次踩中热点的大会
10 月 31 日,声网与 RTE 开发者社区联合主办了 Convo AI&RTE 2025——第十一届实时互联网大会。
今年的大会依旧十分火爆,现场座无虚席,很多朋友只能站着听。



左右滑动查看
RTE2025 大会覆盖实时互联网以及对话式 AI 全生态,推出相关论坛及周边活动共计 20 余场,包括技术开发、趋势洞见、行业观察、创业投资等多维度话题。
2015 年,声网把面向实时音视频的 RTC 开发者大会带到中国。从那时算起,这场年度盛会已连续举办十余届,期间从未间断过。
大会起初专注于 WebRTC/RTC 底层技术交流。
到 2020 年,由「RTC 大会」升级为「RTE 实时互联网大会」,议题从通信技术扩展为「实时互动」的广阔场景,逐步成长为全球规模最大的实时互联网盛会,累计覆盖 200+ 行业场景、影响 200 万+开发者,分论坛扩展至 20+。
2024 年第十届以「AI 爱」为主题,系统呈现 RTE+AI 能力图谱与实践脉络,并延续了 20+ 论坛的体量。
今年,大会进一步升级为「Convo AI & RTE 2025」(实时互联网大会暨对话式 AI 论坛)。
从名字的变迁可以看出,声网在不丢失原有 RTE 技术与行业内容的基础上,把「对话式 AI」置于了舞台中央,面向更高远的人机对话范式与产业落地。
现在,声网年服务分钟数首次突破 1 万亿,RTE 的基础设施属性被进一步夯实,也印证了「RTE × 对话式 AI」将成为下一阶段的主旋律与趋势。

最绝的是,RTE 大会每年好像都能精准「押中」接下来的热点,成为整个实时音视频行业的风向标。
比如,2015 年第一届大会上,声网说直播连麦会成主流玩法,结果第二年这就火了,成为直播界的风口。
2016 年,他们觉得在线教育会是大趋势,果然第二年在线教育就爆炸式增长。
到了 2023 年,大会主题是智能、高清,又一次神准地预测了未来——2024 年初,多模态技术大爆发,Sora 和 GPT-4o 这些新东西刷爆了舆论,多模态成了各大 AI 模型玩家的重点发力方向。
在这次大会上,声网 CEO 赵斌分享了行业趋势:
对话式 AI将成为下一代AIInfra 重要部分。
AI 新物种
对话式 AI
在大会上,声网CEO赵斌对当前行业做出重大趋势判断:
对话式 AI 正处于从「正常对话」 到 「声情并茂」的关键一跃, 相关行业即将爆发。
在过去一年,开发者和市场对于「对话式 AI」的热情高涨。
声网的 RTE 等相关服务年度分钟数,首次突破 1 万亿分钟。

今年第三季度,声网的对话式 AI 用量环比增长了 151%!
ElevenLabs 黑客松,在比较短的时间内孵化了 300 多个各种创业项目和场景。
开源的对话式语音智能体 TEN Framework 和 TEN Agent,多次登顶 GitHub 排行榜,在对话式 AI 行业社区引起了很多关注。

对话式 AI,已经引起了企业的巨大关注,在很多行业展现了巨大的潜力和前景,在这一领域,下图就是企业开始进行探索和尝试的比例。

对话式 AI&Voice Agent 创业公司爆发式增长,产业生态繁荣发展,行业焕发新春:

全球科技巨头普遍在布局相关领域,努力把对话式 AI 的体验带给所有消费者和开发者,比比皆是。

就像 GenAI 早期的内容生产创造新的市场一样,对话式 AI 未来潜力巨大,同样创造新的市场。

来自于 LLM 天然的对话智能,市场潜力不可估量。
未来三大赛道
千亿美元全球市场
随着 AI 加入实时互动,实时互动的跃迁之路正在开启。
对话式 AI 的机会在哪里?

在大会上,展示了业界各种各样的探索,其中在 RTE 基础设施上的 Convo AI 场景正在纷至沓来。
而在众多应用场景中,情感陪伴、智能硬件、在线教育将率先实现对话式AI规模化落地。
未来几十年,声网笃定判断,AI 陪伴赛道会有非常持续和长足的发展。
一些分析师和投资机构的判断,甚至还要乐观很多。

比如,方舟投资(ARK Invest)的报告显示,AI 陪伴赛道有机会暴涨 5000 倍,从 3000 万美元上涨到 700-1500 亿美元。
此外,大家可以观察到这一领域的应用量和活跃度的增加。

新应用如果不做深度优化和体验保障,存活率也很有挑战。
最近两年,AI 硬件也开始逐渐出现在市场上。
品类也出现了更多元化的发展,但热度最高的仍然是养成和陪伴的 AI 硬件。

声网推出了针对硬件开发的板块和模组,就是对话式 AI 的开发套件。
如今,对话式 AI 已经能够提供丰富的能力。
除了一般的对话以外,音乐、唱歌等等形式也已经成为一种可能,从而为AI 陪伴和养成场景提供更好的真实体验。
在游戏领域,对话式 AI 已经有了很多探索和创新。
对话式 AI 将会给所有的游戏探索增添更多的趣味。无论是 NPC 对话能力,还是场景交互体验,对话式 AI 都能提供全新的场景和更好的体验。甚至一些从业者,已经从底层思考如何重构游戏的体验和场景。

游戏和社交的边界也会变得越来越模糊。
过去的一年,许多垂类的专用 AI 助理也取得突破性的进展。比如,蚂蚁 AQ,短时间内就有大量的下载规模,专用助理方向未来还有巨大的空间。

生成式 AI 特别是对话式 AI,目前正在渗入教育领域的各个方面,创造更加丰富的拟人化教学场景。

除了最简单、最直接的口语培训以外,AI 数字人也开始为每个学生提供廉价、普及的拟人化教学场景。
AI 教学硬件,也在推陈出新,不断有些新的尝试和探索。
在大会现场,赵斌演示了 AI 客服的功能。
在实时交互与场景理解方面,当前对话式 AI 已经取得了突破性进展。
在成本和效率上,AI客服终于活出了人样:单次服务成本降低至 0.3 元;平均处理时间降低了 15%-25%。

此外,高拟人度实时翻译已在特定场景实用化;对话式 AI+ 车载智能助理,驾驶体验更安全更快乐;对话式 AI 还可以辅助生活,拓展残障人士生活和工作的边界。
未来已来,AI 实时交互孕育巨大的机会。
OpenAI 引爆新赛道
声网已深耕多年
要把 RTE 大会办成对话式 AI 行业的风向标,靠的绝不是仅仅改个会名,而是声网在对话式 AI 领域的长期深耕。
转折点出现在去年 5 月,当时 OpenAI 把 GPT-4o ——语音-视觉-文本实时多模态——推到台前,实时、自然的人机对话成为了行业的新共识。
随之在 2024 年 10 月份,OpenAI 面向开发者推出 Realtime API 公测,声网的兄弟公司 Agora 与 Twilio、LiveKit 一起成为首批三家官方集成伙伴,率先把低时延语音对话能力带到了实际应用里,也为声网后续产品化铺好「底座」。

在国内生态,声网同步推进本土化的「Realtime 路线」。
有了声网的底座加持,MiniMax 的语音对话成了一个亮点:开口就回、几乎「秒响应」。就算在信号不稳或环境嘈杂的场景里,也能和 AI 助手说得清、听得准、连得稳。
依托 MiniMax 新一代语音大模型,AI 说话更像真人——音色逼真、语气自然,中英夹杂等多语种切换也不打结。你还可以一键调语速、随心换声音,操作简单、效果到位。
另一个大家熟悉的案例是智谱的AI 智能助手。
去年 8 月,智谱率先把视频通话带进国内 AI 助手,得益于他们强大的音视频理解与情感语音模型,这个 AI 助手不只会听你说,还能「看懂」你所处的环境。
在接入声网的对话式 AI 技术后,智谱的 AI 助手通话时延更低、对话更顺滑,几乎像和真人聊天一样自然。
上线三个月,就已吸引 100 万用户使用,十分火爆。
对话式 AI 引擎
在对话式 AI 迎来爆发之际,行业仍然面临着一些挑战,例如行业数据显示,仅 21% 的用户对现有 AI 对话体验满意,部分服务的用户流失率高到「不可接受」。

要实现真正的「类人对话」,企业必须系统性攻克多项复杂问题:
低延迟响应、自然打断、上下文管理、情感理解与表达等。

围绕这些技术难点与热门场景,声网一直在持续优化他们的对话式 AI 服务。
在 RTE2025 的 RTE&对话式 AI 产品分论坛上,声网也相继发布了最新版的对话式 AI 引擎 2.0 版,对话式 AI 开发套件、对话式 AI Studio、对话式 AI 模型评测平台。
对话式 AI 引擎 2.0 新增了预注册声纹识别、情绪识别,不仅让 AI 知道是谁在说话,更懂得开口时机,显著优化误打断体验。同时还支持国内外更丰富的 ASR、TTS 供应商选择,实现更多语种与音色的选择。
同时,针对热门的 AI 硬件场景,为了进一步降低落地门槛,声网在大会发布了新版的对话式 AI 开发套件——R1-4G,该套件基于紫光展锐 8910 高性能 AI 芯片,融合 4G 通信与 CPU,让 AI 硬件随身携带,实现随时音视频交互。

相比今年 3 月发布的 R1 版,R1-4G 采用单芯片一体化,帮助开发者快速集成,实现硬件「开口说话」。其核心价值在于摆脱场景限制,借鉴声网在儿童手表超 60% 市场经验,优化音视频通话与 4G 适配,拥有极致对话体验(延迟 650ms,打断 340ms,声纹锁定)。

对话式 AI 模型评测平台 3.0 则是在提供横向评测 ASR、LLM、TTS 各类主流模型的延迟响应、词错误率、字母数字性能的基础上,
新增了价格预估计算器,开发者可以根据实际的业务需求,预设人和 AI 的谈话比例,价格预估计算器会在此基础上给出总价与各模块的单价,让你更好地了解到钱都花在了哪里。



左右滑动查看
走向「超级助手」
在今年的 RTE 大会上发布的《对话式 AI 发展白皮书》,把技术、产品、生态与场景系统梳理了一遍,也讲清楚了行业的共识——
下一代人机交互不再只是「看屏幕、敲键盘」,而是「会听、会看、会说」的实时多模态。

白皮书获取方式,见评论区置顶留言。
RTE 正从「可选项」变成「基础设施」,音视频对话正在成为一切智能应用的标配。
在终端侧,耳机、手机、家居设备不断下放听见、理解、合成的硬件加速能力,让「开口—回应—执行」的链路真正可用、好用。
配套超级 AI 助理的硬件会不会有什么完全创新的形态?
会不会出现适应 AI 的新型计算终端,就像智能手机取代 PC 成为主流设备一样?
声网更加倾向全新交互形态下的硬件形态,可能不太会很快出现。
虽然 AI 硬件进行个人助理创新并不容易,但预期对话式 AI 和相关能力引入硬件形态,将会带来接下来两年的爆发式增长。
全新的使用习惯正在逐步开始养成,这些都是 AI 硬件爆发的积极因素。
可以看到 AI 眼镜引入对话式 AI 作为操控的主要交互模式以后,提供了很多新场景下的使用便利和使用价值。

具身智能也非常独特,并不需要经过互联网的传输,可以让 AI 从终端以离线的方式与人面对面互动和对话。

但这样的对话需要更多的语言处理,仍然依赖于实时互动的降噪回声、增益控制这些基础技术能力。
实时交互的门槛被持续拉低,开发者可以把更多精力放在体验设计与业务闭环上。
历史每一次技术跃迁,都是基础设施与应用范式的共振时刻。
今天,RTE 成为 AI 对话的底座,声网站在实时交互的心脏位置;当机器真正「会听、会看、会说」,
下一个万亿级市场,或许正在一声「你好」中悄然开启。
当 AI 模型厂商、实时互动厂商与应用开发者各司其职、同频共振,对话式 AI 的产业闭环已初现雏形。
历史证明,真正的巨浪,总由分工成熟的生态共同掀起——
而这一次,浪潮的名字叫「对话式 AI」。
