
新智元报道
编辑:桃子
Voice Agent 终于能打实战了!这家中国公司靠一套 Model + Harness 的方法论,正在重新定义金融级 Agent 的标杆,也撬动了黄仁勋所预言的百万亿美元市场。
Voice Agent 赛道,从来不缺故事。
2024 年,GPT-4o 横空出世,全球科技圈集体高潮——「AI 终于会说话了」。
紧接着,数以百计的 Voice Agent 创业公司如雨后春笋般冒出,融资消息一个接一个。

硅谷的投资人们画了一个万亿级的大饼:AI 语音智能体将重塑一切电话交互场景。
但到了 2026 年,画风变了。
绝大多数通用 Voice Agent,在实验室里表现惊艳,到了真实业务里却频频翻车——
听不懂方言、扛不住噪音、一被打断就「逻辑崩盘」、合规红线踩了又踩。
尤其是金融、保险、医疗这些更复杂、专业的场景,通用方案几乎集体哑火。
就在行业还在纠结「Voice Agent 到底能不能用」的时候,一家中国公司给出了答案。
通用方案水土不服,垂类需要「场景原生」
深耕汽车金融 11 年的易鑫,没有去追「通用 AI」的风口,而是扎进了最难啃的垂类场景。
为此,他们自研了一套「工业级」Voice Agent 系统。
它集 Multi-Agent 协同架构、Turn-Taking 模型、场景降噪引擎和多语言 TTS 大模型于一体。
要理解易鑫 Voice Agent 的价值,首先要理解一个残酷的现实:通用 AI 方案在汽车金融面前几乎是「裸考」。
业内大厂 Voice Agent 方案,大多是追求普适性与标准化——
在通用场景可以快速落地,但对汽车金融这类链路复杂、合规严苛、业务节点密集的垂直场景,适配度始终不足。
更现实的问题是,通用方案追求「播音员级」的优美音色,侧重听觉体验,本质是「体验优先」。
但在电销场景里,一个声音好听但没有「人味」、不懂业务的 AI,反而让客户秒挂。
易鑫的做法截然不同。
在表层,他们选用贴合车主沟通习惯的音色,适配方言场景;
但在深层,真正让客户不挂电话的,是 Agent 不仅兼顾了亲和力与合规严谨性,还学会了老电销那种「先共情再办事」的对话直觉。
核心目标只有一个:优化客户体验,提升转化率,实现「业务优先」的价值闭环。
这就是「通用适配」和「场景原生」的根本区别。
前者在试图让一把万能钥匙打开所有锁,后者在为每一把锁量身打造钥匙。
把自由聊天,变成「精密流水线」
易鑫 Voice Agent 最核心的技术突破,是其基于文本的 Multi-Agent 协同架构。
这里有一个行业背景需要交代:目前绝大多数企业,哪怕是最简单的单 Agent 方案,都不敢直接推上生产环境。
原因很简单,通用 Agent 可控性差、工具调用不稳定、任务容错率低。
一旦模型「自由发挥」,在金融合规场景里就是灾难。
易鑫的解法是:把一通复杂的销售电话,拆解成多个高度专注的「小任务」,分配给不同的 Agent 专项处理。
具体而言,系统部署了四大 Agent 板块:问候与结束、资质确认、添加微信、咨询问答。
每个 Agent 专注处理一个细分任务。这套架构的精妙之处,在于以下三个「硬核」设计:
第一,一个任务节点只管一件事。
汽车金融场景真实的电销 SOP 包含身份确认、需求确认、资质确认、添加微信等一系列递进环节。
如果把所有规则塞进一个巨大的 Prompt 里,大模型会瞬间「过载」,极易出现幻觉——不知道先干啥、容易听错话、或被客户一句话带偏。
所以易鑫的做法是:把整个流程切成一个个任务节点。
每个任务节点只负责一件事,并且拥有独立的指令、话术示例和工具集,AI 被严格限定在当前任务范围内——达不成目标,就无法进入下一个任务节点。
第二,流程走到哪一步,系统说了算。
一般来说,传统做法是让 LLM 自己判断「接下来该干什么」,比如输出「关键词」决定流程走向。
但这种方式极其脆弱,AI 一旦「想岔了」,整个对话就跑偏了。
为此,易鑫专为流程流转上一把「物理锁」。具体来说:
每个任务节点完成后,Agent 输出了符合格式要求的结果,才会被视为正确的「交接信号」,流程才能往下走。
不仅如此,系统在启动时,就会强制校验所有任务节点之间的跳转关系是否真实存在。
如果某个节点指向了一个根本不存在的下游环节,直接报错拦截。
AI 想「自由发挥」,系统根本不给它机会。
第三,用户打断时,AI不会「记混」。
电话里用户随时可能打断插话,这是常态。但对 AI 来说,这是个大麻烦。
普通单体文本 Agent 会把所有生成内容塞进记忆,导致后续业务逻辑错乱。
易鑫的处理方式是,对话记录不由模型自己管,而是交给外部框架统一管理——
当用户打断时,系统只保留用户实际听到的那部分内容,再追加用户的新输入。
这样,当流程从「破冰问候」推进到「资质确认」时,下一个任务节点拿到的对话记录是干干净净、完整还原真实通话的,不会因为中途被打断就记串了。
Multi-Agent 协同架构把电销从「不可控的自由对话」,变成了可追溯、可质检、可合规、可复制、可运营优化的 SOP。
这才是 Agent 能进核心业务的前提。
让 AI 选择性失聪,掌握「说话的艺术」
如果说 Multi-Agent 架构是「大脑」,那降噪引擎和 Turn-Taking 模型就是「耳朵」和「嘴巴」。
要让 AI 打好一通电话,第一步是听得清,第二步才是接得住。
先说「听」,降噪引擎要解决的,是让 AI 学会「选择性失聪」。
真实电销场景里,客户可能在地铁上、马路边,甚至嘈杂的工地里接电话。
背景噪音经常让 AI 产生「幻听」:鸣笛声、他人交谈声被错误识别为客户指令,产生大量「无效轮次」(Noise Rounds),直接干扰 AI 的决策逻辑,导致 Voice Agent 频繁「乱插话」或「答非所问」。
易鑫 AI 团队上线的场景适配降噪引擎,在两个关键维度实现了突破:
低信噪比噪音消除率 80%,将嘈杂环境的压力分散到降噪模型,在最低限度损伤音频的情况下,处理好绝大部分干扰 AI 决策的噪音。
同时,通过语义保真算法,确保主说话人的语音特征完美保留,ASR 识别准确率不降反升。
听清楚了,下一个问题是:什么时候该开口?
这正是 Turn-Taking 要解决的「对话节奏」问题。
在真实电话场景中,每个人的说话习惯千差万别:有人语速极快,有人说一半停下来想想再继续。
传统方案,AI 要么在人还没说完时就插嘴抢,要么人说完了半天没反应,两种体验都让人想挂电话。
为此,易鑫自研的 Yx-Turn 预测模型,核心任务只有一个:判断客户到底说完了没有。

它同时听两样东西。
一是声学信号,包括客户的语气、停顿、拖音等。
二是语义理解,比如客户说的话里有没有「嗯…我想一下」、「那你看这样行不行」这类未完待续的意思。
模型将每轮会话的交互状态分为三种:发言结束(EOT)、继续发言(CT)和挂起等待(WAIT),并通过三阶段演进式数据构建策略,逐步从「不抢话」进化到「读懂意图」。
举个例子,当用户说「等一下」时,系统识别为挂起状态,回应「好的,不着急」,保持收音不中断,同时继续等待客户后续发言。
更值得一提的是框架层的「兜底策略」。在全双工对话中,用户随时可能打断 AI。
易鑫采用了创新的消息合并策略:将未完成消息暂存至缓冲区,设置观察等待期,若用户继续表达,系统自动合并新旧消息,确保 LLM 基于完整上下文推理;若识别为无意发声或噪声,则自动过滤。
这彻底解决了传统方案中「用户一打断,AI 就失忆」的尴尬。
这套机制还解决了行业公认的「幽灵回复」(嗯、额、啊等语气词)难题,系统能精确区分用户是在随声附和,还是在给出答复,不再因误判导致逻辑跳步或抢话。
这项技术听起来不够「性感」,但在电销场景里,它直接决定了用户愿不愿意继续听下去。
用易鑫高级算法工程师的话说,「我们的目标不是训练一个技术最牛的模型,而是训练一个最懂易鑫业务的模型」。
这种务实到骨子里的技术哲学,恰恰是易鑫 Voice Agent 能跑通生产环境的底层原因。
横扫多种语言,剑指全球市场
Voice Agent 的最后一块拼图,是语音合成(TTS)。
基于覆盖全国 340 余个城市的业务网络,易鑫自研 TTS 大模型已全面适配普通话,同时支持四川、天津、东北、河南、广东、福建、湖南等多地主流方言。
更值得关注的是全球化布局。
易鑫 TTS 已支持英语、西班牙语、葡萄牙语等主流语言,并针对日本、马来西亚、新加坡、澳大利亚、墨西哥、巴西等核心出海市场进行了深度本地化定制,兼容多个小语种及变体,可覆盖全球大部分主流汽车金融商业化语音场景。
这一成绩离不开易鑫在技术层面的深耕。
为还原真人般的声音,易鑫搭建了三层语音数据体系——标准语音数据、真实口语数据和专业录音数据,让模型听足够多样、真实的声音。
为深度贴合汽车金融业务特性,模型对专属场景、专业术语、业务话术做了专项调优,使音色、情感、语调、语速和本土化适配等效果全面升级。
在训练策略上,团队引入 GRPO 强化学习方法进行后训练:
从内容准确性、音色还原度、情感表现力、听感自然度这四个维度由「AI 评委」对合成的语音进行打分(奖励),最后会汇总成一个综合奖励信号,驱动模型持续进化。

模型学会的不只是「怎么说」,而是什么时候、以什么方式说,才最契合人类的情感逻辑。
Model + Harness,
一套真正能打的 Voice Agent 方法论
如果把上述技术能力拆开来看,每一项都有不少公司在做。
但易鑫 Voice Agent 真正的差异化,在于它背后的一套完整方法论:Model 与 Harness 的深度结合。
英伟达 CEO 黄仁勋曾预言,AI Agent 等 AI 技术将创造 100 万亿美元的市场。
但预言要落地,便需要这个关键公式:Agent = Model + Harness。
所谓 Model,是指大模型本身的能力:语义理解、意图识别、文本生成、语音合成。这是 AI 系统的「智力」。
所谓 Harness,则是约束、驾驭和编排模型能力的工程化架构:结构化状态机、防幻觉协议、外部记忆管理、合规流程门控、工具调用治理。这是 AI 系统的「纪律」。
在真实的生产环境里,一个没有 Harness 约束的强模型,就像一匹没有缰绳的野马,跑得越快,翻车越狠。
在易鑫 Voice Agent 系统中,这个理念被贯彻到了每一个技术模块:
自研 Agentic 大模型 XinMM-AM1 提供 300 亿参数级的语义理解能力;
而全双工交互框架、Multi-Agent 协同架构、Turn-Taking 模型和降噪引擎等模块,共同构成了 Harness 体系。

易鑫是一家 AI 驱动的金融科技平台,2017 年在香港上市,2025 年成为港交所科技 100 指数成员。目前年交易额已达到约 750 亿元人民币,全球拥有员工 5000 多人,核心产品为 Agentic AI 解决方案,深度赋能汽车金融全链路。Voice Agent 是易鑫 Agentic AI 解决方案的关键拼图,可应用于电销、预审、客服等多个场景。
两者融合,才把不可控的 LLM 变成了听指挥、守纪律、能实战的生产级数字员工。
同时,这套 Voice Agent 还调用了丰富的「金融专属工具」——线索质量核查、渠道风险识别、网络化欺诈识别、欺诈声纹检测、情绪分析、流程合规检测,以及加微申请、短信发送、知识库检索等通用工具。
Model 负责「想」,Harness 负责「管」,工具链负责「干」——
三位一体,才是工业级 Voice Agent 的完整形态。
实战数据亮眼
所有技术叙事的终点,都指向一个朴素的问题:效果到底怎么样?
易鑫 Voice Agent 交出的成绩单足够硬气:
接通率媲美人工坐席,加微成功率超越人工。
在电销场景中,「接通」只是起点,真正有价值的动作是把线索转化为合规的私域客户。
这意味着,后续可以持续触达、深度运营。
易鑫 Voice Agent 的接通加微转化率可达 20% 以上,这个数字在行业里已属前列。
跨多个会话连续推进,线索流失率大幅下滑。
传统电销最大的痛点之一是线索跟进不及时、不连续——人工坐席忙不过来、跟进节奏不稳定、记录不完整。
易鑫 Voice Agent 能够及时、持续追踪每一条线索,效率大幅提升。
更让人兴奋的是落地速度:这套系统专为汽车金融全场景定制,支持低代码快速部署。
而且其模块化架构天然支持场景迁移,80% 的流程不变,只需替换 20% 的业务节点,就能快速适配新业务线。
未来,这套方案还将向泛金融领域延伸,为保险、银行等场景提供同级别的智能语音解决方案。
有用,才是最高级的技术
回过头看,Voice Agent 赛道的竞争格局已经日渐清晰:通用方案追求广度,垂类方案追求深度。
而在汽车金融这个合规严苛、链路复杂、专业性极强的战场上,「广度」解决不了任何真实问题。
易鑫用 11 年的行业沉淀,证明了一件事:
真正的工业级 AI,从来不是模型参数的军备竞赛,而是对业务的深刻理解与工程化能力的深度融合。
当行业还在争论 Voice Agent 的技术路线时,易鑫已经在真实的生产线上,用每一通电话、每一个转化数字,定义着「场景原生」AI 的行业标准。
有用,才是最高级的技术。而易鑫正在证明,这句话不是口号。
