国思软件 - 黄仁勋100万亿预言兑现！易鑫Voice Agent落地，汽车金融迎效率革命

　　新智元报道

　　编辑：桃子

　　Voice Agent 终于能打实战了！这家中国公司靠一套 Model + Harness 的方法论，正在重新定义金融级 Agent 的标杆，也撬动了黄仁勋所预言的百万亿美元市场。

　　Voice Agent 赛道，从来不缺故事。

　　2024 年，GPT-4o 横空出世，全球科技圈集体高潮——「AI 终于会说话了」。

　　紧接着，数以百计的 Voice Agent 创业公司如雨后春笋般冒出，融资消息一个接一个。

　　硅谷的投资人们画了一个万亿级的大饼：AI 语音智能体将重塑一切电话交互场景。

　　但到了 2026 年，画风变了。

　　绝大多数通用 Voice Agent，在实验室里表现惊艳，到了真实业务里却频频翻车——

　　听不懂方言、扛不住噪音、一被打断就「逻辑崩盘」、合规红线踩了又踩。

　　尤其是金融、保险、医疗这些更复杂、专业的场景，通用方案几乎集体哑火。

　　就在行业还在纠结「Voice Agent 到底能不能用」的时候，一家中国公司给出了答案。

　　通用方案水土不服，垂类需要「场景原生」

　　深耕汽车金融 11 年的易鑫，没有去追「通用 AI」的风口，而是扎进了最难啃的垂类场景。

　　为此，他们自研了一套「工业级」Voice Agent 系统。

　　它集 Multi-Agent 协同架构、Turn-Taking 模型、场景降噪引擎和多语言 TTS 大模型于一体。

　　要理解易鑫 Voice Agent 的价值，首先要理解一个残酷的现实：通用 AI 方案在汽车金融面前几乎是「裸考」。

　　业内大厂 Voice Agent 方案，大多是追求普适性与标准化——

　　在通用场景可以快速落地，但对汽车金融这类链路复杂、合规严苛、业务节点密集的垂直场景，适配度始终不足。

　　更现实的问题是，通用方案追求「播音员级」的优美音色，侧重听觉体验，本质是「体验优先」。

　　但在电销场景里，一个声音好听但没有「人味」、不懂业务的 AI，反而让客户秒挂。

　　易鑫的做法截然不同。

　　在表层，他们选用贴合车主沟通习惯的音色，适配方言场景；

　　但在深层，真正让客户不挂电话的，是 Agent 不仅兼顾了亲和力与合规严谨性，还学会了老电销那种「先共情再办事」的对话直觉。

　　核心目标只有一个：优化客户体验，提升转化率，实现「业务优先」的价值闭环。

　　这就是「通用适配」和「场景原生」的根本区别。

　　前者在试图让一把万能钥匙打开所有锁，后者在为每一把锁量身打造钥匙。

　　把自由聊天，变成「精密流水线」

　　易鑫 Voice Agent 最核心的技术突破，是其基于文本的 Multi-Agent 协同架构。

　　这里有一个行业背景需要交代：目前绝大多数企业，哪怕是最简单的单 Agent 方案，都不敢直接推上生产环境。

　　原因很简单，通用 Agent 可控性差、工具调用不稳定、任务容错率低。

　　一旦模型「自由发挥」，在金融合规场景里就是灾难。

　　易鑫的解法是：把一通复杂的销售电话，拆解成多个高度专注的「小任务」，分配给不同的 Agent 专项处理。

　　具体而言，系统部署了四大 Agent 板块：问候与结束、资质确认、添加微信、咨询问答。

　　每个 Agent 专注处理一个细分任务。这套架构的精妙之处，在于以下三个「硬核」设计：

　　第一，一个任务节点只管一件事。

　　汽车金融场景真实的电销 SOP 包含身份确认、需求确认、资质确认、添加微信等一系列递进环节。

　　如果把所有规则塞进一个巨大的 Prompt 里，大模型会瞬间「过载」，极易出现幻觉——不知道先干啥、容易听错话、或被客户一句话带偏。

　　所以易鑫的做法是：把整个流程切成一个个任务节点。

　　每个任务节点只负责一件事，并且拥有独立的指令、话术示例和工具集，AI 被严格限定在当前任务范围内——达不成目标，就无法进入下一个任务节点。

　　第二，流程走到哪一步，系统说了算。

　　一般来说，传统做法是让 LLM 自己判断「接下来该干什么」，比如输出「关键词」决定流程走向。

　　但这种方式极其脆弱，AI 一旦「想岔了」，整个对话就跑偏了。

　　为此，易鑫专为流程流转上一把「物理锁」。具体来说：

　　每个任务节点完成后，Agent 输出了符合格式要求的结果，才会被视为正确的「交接信号」，流程才能往下走。

　　不仅如此，系统在启动时，就会强制校验所有任务节点之间的跳转关系是否真实存在。

　　如果某个节点指向了一个根本不存在的下游环节，直接报错拦截。

　　AI 想「自由发挥」，系统根本不给它机会。

　　第三，用户打断时，AI不会「记混」。

　　电话里用户随时可能打断插话，这是常态。但对 AI 来说，这是个大麻烦。

　　普通单体文本 Agent 会把所有生成内容塞进记忆，导致后续业务逻辑错乱。

　　易鑫的处理方式是，对话记录不由模型自己管，而是交给外部框架统一管理——

　　当用户打断时，系统只保留用户实际听到的那部分内容，再追加用户的新输入。

　　这样，当流程从「破冰问候」推进到「资质确认」时，下一个任务节点拿到的对话记录是干干净净、完整还原真实通话的，不会因为中途被打断就记串了。

　　Multi-Agent 协同架构把电销从「不可控的自由对话」，变成了可追溯、可质检、可合规、可复制、可运营优化的 SOP。

　　这才是 Agent 能进核心业务的前提。

　　让 AI 选择性失聪，掌握「说话的艺术」

　　如果说 Multi-Agent 架构是「大脑」，那降噪引擎和 Turn-Taking 模型就是「耳朵」和「嘴巴」。

　　要让 AI 打好一通电话，第一步是听得清，第二步才是接得住。

　　先说「听」，降噪引擎要解决的，是让 AI 学会「选择性失聪」。

　　真实电销场景里，客户可能在地铁上、马路边，甚至嘈杂的工地里接电话。

　　背景噪音经常让 AI 产生「幻听」：鸣笛声、他人交谈声被错误识别为客户指令，产生大量「无效轮次」（Noise Rounds），直接干扰 AI 的决策逻辑，导致 Voice Agent 频繁「乱插话」或「答非所问」。

　　易鑫 AI 团队上线的场景适配降噪引擎，在两个关键维度实现了突破：

　　低信噪比噪音消除率 80%，将嘈杂环境的压力分散到降噪模型，在最低限度损伤音频的情况下，处理好绝大部分干扰 AI 决策的噪音。

　　同时，通过语义保真算法，确保主说话人的语音特征完美保留，ASR 识别准确率不降反升。

　　听清楚了，下一个问题是：什么时候该开口？

　　这正是 Turn-Taking 要解决的「对话节奏」问题。

　　在真实电话场景中，每个人的说话习惯千差万别：有人语速极快，有人说一半停下来想想再继续。

　　传统方案，AI 要么在人还没说完时就插嘴抢，要么人说完了半天没反应，两种体验都让人想挂电话。

　　为此，易鑫自研的 Yx-Turn 预测模型，核心任务只有一个：判断客户到底说完了没有。

　　它同时听两样东西。

　　一是声学信号，包括客户的语气、停顿、拖音等。

　　二是语义理解，比如客户说的话里有没有「嗯…我想一下」、「那你看这样行不行」这类未完待续的意思。

　　模型将每轮会话的交互状态分为三种：发言结束（EOT）、继续发言（CT）和挂起等待（WAIT），并通过三阶段演进式数据构建策略，逐步从「不抢话」进化到「读懂意图」。

　　举个例子，当用户说「等一下」时，系统识别为挂起状态，回应「好的，不着急」，保持收音不中断，同时继续等待客户后续发言。

　　更值得一提的是框架层的「兜底策略」。在全双工对话中，用户随时可能打断 AI。

　　易鑫采用了创新的消息合并策略：将未完成消息暂存至缓冲区，设置观察等待期，若用户继续表达，系统自动合并新旧消息，确保 LLM 基于完整上下文推理；若识别为无意发声或噪声，则自动过滤。

　　这彻底解决了传统方案中「用户一打断，AI 就失忆」的尴尬。

　　这套机制还解决了行业公认的「幽灵回复」（嗯、额、啊等语气词）难题，系统能精确区分用户是在随声附和，还是在给出答复，不再因误判导致逻辑跳步或抢话。

　　这项技术听起来不够「性感」，但在电销场景里，它直接决定了用户愿不愿意继续听下去。

　　用易鑫高级算法工程师的话说，「我们的目标不是训练一个技术最牛的模型，而是训练一个最懂易鑫业务的模型」。

　　这种务实到骨子里的技术哲学，恰恰是易鑫 Voice Agent 能跑通生产环境的底层原因。

　　横扫多种语言，剑指全球市场

　　Voice Agent 的最后一块拼图，是语音合成（TTS）。

　　基于覆盖全国 340 余个城市的业务网络，易鑫自研 TTS 大模型已全面适配普通话，同时支持四川、天津、东北、河南、广东、福建、湖南等多地主流方言。

　　更值得关注的是全球化布局。

　　易鑫 TTS 已支持英语、西班牙语、葡萄牙语等主流语言，并针对日本、马来西亚、新加坡、澳大利亚、墨西哥、巴西等核心出海市场进行了深度本地化定制，兼容多个小语种及变体，可覆盖全球大部分主流汽车金融商业化语音场景。

　　这一成绩离不开易鑫在技术层面的深耕。

　　为还原真人般的声音，易鑫搭建了三层语音数据体系——标准语音数据、真实口语数据和专业录音数据，让模型听足够多样、真实的声音。

　　为深度贴合汽车金融业务特性，模型对专属场景、专业术语、业务话术做了专项调优，使音色、情感、语调、语速和本土化适配等效果全面升级。

　　在训练策略上，团队引入 GRPO 强化学习方法进行后训练：

　　从内容准确性、音色还原度、情感表现力、听感自然度这四个维度由「AI 评委」对合成的语音进行打分（奖励），最后会汇总成一个综合奖励信号，驱动模型持续进化。

　　模型学会的不只是「怎么说」，而是什么时候、以什么方式说，才最契合人类的情感逻辑。

　　Model + Harness，

　　一套真正能打的 Voice Agent 方法论

　　如果把上述技术能力拆开来看，每一项都有不少公司在做。

　　但易鑫 Voice Agent 真正的差异化，在于它背后的一套完整方法论：Model 与 Harness 的深度结合。

　　英伟达 CEO 黄仁勋曾预言，AI Agent 等 AI 技术将创造 100 万亿美元的市场。

　　但预言要落地，便需要这个关键公式：Agent = Model + Harness。

　　所谓 Model，是指大模型本身的能力：语义理解、意图识别、文本生成、语音合成。这是 AI 系统的「智力」。

　　所谓 Harness，则是约束、驾驭和编排模型能力的工程化架构：结构化状态机、防幻觉协议、外部记忆管理、合规流程门控、工具调用治理。这是 AI 系统的「纪律」。

　　在真实的生产环境里，一个没有 Harness 约束的强模型，就像一匹没有缰绳的野马，跑得越快，翻车越狠。

　　在易鑫 Voice Agent 系统中，这个理念被贯彻到了每一个技术模块：

　　自研 Agentic 大模型 XinMM-AM1 提供 300 亿参数级的语义理解能力；

　　而全双工交互框架、Multi-Agent 协同架构、Turn-Taking 模型和降噪引擎等模块，共同构成了 Harness 体系。

　　易鑫是一家 AI 驱动的金融科技平台，2017 年在香港上市，2025 年成为港交所科技 100 指数成员。目前年交易额已达到约 750 亿元人民币，全球拥有员工 5000 多人，核心产品为 Agentic AI 解决方案，深度赋能汽车金融全链路。Voice Agent 是易鑫 Agentic AI 解决方案的关键拼图，可应用于电销、预审、客服等多个场景。

　　两者融合，才把不可控的 LLM 变成了听指挥、守纪律、能实战的生产级数字员工。

　　同时，这套 Voice Agent 还调用了丰富的「金融专属工具」——线索质量核查、渠道风险识别、网络化欺诈识别、欺诈声纹检测、情绪分析、流程合规检测，以及加微申请、短信发送、知识库检索等通用工具。

　　Model 负责「想」，Harness 负责「管」，工具链负责「干」——

　　三位一体，才是工业级 Voice Agent 的完整形态。

　　实战数据亮眼

　　所有技术叙事的终点，都指向一个朴素的问题：效果到底怎么样？

　　易鑫 Voice Agent 交出的成绩单足够硬气：

　　接通率媲美人工坐席，加微成功率超越人工。

　　在电销场景中，「接通」只是起点，真正有价值的动作是把线索转化为合规的私域客户。

　　这意味着，后续可以持续触达、深度运营。

　　易鑫 Voice Agent 的接通加微转化率可达 20% 以上，这个数字在行业里已属前列。

　　跨多个会话连续推进，线索流失率大幅下滑。

　　传统电销最大的痛点之一是线索跟进不及时、不连续——人工坐席忙不过来、跟进节奏不稳定、记录不完整。

　　易鑫 Voice Agent 能够及时、持续追踪每一条线索，效率大幅提升。

　　更让人兴奋的是落地速度：这套系统专为汽车金融全场景定制，支持低代码快速部署。

　　而且其模块化架构天然支持场景迁移，80% 的流程不变，只需替换 20% 的业务节点，就能快速适配新业务线。

　　未来，这套方案还将向泛金融领域延伸，为保险、银行等场景提供同级别的智能语音解决方案。

　　有用，才是最高级的技术

　　回过头看，Voice Agent 赛道的竞争格局已经日渐清晰：通用方案追求广度，垂类方案追求深度。

　　而在汽车金融这个合规严苛、链路复杂、专业性极强的战场上，「广度」解决不了任何真实问题。

　　易鑫用 11 年的行业沉淀，证明了一件事：

　　真正的工业级 AI，从来不是模型参数的军备竞赛，而是对业务的深刻理解与工程化能力的深度融合。

　　当行业还在争论 Voice Agent 的技术路线时，易鑫已经在真实的生产线上，用每一通电话、每一个转化数字，定义着「场景原生」AI 的行业标准。

　　有用，才是最高级的技术。而易鑫正在证明，这句话不是口号。

黄仁勋100万亿预言兑现！易鑫Voice Agent落地，汽车金融迎效率革命

我们的产品

相关链接

关于我们

联系我们