金磊发自凹非寺
量子位公众号 QbitAI
又一个国产版《Her》,就这么水灵灵地来了。
作为一个实时语音对话的功能,效果好不好,实测见分晓。
我们直接以近期的大热点——李子柒复出作为话题,来上一番对话:
视频地址:https://mp.weixin.qq.com/s/-NOVIKDsBq_7Ts3wlwI5Ug
可以看到,这个 AI 对于“李子柒复出”这样相对较新的话题,信息的掌握也是较为全面。
它先是用“太震撼了”来表达了对这件事的整体感受,并且精准、高度总结内容为:
用中国非物质文化遗产漆器为主题的视频,这个选择本身就是对传统文化的致敬。
当问及对视频内容更具体的感受,国产《Her》仿佛一个李子柒的人类粉丝:
依旧保持高标准,每一帧都像一幅画面;她的视频总能让人感受到一种宁静与美好。
不仅如此,国产《Her》甚至还能对网友们的讨论做总结,包括李子柒为了做了漆器,背后所付出的努力和刻苦精神。
而且从整个对话过程来看,这个 AI 在语言表达方式上也是与人类无异,例如语气和自然的停顿等等;即使是随意地打断,也是完全 OK 的哦~
同样的话题,我们给到GPT-4o这边:
视频地址:https://mp.weixin.qq.com/s/-NOVIKDsBq_7Ts3wlwI5Ug
嗯,GPT-4o 知道李子柒,但是知道的不多。
无论是中文还是英文提问,由于它的知识是截止到了 2023 年 10 月,所以对于实时的新闻热点,GPT-4o 是无法 hold 住的。
那么这个国产《Her》,何许 AI 也?
不卖关子,它正是来自昆仑万维的 Skyo,基于天工大模型 4.0 4o 版(Skywork 4o)打造。
那么除了能够跟踪时事热点,Skyo 还能解锁哪些能力?
更多实测,Let’s go on~
聊天随意打断,话题不掉地上
OpenAI 大约半年前发布 GPT-4o 实时语音对话功能的时候,现场和网上观众较为震惊的,便是它不论如何被打断,都能马上接上话。
虽然在刚才李子柒的例子中,我们已经体现了一些“随时打断”的能力,所以我们这次再加一点难度。
随时打断,中英切换
我们这次测试的话题是去西雅图旅行,来看下 Skyo 能给出什么样的建议:
视频地址:https://mp.weixin.qq.com/s/-NOVIKDsBq_7Ts3wlwI5Ug
在我们提出了简洁的需求之后,Skyo 便唰唰唰地开始制定旅程计划了。
而当它提到西雅图标志性景点太空针塔时,我们进行了第一次打断(00:50),Skyo 也随即停止了回答,开始聆听新问题。
当 Skyo 要继续拓展对太空针塔的介绍,我们随即第二次打断(01:09);第三次打断(01:38)我们直接用英文进行提问:
OK, sounds good, by the way, can you recommand some Seattle dishes I should try?
然后 Skyo 也是听懂了英文需求,立即开始推荐当地著名的咖啡餐厅。
这一轮的随时打断+中英文切换,Skyo,通过。
不让话掉到地上
在真实生活中,很多i人在与人沟通交流过程中,或许会出现接不上话的情况。
那么如果我们以话题终结者的姿态与 Skyo 交流,又会是什么效果?来,开整:
视频地址:https://mp.weixin.qq.com/s/-NOVIKDsBq_7Ts3wlwI5Ug
我们先是以“电影”为由头,主动开启了一个话题。
但 Skyo 在反问的时候,我们连续两次冷漠回答了“没有”(00:27)、“也没有”(00:47)。
第一次话题被终结,Skyo 很巧妙地把话题从电影转向了音乐或书籍;二次话题被终结,Skyo 联系上下文(因为是我们以电影开启的话题),它就开始讲述自己对电影的看法了。
总而言之,把话掉地上,这事儿在 Skyo 这边是不能存在的。
情感陪伴,“人”声可变
自打对话类 AI 大模型问世以来,情感陪伴,无疑成了很多用户的一种刚需。
那么 Skyo 是否也能在人们难受之际带来一份心灵的慰藉呢?
请看 VCR:
视频地址:https://mp.weixin.qq.com/s/-NOVIKDsBq_7Ts3wlwI5Ug
我们提出“被老板骂了”这样的情景之后,Skyo 会用自己的方式来引导我们看开一些。
而当被要求切换女声声音时(00:42),Skyo 也是有求必应,秒变女声,然后有理有据地罗列观点进行心理开导。
由此可见,Skyo 作为新晋国产实时语音对话产品,在多个维度的测试中都属于达标了的那种。
那么接下来的一个问题:
怎么做到的?
Skyo 实时语音对话助手是一个多模态大模型项目,应用了端到端实时语音对话建模技术。
其强大的记忆功能使其能够在对话中追踪并回忆用户的偏好与历史信息,从而提升多轮对话的准确性。
这种精细的技术积累,使得 Skyo 在高强度的对话交互中依然保持卓越的稳定性与流畅性。
除此之外,Skyo 采用了全双工和低延迟的实时语音对话架构。
全双工意味着该助手能够同时进行听和说的操作,用户无需按下对话开始和结束按钮即可实现无缝交流,这就让人机的互动变得更加自然和高效。
在技术测试中,Skyo 以其低延迟的实时响应接近人类思考的反应时间,体现了在对话响应速度方面的显著优势。
在互动能力方面,Skyo 拥有较好的情感理解与个性化记忆功能。
它不仅可以记录用户的历史偏好,还能根据用户需求提供个性化的互动体验,例如提供温暖的女声或更具情感色彩的回应。
这使得 Skyo 在非正式、非固定场景下,能够保持一种尊重且平等的人机交互体验。
Skyo 的卓越性能依赖于其多模态模型的应用,使其能够在多种场景中保持高质量的交互体验。
例如,用户可以与助手讨论最新的科技新闻,助手能够根据用户的请求,从科技资源库中检索相关信息并进行异步交互,增强用户的互动感与沉浸体验。
此外,Skyo 系统的自研特性使其在互联网语音交互与应用场景中具有出色的适应性。
通过自研的数据积累与语音交互技术,Skyo 实现了实时、高效且个性化的沟通体验,使得用户在每次对话中都能感受到近乎无障碍的人机互动与温暖陪伴。
以上就是昆仑万维“炼”成 Skyo 背后的秘籍了。
又拼上一块多模态“拼图”
最后,我们聊回到实时语音对话助手本身。
虽然 GPT-4o 可以说是率先打开了这一市场的大门,但时至今日类似的产品仍然存在诸多痛点。
例如现有产品在多语言支持方面仍有不足,难以满足全球用户的需求;再如它们虽然在语义理解和生成方面表现出色,但在情感理解和个性化记忆方面仍有待提升。
此外,实时语音对话助手在响应速度和流畅性方面也需要进一步优化,以此来确保用户体验的连贯性和自然性。
但最重要的一点,或许还属消息的实时性了,毕竟我们平时聊天也都更倾向于谈谈一些新鲜的事物。
从这次的实测中不难发现,Skyo 在诸多维度上已经符合要求,是在实时语音对话助手领域发展中打了个样的那种。
至于对昆仑万维在大模型时代自身的发展,Skyo 可以说是有拼上了一块多模态的“拼图”。
这一点,把它在每个节点的产品铺开来看,便可一目了然了。
首先就是其大底座天工大模型系列,包括天工 1.0、天工 2.0、天工 3.0,近期还将邀测天工大模型 4.0 O1 版,具备中文逻辑推理和反思能力。
其次在其它模态上,还包括 AI 搜索(天工 AI 搜索)、AI 音乐(天工 SkyMusic)、AI 社交(linky)、AI 视频(AI 短剧平台 SkyReels)等。
加上此次的 Skyo,昆仑万维称得上是国内在多模态与工程能力,以及布局全面型上的佼佼者了。
One More Thing
据了解,Skyo 即将集成在天工 AI 的 APP 中。
届时,除了我们展示的能力之外,还会有生成音乐、主动交流以及更多个性化交互等众多新能力哦~
那么这样的实时语音对话助手,是否聊到你的心趴上了呢?