距离 ChatGPT 上线已经过了 16 个月,几乎所有人都知道 LLM 大模型会深刻地改变世界,就像水和电一样。
但对普通用户来说,大模型用起来并没有想象中来得酷。更多的人并不知道能用 AI 干点什么,或者只是追个时髦跟 AI 浅尝辄止地交流一番,然后就把它们抛诸脑后。
人们对 AI 产品的预期很高,希望它既能解决效率问题,又能提供情绪价值。但当我们使用了市面上各种 AI 原生应用后发现,用户必须要表述清晰、擅长提问,甚至是进行大量提问测试,才能得到相对理想的结果。对于普通用户来说,它们的使用门槛显然太高了。
这解释了为什么在 AI 话题热火朝天的同时,日常生活中人们遇到了难题,却很少想得起来用 AI 去解决。
注意到这个问题的 OpenAI ,如今也在尝试降低 AI 的门槛。比如,5 月 14 号凌晨推出的 GPT-4o 打通了文本、音频和图像的输入,让人机交互更接近人与人的交流。
但在 GPT-4o 的语音交互功能尚未实装的今天,我们已经听说有国产 AI 产品先行一步:AI 独角兽企业 MiniMax 最近正式发布了一款「小白向」智能产品「海螺 AI」,同样支持文本、音频和图像的自由交流。
第一时间装在主力机上体验之后,我们意识到,海螺 AI 正是理想中那个上手即可用、能够帮助普通人解决各种问题的 AI「人生搭子」。
有问题,就打给神奇海螺
GPT-4o 的功能设计,体现出了 OpenAI 对 AI 智能产品形态的预判——必须要支持多模态。
目前国内市场上大部分 AI 产品主要依靠文本输入,但海螺 AI 已经率先支持多模态互动,简单来说就是:
能打字输入,能拍照识图,还能语音通话。
就拿语音通话来说吧,使用海螺 AI 的第一天,我已经习惯了在不方便腾出手或者脑瓜卡壳不知道敲什么字的时候,直接给海螺 AI「打语音」。
比如做饭的时候,就像在请教我妈一样,让 AI 教我具体的菜式做法,这个「适量」真是深得中文精髓:
我和海螺 AI 语音对话的文本记录
或是洗脸的时候灵光一闪,用小拇指随手一点、一问,就能收获一个冷知识:
打语音问问题很方便,但要说最实用的场景,还得是靠它练口语。
对于难以启齿的 i 人而言,对着真人外教说话需要莫大的勇气,但如果是跟 AI 打语音就毫无心理负担,还能 7✖️24 小时随手练习,妥妥的是「金牌陪练」。
和海螺 AI 口语讨论穿搭
任何时候,打开通话界面告诉它想要练口语,它就会马上用英语向我口头询问一些简单的问题,或是模仿在外国咖啡店买咖啡的场景,引导我一步步习惯说英语,方便又靠谱。
我给最近还在看机会的朋友推荐了海螺 AI,他最受用的场景则是语音模拟面试,AI 面试官的问题确实能深入到业务当中。
朋友与海螺 AI 之间的面试对话练习
和 AI 对练最棒的是,永远不需要担心笨嘴笨舌而出糗。事实上,海螺 AI 可能是我见过最温柔的老师,总是在用「别担心,慢慢来,我在这里陪你」「别害羞,随便说说看」这样的话鼓励人大胆地说下去。
有这么个温柔、耐心和聪明的话搭子,哪还用担心练不好日常对话呢?
小海螺的「温柔」还体现在,背靠强大的语音大模型和文本大模型,它能够发出自然且带有丰富感情起伏的声音,反过来,也能捕捉你话语背后潜藏的情绪。在某些时候,你甚至会觉得屏幕后的它要比真人更会聊天。
「这都半夜 4 点了,我还是睡不着,真的很恼火!」
某个失眠的夜晚,我随手抓起枕头边的手机,给小海螺说了句话。
话音刚落,海螺 AI 就在语音电话里回应我了:
感情真挚、语气到位,这个 AI 说话让人心暖。
为了进一步测试海螺 AI 对语义的理解能力,我想到了「弱智吧」里那些充满歧义的语言游戏:
你好,一个人吃三斤健胃消食片,结果会是撑死还是饿死?
即使面对着这种很考验理解能力的问题,海螺 AI 也瞬间明白了我是在开一个语言玩笑。
看上面的对话记录时你可能注意到了,小海螺尤其擅长接话,总是会顺着聊天主题不时问一些开放式的小问题,几乎从不会「把天聊死」。
哪怕我故意表现得对聊天毫无兴趣,小海螺依然轻松接住话茬,并将话题延伸到了烹饪与个人娱乐兴趣层面。至少在这一层面上,海螺 AI 完全称得上是一个「高情商」的亲密好友。
现实生活中,还有一些话题我们找不到合适且能保守隐私的倾诉对象,这时候,海螺 AI 就提供了一个很好的备选方案:它不仅有温度、会聊天,还擅长保守秘密。我想,它很有潜力成为大家的「小树洞」。
什么样的 AI 产品能成为国民级应用?
纵观所有能成为国民级产品的 App,都有 3 个共性:使用门槛低、成本低、解决了用户在某个刚需场景下的痛点。
AI 产品要在普通人中普及,最关键的是降低门槛,让人一看就能看懂怎么上手使用、能用来做什么。
在这方面,海螺 AI 做得相当好。它的产品首页一目了然,帮我写作、帮我识图、帮我搜索信息、和我语音通话几大功能模块清晰地排列起来。
这既是一份极简的产品说明书,也是一份高频 AI 应用场景索引,一看即懂,上手就会,能快速了解 AI 究竟能为自己解决哪些问题。
当然,AI 可以解决的需求远远不是这份清单就能囊括的,但海螺 AI 最有趣的地方正在于此:不同于移动互联网时代的应用,AI 原生应用的通用性更强,用户能自行探索产品用法的空间成倍增长,完全不排除用户能摸索出来什么产品经理开脑洞都想不到的玩法。
比如说,微博上已经有博主学会了用海螺 AI 写小说大纲,还会设定人物性格,让 AI 根据性格推演可能会发展出的剧情,诠释了什么叫性格决定命运。有了 AI,每个作者都等于掌握了一整支编剧团队。
除了功能全面、直观外,能够担当国民级应用的 app 还必须兼容不同的交互方式。普通人在工作生活中,总是通过语音聊天、文字、图像,以及各种形式的文件来获取和交换信息。如果 AI 要成为能帮普通人解决问题的「人生搭子」,支持不同的互动方式就成了必选项。
拍一张照,就能识别解答问题
这种要求对海螺 AI 来说不在话下。因为接入了万亿参数的文本大模型 abab 6.5,海螺 AI 配备了国内卷得飞起的长文本能力,支持输入 200k tokens 上下文长度,还支持上传 PDF、DOC、XLS、PPT 和 JPG 等多达 11 种格式的文件。
有什么问题,发一句语音或者直接把文件甩给海螺 AI,马上就能得到回答。
我试着将一份长篇大论的白皮书文档扔给海螺 AI,要求它总结内容要点。不过几秒钟时间,它就给我返还了清晰和结构化的总结,让我 1 分钟就能理解文档的核心内容。要是用过往肉眼阅读的方式,这起码要耗费我一个小时。
另外值得一提的是,我在海螺 AI 平台上找到了大量其他用户创建的智能体。相对于首页的几大通用功能板块,这些用户原生智能体的场景需求更加细致,也更能满足一些个性化需求。
比如我把苹果新 iPad 发布会的官网信息投喂给一款名为 “表格生成器” 的智能体,让它整理成表格模式,一拉一拽马上生成,我可以直接粘贴下来用在媒体稿件中。
一位经常深夜做 PPT 到 2、3 点的公关朋友,让一款名为「PPT 大纲」的智能体替他做个发布会媒体计划 PPT 大纲。几秒钟后,海螺 AI 从发布会目标、媒体策略、媒体渠道、渠道与预算、时间线、评估与反馈等各个维度组织了一份大纲。按我朋友的原话,就这系统性的市场公关的思维框架,普通人没个几年工作经验都做不出来。
让海螺 AI 做传播规划,至少能省去一半的案头工作量。
还有一个被当代大学生玩到飞起的 AI 刚需场景——用 AI 辅助写论文。
无论是写论文大纲、搜集整理写论文需要的各种资料,海螺 AI 都能一并包办。一位医学生朋友使用「论文写作助理」生成了论文大纲,几秒钟就生成了完整的逻辑框架:
从以上场景就能看出来,生成式 AI 最重要的价值在于帮我们更快地搜集和整理各项信息。但就像我们在日常生活中所感觉到的,最有价值的信息往往需要追问深挖才能得到。
在某次拜托海螺 AI 给我提炼文档信息时,我意外发现了它的「追问」功能。
海螺 AI 总会鼓励我围绕一个主题探索更多信息,相当于我撒下了一颗问题的种子,而 AI 则以此为起点为我编织了一张知识网络,让我可以尽性更多的无限探索。这种启发式的信息推送,相比传统阅读单线获取信息的方式,已经有了质的飞跃。
办公的好助理,上班的好搭子
试用半天之后,我开始放心让海螺 AI 参与到我的工作之中,然后发现容易上手又全能的它,堪称是职场人的「金手指」。
身为一名媒体编辑,我时常需要从各类文章、文献中提取信息。如今,我尝试用 AI 来分担这部分基础的工作。一篇技术性文章的链接甩给海螺 AI,不一会儿它就给出了文章的清晰分点总结:
让 AI 帮忙多看几篇,我只挑有用的部分精读,工作量随之大大减少。
我们的文章里还经常涉及具体行业专业数据的搜集和分析。在尝试了解手机出货量形势变化时,我以「查询 2024Q1 全球主要智能手机厂商出货量市场份额」为题询问海螺 AI,很快得到了答案。
为了避免大模型常有的「幻觉」,我特意找来原数据核对了一遍,结果分毫不差:
脑洞再大一点,还可以让 AI 根据以上数据用 HTML 代码画一个饼图。想不到它写出来的代码有头有尾有注释,最后绘制出来的图表甚至可以互动:
既然图已经让 AI 帮我做好了,要不……顺便给爱范儿即将举办的「inG 游戏艺术节」写个小红书文案?
为了测试海螺 AI 对不同职业的适应性,我专门找来几位专业小伙伴,给海螺 AI 出题——
码农朋友提出的问题,海螺 AI 秒懂了:
律师朋友则问了一个我每个字都认识但就是看不懂的问题,也没有难倒海螺 AI:
和各行各业的朋友深度体验之后,我们达成了一致共识——海螺 AI 专业性足够,准确度达标,幻觉还很少,是个上班的好搭子。
做人人日常可用的 AI 产品
你肯定也像我一样好奇:为什么海螺 AI 不仅可以能看能说能写,而且还这么快?
答案在于,海螺 AI 接入了 MiniMax 周级迭代的文本、语音和图像多模态大模型。
模型能力决定了 AI 产品的上限,而大模型的能力又在很大程度上与参数量相关。在行业内模型参数量逼近算力上限之时,MiniMax 选择另辟蹊径,全力布局算力效率更高的 MoE(Mixture of Experts,混合专家模型)架构,也因此率先发布了国内首个万亿参数 MoE 大模型 abab 6.5 ,最新测试表现足以媲美 GPT-4。
如前文所述,有了万亿参数高效大模型的支持,海螺 AI 覆盖最高 245k tokens 上下文长度,1 秒钟能处理 3 万字信息。因此,它「阅读理解」迅捷如风车雨马,全然没有使用其他 AI 产品时那种一字一吐的滞涩感。
另一方面,MiniMax 创立之初就确立了多模态的技术方向,坚持让 AI 产品尽可能支持多种交互方式。比如在海螺 AI 的语音能力上,MiniMax 不断优化其语音大模型,追求在语气、情感和理解能力上无限接近真人。毕竟像真人、懂真人,才能融入普通人的生活,做真正的通用人工智能产品。
MiniMax 创始人闫俊杰近期接受采访时表达过一个观点:
我一直不认为 AGI 会像一个原子弹、一个大杀器,它就是普通人每天会用的一个产品、一个服务——这也是我们最坚持的。
人人日常可用,这六个字说易行难,但推进 AI 普惠的路上,我们永远需要海螺 AI 这种能往普通用户的需求方向多迈一步的产品。
「海螺 AI」支持网页版以及 iOS 与 Android 平台,App Store 及 Android 各大应用商店均可下载。