丰色发自凹非寺
量子位公众号 QbitAI
“如果人类的水平达不到 80 分,就会被 AI 淘汰。”
在中国 AIGC 产业峰会现场,昆仑万维 CEO 方汉抛出这样一个大胆预测。
在他看来,目前 AIGC 对存量知识的理解与表达已经达到 80 分的水平,行业从业者将随之形成两极分化的局面:
一部分人成为上游管理员,一部分成为底层 AIGC 操作员,两者的工作产量都会极大提升。
剩下的达不到 80 分的腰部从业者,大概率被淘汰。
方汉毕业于中国科学技术大学近代物理系,拥有 29 年互联网从业经验,从 1994 年开始参与和倡导开源运动,是国内最早的网络安全专家,负责研发了国内市场占有率最高的网页游戏《三国风云》。
2008 年 3 月,他协助周亚辉先生创立昆仑万维,后者于 2015 年A股上市。
在本次大会上,他对昆仑万维介入到类 ChatGPT 大模型开发的契机、AIGC 对内容从业者的影响、三种 AIGC 商业路径、以及开源和预训练大模型在其中的重要性进行了一一分享。
为了完整体现他的思考,在不改变原意的基础上,量子位对其演讲内容进行了编辑整理。
演讲要点:
- AIGC 原本含义比较狭窄,主要指文本、图像以及视频还有音乐等人类可以消费的娱乐内容的生成。ChatGPT 的出现把 AIGC 的范畴给泛化了。
- 对存量知识的理解与表达,AIGC 将以低廉的成本做到 80 分的水准。
- 由于两极分化,AIGC 领域的腰部工作者要么力争上游做头部管理员,要不就老老实实成为 AIGC 操作员。
- 在 AIGC 领域,文生图在同一个赛道出现了三种完全不同的商业模式,互为补充:
(1)Stability.AI 打造的开源生态;
(2)Midjourney 打造的 SaaS 或者 Model Service 生态;
(3)Adobe Firefly 打造的传统生态工具,将所有 AIGC 功能集成到工具里。
- 只有开源模式可以满足用户的长尾需求;只有开源模式才可以满足中小企业的增长需求。
- 需要注意的是,我们不能只盯着目前 AIGC 进展,认为预训练大模型已经突破传统 AIGC 范畴进入 AGI 领域。实际上,各种 AIGC 工具能力仍然受到预训练大模型限制,尤其 GPT-4 大模型出现后这个现象更加突出。
以下为方汉演讲全文:
ChatGPT 的出现把 AIGC 的范畴给泛化了
AIGC 这个名字刚提出来的时候,在美国叫生成式 AI。
国内 UGC、PGC 的概念深入人心,所以造了一个词叫“AIGC”。
AIGC 原本含义比较狭窄,主要指文本、图像以及视频还有音乐等人类可以消费的娱乐内容的生成。
ChatGPT 的出现把 AIGC 的范畴给泛化了,ChatGPT 属于 AGI(通用人工智能)范畴。
今天我的分享更多偏向原有含义,即人类娱乐内容的生成。
首先,我简单介绍一下昆仑万维介入到类 ChatGPT 大模型开发的契机。
昆仑万维 2015 年A股上市,当时是以网游题材上市的,上市后在海外进行多元化发展,有浏览器、社交产品、游戏业务。
昆仑万维是内容厂商,对于所有内容生成方面的科技进步都非常敏感。
早在 2020 年 6 月份 GPT-3 刚刚出现的时候,管理层和技术领导者都去进行尝试。
当时我们判断这是内容生成领域一个里程碑,没想到两年后变成通用人工智能突破口。
也是从那时我们就已经决定要跟进这件事情,因为我们在内容生成领域绝对不允许落后。
具体而言,昆仑万维开始布局 AIGC 和大模型领域,与奇点智源合作开始进行大模型训练工作。
目前为止除了通用大模型训练之外,昆仑万维在音乐生成领域也处于国内和国际前沿地位。
我们的愿景是推进开源 AIGC 算法和模型社区的发展壮大。
昆仑万维作为中国领先互联网出海企业、技术驱动全球互联网公司,致力于前沿技术追踪和研发,有相当的技术积累和人才储备。
我们的技术团队持续进行算法技术创新,积极推进模型算法开源以及社区发展壮大,基于全球每月平均 4 亿活跃用户以及丰富行业经验,助力 AIGC 应用和生态的快速落地以及成长。
以下分享 AIGC 在具体商业模式落地方面的思考。
AIGC 从业者出现两极分化
我们观察到一个有趣的现象,对于 UGC(用户生成内容)的平台如小红书、知乎、抖音、快手等,用户创造内容的门槛每降低一倍,用户创造内容的数量就会增加十倍。
举个例子,在手机摄像头出现之前,人类拍摄视频一定是靠专业的摄像机和数码相机。
手机出现之后,摄像的门槛变低,视频内容数量出现了大爆发。
这促成了快手和抖音的发展,进而中国 UGC 领域产生了巨大突破。
C 端工具的商业逻辑其实是社区,B端工具的商业逻辑是功能完备性。
C 端工具用快手、抖音拍视频,目的绝不是为了做工具,而是让用户做出来内容通过社区分发,这是C端工具逻辑。
B 端工具的商业逻辑就像 Adobe 的 PhotoShop 全家桶、微软 Office 全家桶,以功能完备性来获得用户的青睐。
可见,随着 AIGC 技术的进展,它们将对内容生产者产生巨大影响。
不得不承认,现在 AIGC 对存量知识的理解与表达还远远没有到 100 分水准,但以低廉的成本做到 80 分没有任何问题。
如果人类自己的水平也只是 80 分,我们的工作一定会被 AIGC 替代,而 80 分以上的人将去管理 AIGC 操作员,完成曾经需要腰部作者完成的工作。
因此未来,头部工作者产量极大提升,作为 AIGC 操作员的底部工作者的生产能力也会得到极大提升。
很不幸,腰部工作者大概率会被淘汰。
那么,我们要么力争上游做头部工作者,要么就老老实实当 AIGC 操作员。
只有开源模式可以满足用户的长尾需求
在 AIGC 领域,文生图在同一个赛道出现了三种完全不同的商业模式。
第一种:Stability.AI 打造的开源生态;
第二种:Midjourney 打造的 SaaS 或者 Model Service 生态;
第三种:Adobe Firefly 打造的传统生态工具,将所有 AIGC 功能集成到工具里。
这三种商业路径,不止是在文生图,在文生图像、文生音乐还是小说创作领域都会长期存在,且三种模式互为补充。
最终的C端用户会倾向于使用 Midjourney 完成工作,如现在的电商从业者,大量使用 Midjourney 来进行电商广告素材创作。
Adobe Firefly 则契合一些传统的大B企业的需求,B端用户会使用 Adobe Firefly 来作为自己的创作工具。
Stability.AI 是一种开源模式,特别适合在这个领域进行创业的广大中小企业。
通过开源模式来进行自己的改装与改进,来满足长尾需求,这是另外两个模式无法提供的功能。
开源大模型是商业闭源大模型的有力补充和替代。
大家可以把 ChatGPT 想成早期 Windows,Windows 的存在是整个电脑商业软件的一个基石,也是绝大多数人的生产工具。
Linux 通过 30 年的努力变成 Windows 的替代,开源大模型也一定会出现。
因为只有开源模式可以满足用户的长尾需求。
还是以 Linux 为例,全世界所有的云厂商、大型互联网企业都以 Linux 为自己的服务底座。
要满足自己的长尾需求,只有一个选择,就是用 Linux 进行改装。
所以,我们也说,只有开源模式才可以满足中小企业的增长需求。
做一个具体的分析,Stable Diffusion 的出现比 OpenAI DALL·E 2 晚了整整 6 个月,在性能、质量上都低于 DALL·E 2 和 Midjourney,但依然有众多用户。
因为它是开源的,进步速度是难以想象的快。
Stable Diffusion 催生 ControlNet、T2I-Adapter、Composer,以及 LoRA 训练技巧。
在它上面进行二次开发的人数众多,新特性也在不断地涌现。
ControlNet 是目前为止在文生图领域唯一解决一致性问题的途径,极大地降低了用户的创作成本,提高了创作的可玩性。
ControlNet 开源仅 2 周,它的 Star 数就超过了 1 万。
与此同时,开源社区也极大地降低了用户的使用门槛。
例如 HuggingFace 提供了大量的模型托管以及通用的模型训练来框架 diffusers,stablediffusion-webui 开发了完善的一套 Demo 平台,Civitai 贡献了海量风格化 LoRA 权重,整个社区也蓬勃发展起来了。
预训练大模型能力决定 AIGC 能力上限
需要注意的是,我们不能只盯着目前 AIGC 进展,认为预训练大模型已经突破传统 AIGC 范畴进入 AGI 领域。
实际上,各种 AIGC 工具能力仍然受到预训练大模型限制,尤其 GPT-4 大模型出现后这个现象更加突出。
AIGC 领域的企业对于大模型本身的需求仍然非常大,也是持续的。
目前,还存在这样几个大问题。
首先,AIGC 发展起来之后是否会导致优质内容的稀缺?
因为 AI 生成的内容会大量污染原创的内容。
其次,如何解决大模型底座导致的偏见?
比如 OpenAI、ChatGPT 生成的内容就存在偏见,这个问题值得关注。
最后,版权、信息伪造问题。
Adobe Firefly 提出了一个新的模式,它训练的所有内容与作者达成协议,通过对 model 收费给内容作者分成。
从监管到行业自律,我们可做的事情非常多,而且迫在眉睫。
关于未来 AIGC 的展望(仅指娱乐内容 AIGC)——
第一,AIGC 对整个社会最大的意义是低成本终极解决方案,这一点毋庸置疑,所有人类都有消费内容产生多巴胺的权力;
第二,AIGC 将涌现新的范式,彻底改变艺术创作生产方式;
最后,AIGC 导致内容生成的极大发展,会使得 VR 和元宇宙变得更加可行。
谢谢大家。