国思软件 - 建模师也危险了？OpenAI公布Point-E，AI迈出“生成3D模型”第一步

　　GameLook 报道/刚刚用 ChatGPT 在全球掀起 AI 狂热的 OpenAI，时隔三周就又拿出了最新的“科技与狠活”？本周，来自 OpenAI 的研究者正式发布了该公司最新的文字生成 3D 模型实验技术 Point-E，并在 GitHub 上公开了项目的源代码。这意味着这家 AI 巨头的业务版图在文字、音乐、图片等领域之外，又开辟了 3D 模型生成这片重要的疆土。

　　事实上，AI 生成 3D 模型技术在市面上已经出现过一波井喷。在元宇宙概念如日中天的如今，多家行业巨头都认为在全真互联网时代，人类对的 3D 内容的需求将大幅膨胀，进而寻求借助 AI 帮助人类实现超高效的 3D 内容生产。谷歌在今年 10 月发布的 DreamFusion 和英伟达在 11 月发布的 Magic3D 等技术都是文字 3D 模型生成赛道上的前辈。如今 OpenAI 的入局，又会为这一赛道带来怎样的新风呢？

　　专注高效的 Point-E：竹杖芒鞋轻胜马

　　但正如 OpenAI 在此次的论文中所指出的，市面上的文字生成 3D 方法无一例外都有生成速度缓慢的缺点，生成单个 3D 模型的耗时常须以小时记。而 OpenAI 所打出的差异化口号便是一个字：快！OpenAI 声称，利用单张显卡，Point-E 仅需几秒到几分钟就能产出一个 3D 模型。英伟达的 AI 科学家 Jim Fan 在推特上表示，POINT-E 的生成速度约能达到 DreamFusion 的 600 倍。而 POINT-E 中的字母E所代表的正是效率（Efficiency）。

　　实现这一成果的方法是“剑走偏锋”。OpenAI 的科学家结合文字生成图片和图片生成 3D 两类模型，提出了一类全新的 3D 生成方法。Point-E 所产出的并非为可供直接渲染的 3D 网格，而是 3D 点云（Point Cloud）。

　　而在具体操作上，Point-E 会利用三十亿大模型 GLIDE 将文字指令转化为一张”预览图“（Synthetic View），相当于利用文字生成图片技术为 AI 提供一张 2D 的参考范例。随后在该预览图的指导下，利用扩散模型生成一个 1000 个像素点的 RGB 点云。最终，Point-E 以低分辨率的点云和预览图为条件，利用上采样（upsampling）技术将该点云进行进一步精细化，到达拥有 4000 个像素点的精度。

　　这一生成方式的缺点是十分明显。首先，OpenAI 就在论文中承认，利用该方法生成的模型精细度不高。GameLook 试玩了 OpenAI 放出的试用 demo。这个 demo 所运行的是 Point-E 的弱化版本——但即便将这一点纳入考量，最终的生成产物还是过分抽象了。

　　下图是 Point-E 绘制的救护车，我们可以从大体上看出轮廓。

输入文字指令”An Ambulance“生成的救护车点云模型

　　这张则是利用”图片转 3D“功能，在上传经典角色超级马力欧概念图后生成的点云和网格化模型——老任法务部看了直呼束手无策。

　　此外，OpenAI 还表示，系统在解析预览图时可能会误解物体的实际比例，导致生成的点云模型比例失调。使用该方法生成的点云还需进一步网格化才可投入使用，这也是潜在的缺陷之一。

　　但另一方面，Point-E 在完成它所专注的目标——快速——方面，可是一点都不打折扣。论文的统计数据显示，在使用单张 V100 显卡的情况下，DreamFusion 等主流算法需要高达 12-200 小时的计算时长才能产出一个 3D 模型，但 Point-E 仅需1-1.5 分钟就可利用文字生成 3D 模型。提升产出效率两个数量级。GameLook 在试玩中发现，每张图片的生成时间通常仅为2-3 分钟。

　　诚然，在这个阶段对 Point-E 的生成质量进行挑剔显然有些苛责，毕竟该技术和相关研究还明显处于早期，未经过多迭代——回望 DALLE 刚刚推出之时，也有不少人诟病其产出扭曲怪异。而在更标准的生产环境中，Point-E 的产出还是相当标致的。

　　此外，即便”元宇宙时代“人类对 3D 环境的观感十分注重，但高效的产出同样也是各大厂商决胜的关键。OpenAI 所采取的速度优化之道，同样也是启发未来的另一条重要思路。正如 OpenAI 在论文中所提的：”尽管生成效果相较最先进的算法并非最佳，但所使用的时间百不及一，这能够让应用场景变得更加可行……我们希望我们的论文能够抛砖引玉，启发文字合成 3D 模型领域的更多研究。“

　　业界热议：Point-E 到底有多大能量

　　OpenAI 的这篇研究一经公布，立刻在各大 AI 观察者圈子中引发了热议。前文所提到的英伟达 AI 科学家 Jim Fan 博士在看到 Point-E 后激动地表示：”2023 年将会是强大的 AI 生成 3D 模型之年，而 2D 将会是他们的投影！“Jim Fan 表示，他十分期待看到 3D 版的 Stable Deffusion 和 Midjourney 上线，未来的市场竞争将会十分激烈。

　　一名 3D 艺术家@zer0int1 在安装了”满血版“Point-E 后进行了一个小测试。他首先参考了一张原画并自己制作了一个 3D 模型，随后利用 Point-E 生成的模型网格化后进行了对比。他表示：”虽然我‘赢了’这场对决，但我不知道我应该感到高兴还是失望，毕竟我花了两个半小时才建好这个模型，但 AI 只花了两分半！“

　　在 GameLook 所浏览的各大论坛中，不少技术开发背景的程序员、艺术家等都对这项技术表现出了浓厚的兴趣，并前去体验了 Point-E 的 demo 版本。在 Reddit 的r/StableDeffusion 板块，更是有网友高呼神迹：”等到 2030 年 OpenAI 还会干出些啥？我 2022 年的原始人脑袋已经完全想象不出来了。“

　　不过，与此同时也有一部分声音对 Point-E 提出了质疑，其诟病的点主要在于较低的生成精度和较低的实用度。但正如前文所说，这并非 OpenAI 的实验所要达成的目的。

　　我们离 AI 真正加入人类创作还有多久？看似近在眼前，但也似乎遥不可及。一方面，以 GPT-3 为代表的 AI 文字生成技术和 Midjourney 等代表的 AI 图片生成技术，似乎已经能够产出让人满意的结果了，且迭代速度之快超出了我们想象。但另一方面，AI 作品在连贯性、可读性上依然无法与人类相提并论，Point-E 的产出也显然还达不到商用效果，更不用提 AI 训练中所包含的版权保护等新时代法律问题了。

　　而随着相关产品的日渐增多，AIGC 领域的竞争日益升高是我们所乐见的结果。只有通过不断地迭代，我们才可能在技术的碰撞之中不断突破技术的边界。GameLook 有信心，AIGC 一定会在不久的将来以更圆滑的形态与我们的内容生产融为一体。

建模师也危险了？OpenAI公布Point-E，AI迈出“生成3D模型”第一步

我们的产品

相关链接

关于我们

联系我们