白交发自凹非寺
量子位公众号 QbitAI
视频生成进展如火如荼,Pika 迎来一位大将——
谷歌研究员 Omer Bar-Tal,担任 Pika创始科学家。
一个月前,还在谷歌以共同一作的身份发布视频生成模型Lumiere,效果十分惊艳。
当时网友表示:谷歌加入视频生成战局,又有好戏可看了。
Stability AI CEO、谷歌前同事等在内一些业内人士送上了祝福。
Lumiere 一作,刚硕士毕业
Omer Bar-Tal,2021 年本科毕业于特拉维夫大学的数学与计算机系,随后前往魏茨曼科学研究所攻读计算机硕士,主要聚焦于图像和视频合成领域的研究。
其论文成果多次被顶会接收,比如 Text2LIVE(ECCV 2022 Oral)、MultiDiffusion(ICML 2023)、TokenFlow(ICLR 2024)。
以 TokenFlow 为例,他们提出了一种框架,基于扩散模型实现文本驱动的视频编辑,支持视频编辑任务无需任何训练或微调。
此次加盟 Pika 前,他曾是谷歌研究院以 Student Researcher 身份待了 9 个月,最终经过 7 个月的研究以共同一作身份推出了Lumiere。这时候硕士应该还没有毕业。
Lumiere 的创新点在于,提出了时空U-Net(STU-Net)架构:将视频在空间和时间两个维度同时进行下采样和上采样,在网络的中间层得到视频的压缩时空表示。
在学习了 3000 万视频之后,Lumiere 可支持文生视频、视频编辑修复、图片转视频以及视频风格化等多种功能。
当时 Jeff Dean 盛赞:多模态视频生成革命正在发生。
威尔史密斯吃面(Pika 版)
官宣加盟 Pika 消息之后,官方以及投资人等也送上了祝福。
前几天,还有位 Pika 华人研究员 Yilun Du 发布了篇文章, 不过应该刚从 MIT 博士毕业(也可能还没毕业),论文单位仍是 MIT。
另外在官网还在继续招人中。