国思软件 - 腾讯版Sora发布即开源！130亿参数，模型权重、推理代码全开放

　　梦晨西风发自凹非寺

　　量子位公众号 QbitAI

　　腾讯版 Sora，发布即开源！

　　130 亿参数，成为目前参数量最大的开源视频生成模型。模型权重、推理代码、模型算法等全部上传 GitHub 与 Hugging Face，一点没藏着。

　　实际效果如何呢？

　　不瞒你们说，我真的看见一只大熊猫，在跳广场舞、吃火锅、打麻将，请看 VCR：

　　到底是来自四川的猫！

　　目前该模型已上线腾讯元宝 APP，用户可在 AI 应用中的“AI 视频”板块申请试用。

　　API 同步开放测试，开发者可通过腾讯云接入。

　　腾讯混元视频生成主打四大特点：

超写实画质，模型生成的视频内容具备高清质感、真实感，可用于工业级商业场景例如广告宣传、创意视频生成等商业应用。
高语义一致，用户可以进行细致的刻画，例如生成主体的细节，人物概念的组合等。模型可以准确的表达出文本的内容。
运动画面流畅，可生成大幅度的合理运动，运动镜头流畅、符合物理规律，不易变形。
原生镜头转换，模型原生具备自动生成多视角同主体的镜头切换画面，增强画面叙事感。

　　那么实际表现能否符合描述？下面结合实例一一拆解。

　　实测腾讯首个文生视频模型

　　首先是冲浪题材，涉及到画面大幅度运动，水的物理模拟等难点。

　　提示词中还特别指定了摄像头的运动，腾讯混元表现出流畅运镜的能力，只是在“最后定格在…”这个要求上稍显不足。

提示词：超大海浪，冲浪者在浪花上起跳，完成空中转体。摄影机从海浪内部穿越而出，捕捉阳光透过海水的瞬间。水花在空中形成完美弧线，冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

　　镜子题材，考验模型对光影的理解，以及镜子内外主体运动是否能保持一致。

　　提示词中的白床单元素又加大了难度，涉及到的布料模拟，也符合物理规律。

　　不过人们想象中的幽灵一般没有脚，AI 似乎没学到，又或者是跳舞涉及大量腿部动作，产生了冲突。

穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满灰尘的阁楼中，阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照在镜子中。幽灵在镜子前跳舞。电影氛围，电影打光。

　　接下来是腾讯混元视频生成主推的功能之一，在画面主角保持不变的情况下自动切镜头，据了解是业界大部分模型所不具备的能力。

一位中国美女穿着汉服，头发飘扬，背景是伦敦，然后镜头切换到特写镜头。

　　https://mp.weixin.qq.com/s/6_ciIeZBqkFMuizUmjKV4Q?token=1748535864&lang=zh_CN

　　再来一个综合型的复杂提示词，对主角外貌、动作、环境都有细致描述，画面中还出现其他人物，腾讯混元表现也不错。

特写镜头拍摄的是一位 60 多岁、留着胡须的灰发男子，他坐在巴黎的一家咖啡馆里，沉思着宇宙的历史，他的眼睛聚焦在画外走动的人们身上，而他自己则基本一动不动地坐着，他身穿羊毛大衣西装外套，内衬系扣衬衫，戴着棕色贝雷帽和眼镜，看上去很有教授风范，片尾他露出一丝微妙的闭嘴微笑，仿佛找到了生命之谜的答案，灯光非常具有电影感，金色的灯光，背景是巴黎的街道和城市，景深，35 毫米电影胶片。