国思软件 - 阿里34篇论文入选国际顶会CVPR 2024，Animate Anyone、EMO等模型亮相

　　近日，国际计算机视觉顶会 CVPR 2024 在西雅图召开，阿里共 34 篇论文被收录，其中有 6 篇入选 Highlight 和 Oral Paper，被收录论文研究方向涵盖多模态模型、图像编辑及可控视频生成等前沿领域。早些时候火遍国内外的 Animate Anyone、EMO、Facechain 等模型也在会议现场亮相，并吸引了大量参会人员的关注与体验。

阿里 34 篇论文入选国际顶会 CVPR 2024，Animate Anyone、EMO 等模型亮相

　　CVPR 是计算机视觉领域最顶级的学术会议，每年都有大量企业、研究机构和高校参会，过去十几年曾诞生了 ResNet、ImageNet 等极具影响力的研究成果。据统计，今年 CVPR 共提交了 11532 份论文，最终 2719 篇被接收，接受率只有 23.6%，为近 4 年最低，而 Highlight 和 Oral 的占比仅为 11.9% 和 3.3%。

　　在阿里通义实验室的 Highlight 论文《SCEdit: Efficient and Controllable Image Diffusion Generation via Skip Connection Editing 》中，研究团队提出了一种全新的图像扩散生成框架 SCEdit，它引入了全新的 SC-Tuner 的轻量级微调模块，通过对原始模型进行细微的调整，大幅度降低了训练参数量、内存消耗和计算开销。实验结果显示，SCEdit 可快速迁移到特定的生成场景中，相比 LoRA 节省 30%-50% 的训练显存开销，可应用于边缘图、深度图、分割图、姿态、颜色图、图像补全等条件生成任务。目前相关代码及微调模型均已开源。

阿里 34 篇论文入选国际顶会 CVPR 2024，Animate Anyone、EMO 等模型亮相

　　会议现场，阿里首次在海外展示了基于 Animate Anyone 和 EMO 打造的大模型应用，吸引了来自全球各地参会者体验。过去半年，这两个项目在 Github 上累计获得超 20k 的 Star，是视频生成领域的标杆项目。

　　据介绍，目前通义大模型家族已拥有文本生成、图像生成、视频生成、图像理解等全模态能力。不久前开源的 Qwen2-72B 是全球性能最强的开源模型，性能超过美国最强的开源模型 Llama3-70B，也超过文心 4.0、豆包 pro、混元 pro 等众多中国闭源大模型。

阿里34篇论文入选国际顶会CVPR 2024，Animate Anyone、EMO等模型亮相

我们的产品

相关链接

关于我们

联系我们