iPad可用AI绘画交互编辑神器火了，网友：颤抖吧PS

　　奇月发自凹非寺量子位公众号 QbitAI

　　比 PS 更懂你的 AI 图片编辑工具——MagicQuill（魔法羽毛）来了！

　　1 分钟出图：不用打字、简单勾画几笔就能编辑图片。

　　还支持直接在 iPad 上在线编辑！

　　研究团队来自香港科技大学、蚂蚁集团、浙江大学和香港大学等机构。

　　我们先一起看个例子感受一下——

　　有了 MagicQuill，现在当你想要给人物更换衣服时，就可以直接画出领子，它会自动帮你补全。

　　加条项链、去除路人，几秒钟就搞定：

　　你还可以更换发色、让人物戴上花环，甚至更改花朵的颜色：

　　只需要 1 分钟多的时间，就可以实现上面这么多编辑效果，尤其是对于想要快速修改照片的用户来说，简直太方便了！

　　还有更多有趣的例子，机器人、汽车、蛋糕等，都可以快速修改！

　　有多位网友评论说，AI 图像编辑真的进步飞快，“能读懂用户心思”是非常具有未来感的用户体验。

　　甚至还有网友说，颤抖吧，PS！

　　MagicQuill 目标是理解精细修改意图

　　虽然目前 AI 图像编辑工具是百花齐放，但想要实现精细编辑，很多工具的效果还是比较令人捉急。

　　MagicQuill 团队的目标是实现一个高效且精确的图像编辑系统，能够在用户进行细微修改时提供更好的使用体验。

　　这不仅包括实现细粒度的图像编辑控制、还要提供直观的用户界面、并实时预测用户意图。

　　最终团队选择基于扩散模型、文本和掩码的图像编辑方法、以及多模态大型语言模型（MLLMs）进行实现，并设计了简约实用的用户界面。

　　MagicQuill 的具体构成

　　一起来看看 MagicQuill 系统的具体构成是什么样的。主要分为 3 个部分：

　　1. 编辑处理器

　　编辑处理器采用双分支架构，包括内容感知修复分支和结构引导分支。

　　内容感知修复分支利用 UNet 架构，结合掩码图像特征和预训练的扩散网络进行像素级修复。

　　结构引导分支则通过 ControINet 插入条件控制，确保编辑操作的精确性。

　　2. 绘画助手

　　绘画助手通过多模态大型语言模型（MLLM）实时预测用户意图。

　　具体的任务称为“Draw&Guess”，也就是通过图像上下文解释用户笔画并自动生成相关提示。

　　团队采用的数据集通过生成边缘图和模拟用户笔画进行构建，并使用 LLaMA 模型进行微调。

　　3. 创意收集器

　　创意收集器为用户提供了一个简约直观的界面，它兼容多个平台，团队也提供了在线 demo，你可以在电脑或 iPad 上直接使用！

　　界面主要包括提示区、工具栏、图层管理、主画布、生成图像预览区、执行按钮和参数调整区。

　　按钮设计非常简洁，有上传图片、“增加”画笔、“减少”画笔、改颜色画笔、橡皮等等。

　　下方的参数调整区域更适合有丰富的生图经验的专业人士：

　　比如在 Base Model Name 里，你可以选择不同的基础模型，有适合生成真实风格的 SD1.5/realisticVisionV60B1_v51VAE.safetensors、适合生成幻想风格的 SD1.5/DreamShaper.safetensors 等。

　　你还可以调整 Negative Prompt 避免生成部分内容、还有 Fine Edge 精细边缘调整、Grow Size 调整笔触大小等等。完整工作流程如下图所示。

　　实际效果怎样呢？

　　为了更准确地测试 MagicQuill 的具体效果，团队还设计了 3 个验证实验：

　　1. 可控生成评估

　　将 MagicQuill 与四个基线方法（SmartEdit、SketchEdit、BrushNet 及其组合）进行比较，评估编辑处理器的可控生成能力，尤其关注边缘对齐和颜色保真度。

　　结果显示，MagicQuill 的编辑处理器在所有指标上均优于基线方法，具有更高的边缘对齐度和颜色保真度。

　　2. 预测准确性评估

　　为了评估 MagicQuill 在模拟手绘输入下的语义预测准确性，团队将它的绘画助手与三种最先进的 MLLMs （LLaVA-1.5、LLaVA-Next、GPT-4o）进行了比较。

　　结果显示，绘画助手在所有测试的 MLLMS 中表现最佳，可以更准确地捕捉和预测用户绘图的语义含义。

　　3. 创意收集器有效性评估

　　团队还通过用户研究评估了创意收集器的效率和可用性，并比较了它与基线系统的差异。

　　用户研究结果显示，MagicQuill 在所有评估维度上都显著优于基线系统，包括复杂性和效率、一致性和集成、易用性以及总体满意度 4 个方面。

　　看来体验过的用户反馈都不错呢！

　　未来工作

　　团队还表示，这将是一个长期的工作，未来他们的目标是扩展系统功能，纳入更多的编辑类型，如基于参考的编辑，这将允许用户使用外部图像指导修改。

　　他们还计划实现分层图像生成，可以让编辑更加灵活、支持更多复杂合成。

　　系统也会支持排版，能够处理更多图像中的文本元素。

　　目前 MagicQuill 的代码、论文和 Demo 都已上线，感兴趣的小伙伴可以马上试用起来了！链接就在下方。

　　参考链接：https://magicquill.art/demo/

作者：itwriter
来源：互联网
日期：2024-11-20
浏览 (5199)