近期,卡内基梅隆大学与斯坦福大学联合非营利性机构 AI Safeguard 开发出一款轻量级多模态模型——Ivy-VL。
凭借高效、轻量化和强性能的设计理念,Ivy-VL 解决了多模态大模型在端侧部署中的诸多难题。这一模型不仅推动了移动端 AI 应用的发展,也为更多设备在低功耗环境下运行 AI 技术铺平了道路。
据了解,Ivy-VL 的参数量仅为 3B,与 7B 以几十B的多模态模型相比,具有更小的硬件占用。模型可高效运行于 AI 眼镜、智能手机等资源受限的设备上。
通过结合先进的视觉编码器(google/siglip-so400m-patch14-384)与强大的语言模型(Qwen2.5-3B-Instruct),Ivy-VL 在视觉问答、图像描述、复杂推理等任务中表现优异,完美满足端侧应用的多模态需求。
另外,Ivy-VL 将模型开源,并且允许商用,方便开发者快速上手。无论是 AI 创新团队还是个人开发者,都可以利用 Ivy-VL 构建自己的多模态应用。