智源联合多家机构发布大模型安全平台 FlagSafe

  北京智源人工智能研究院昨日联合北京大学、上海交通大学、中国科学院等多家机构,正式发布 FlagSafe 大模型安全平台。平台围绕红队演练、蓝队防御、白盒透视三个方向,为大模型提供从风险发现到防御治理的一体化安全能力。

  • 红队演练负责主动找漏洞,支持文本、图像、音视频等多模态评测,并针对机器人等具身智能场景和模型「表面顺从、内部欺骗」等隐蔽行为进行专项检测;
  • 蓝队防御负责堵漏洞,覆盖模型训练安全对齐、AI 智能体运行防护、有害内容识别修复,以及网络空间风险内容的动态监测。白盒透视则深入模型内部,追踪风险从何而来,并定位到具体训练数据,为修复提供依据。

  平台基于《北京 AI 安全国际共识》设定了五条不可逾越的红线,包括禁止自主复制改进、禁止协助设计大规模杀伤性武器、禁止发动破坏性网络攻击等。