智源联合多家机构发布大模型安全平台 FlagSafe

　　北京智源人工智能研究院昨日联合北京大学、上海交通大学、中国科学院等多家机构，正式发布 FlagSafe 大模型安全平台。平台围绕红队演练、蓝队防御、白盒透视三个方向，为大模型提供从风险发现到防御治理的一体化安全能力。

红队演练负责主动找漏洞，支持文本、图像、音视频等多模态评测，并针对机器人等具身智能场景和模型「表面顺从、内部欺骗」等隐蔽行为进行专项检测；
蓝队防御负责堵漏洞，覆盖模型训练安全对齐、AI 智能体运行防护、有害内容识别修复，以及网络空间风险内容的动态监测。白盒透视则深入模型内部，追踪风险从何而来，并定位到具体训练数据，为修复提供依据。

　　平台基于《北京 AI 安全国际共识》设定了五条不可逾越的红线，包括禁止自主复制改进、禁止协助设计大规模杀伤性武器、禁止发动破坏性网络攻击等。

作者：itwriter
来源：互联网
日期：2026-05-11
浏览 (3793)