金磊梦晨发自凹非寺
量子位公众号 QbitAI
随着生成式 AI 的火速发展,AI 应用开始与各种信息设备“嫁接”,AI 手机、AI PC,甚至 AI 汽车都变得越发司空见惯。
一方面,人们正在生活中享受着 AI,尤其是大模型带来的便捷,可以随时随地向终端设备提出问题来答疑解惑,内容可能是日常生活中遇到的麻烦,也可能是单纯跟 AI 聊聊天解解闷,顺手拍个大模型给你解说人生鸡汤的视频发出来炫一下。
但另一方面,生成式 AI 上终端设备之后,更多地在向 AI 生产力的方向发展。
换言之,人们在工作上也越发地开始依赖大模型,例如直接把文档、表格、图片丢给设备来解析、处理。
这就引发了一个不知不觉中发生,也不可避免的话题——安全性。
因为不论 AI 应用在何种信息设备上集成,在使用过程中都会收集和产生大量用户数据,如个人信息、通信记录、浏览历史、生物特征数据等,这些数据对于用户来说具有高度的敏感性。
就好比之前的推荐模型仅仅是根据用户的浏览历史、搜索记录、购买行为等数据,就可以让用户身陷信息茧房,只推荐用户可能感兴趣的内容,限制了视野的拓展,再从电商角度“杀个熟”。
而大模型加持的这些 AI 终端设备,涉及到用户生活的更多方面,包括通信、工作、娱乐、金融等,甚至将来某一天它与汽车结合成为你的“副驾”,或与家务机器人结合后成为你的管家或护工时,还可能会把你家里家外的事儿摸个底儿掉。
所以它一旦出现安全问题,其影响范围将远远超过推荐模型,可能导致用户的财产损失、身份被盗用、工作中断等严重后果。
或许有人会说了,很多 AI 终端厂商在做宣传的时候都在强调断网运行,由此可以保障本地文件或信息的安全性。
但事实真是如此吗?
非也非也。
AIGC 应用,需要端云协同
AIGC 应用在终端使用的过程中,一个明显的趋势是这样的——
能力越强的 AIGC 应用都应当是端云协同,这才是数据处理模式的未来趋势。
之所以如此,是因为在大模型的应用过程中,充沛的算力和海量高质量的数据都是关键中的关键,直接影响用户在终端的体感。
尤其在众多面向终端部署的个人化应用里,一旦训练或推理过程有大规模计算资源参与其中,算力相对较弱的终端便会显得力不从心;一旦用户探求的信息或答案需要专门的数据库甚至高度组织的知识库的支持,都会成为阻碍 AIGC 应用进一步拓展的瓶颈。
那么端云协同又是如何破局的呢?它的“打开方式”是这样的:
△面向 AI 的端云协同架构
在端云协同的这一模式下,终端设备主要承担起与使用者直接相关的各类数据的采集与预处理工作。
它如同一个敏锐的观察者,时刻感知着周围的环境变化,将各种原始数据收集起来,并进行初步的整理和筛选。
而那些复杂的计算任务,以及对更多数据的访问则交由强大的云端算力来完成。云端就像是一个更有智慧的大脑,拥有着庞大的计算资源和先进的算法或更大参数量的复杂模型,还有个人用户难以企及的超大规模数据来供其训练或访问,可以更快速、更准确地给出答案或辅助处理需求。
这样一来,即使终端设备本身的算力和数据有限,也能够借助云端强劲的 AI 算力和数据积蓄来实现更加复杂的功能和服务。
比如,在图像识别领域,终端设备可以快速拍摄照片并进行简单的图像裁剪和调整,然后将图像数据上传至云端。
云端利用其强大的计算能力和深度学习算法,对图像进行高精度的识别和分析,最后将结果返回给终端设备,为用户提供详细的图像信息和相关的服务建议。
在语音处理方面,终端设备可以采集用户的语音信号并进行降噪等预处理,云端则负责对语音进行识别、翻译和语义理解等复杂的处理任务,从而实现智能语音助手的强大功能。
这种模式虽好,但当客户端各类数据需要传输至云端进行处理的时候,云端可信环境的重要性便立刻凸显出来。
所谓云端可信环境,指的是在云端能够确保终端传来的隐私数据以及自身存储的各类关键数据在处理和交互时,都能被更好地保护,不被非法访问、篡改或者泄露。在这个数据驱动的时代,尤其是面向企业级应用,这样的环境至关重要,其意义不言而喻。
一方面,云端可信环境直接关系到用户信任度的高低。
用户在使用各种基于 AI 技术的应用时,会将大量的个人数据上传至云端进行处理;如果云端环境不可信,用户的隐私数据随时可能面临被窃取、滥用的风险,这无疑会让用户对这些应用产生极大的担忧和不信任。
另一方面,云端可信环境还将影响到 AI 技术与应用的长期发展和社会接受度。
如果云端的安全性无法得到保障,频繁出现数据泄露等问题,不仅会损害用户的利益,还会引发社会对 AI 技术的质疑和担忧。这也将极大地阻碍 AI 技术的进一步发展和推广。
那么何以解忧?CPU,了解一下。
或许在很多人的固有认知里,在云上或数据中心里,与 AI 数据处理相关的硬件更多应当向 GPU 或者专用加速器靠拢;但实际上,CPU 作为系统的中央处理器,它才具备对整个系统的全面控制能力。
例如在云端协同的数据处理中,CPU 能够对数据的传输、存储和处理进行全面的监控和管理,如访问控制、身份验证、数据加密等。
相比之下,GPU 和专用加速器主要专注于特定的计算任务,缺乏对系统的全面控制能力,难以有效地执行安全策略。
至于 CPU 具体是如何在这个过程中发挥作用的,我们继续往下看。
基于 CPU 的可信执行环境
说到构建云端可信环境,离不开一个关键技术——可信执行环境(TEE)。
它通过在硬件中创建隔离区域,保护内存中的敏感数据不被非法访问、篡改或泄露。可信执行环境能够为敏感数据和代码提供独立于操作系统和硬件配置的增强安全防护。
想要在“端云协同”模式下构建可信执行环境,还可以从以下几个方面入手:
采用硬件级安全技术:
目前这方面的技术,成熟且应用较多的,当属英特尔® 软件防护扩展(Intel® SGX)和英特尔® 信任域扩展(Intel® TDX),它们或在内存中构建被称为“飞地”(Enclave)的安全区域,能做到应用隔离,来保护最关键的敏感应用和关键数据,或将 TEE 环境扩展到虚拟机层面,实现虚拟机隔离,来保护某个虚拟机环境中的数据和应用程序免遭未经授权的访问。
构建远程认证和密钥管理体系:
引入英特尔® 数据中心验真原语(Intel® DCAP)等技术,构建远程认证服务和密钥分发服务。确保只有经过验证的用户和设备才能访问云端资源,来更好地保护数据免受未授权的访问和泄露。
采用可信的运行环境和工具:
利用开源的轻量级操作系统,如 Gramine,确保可信运行实例的创建、加载与运行。Gramine 支持对网络通信进行加密,并可将远程认证协议(RA-TLS)下沉,实现对应用程序透明的加密网络通信。
基于 SGX、TDX 构建的云端 TEE 环境,再配合远程证明等配套服务,就构成了一套完整的面向 AI 任务的云端可信方案,可以为数据提供全方位的保护。
数据可信计算:通过云平台机密容器的构建和部署,构筑了基于 TEE 的双路可信 AI 沙箱,将 AI 应用的处理流程放入其中,让用户隐私数据在云端“可用不可见”。
数据可信传输:业务侧对用户隐私数据进行加密传输,同时借助远程认证服务,使业务开发或运维人员也无法获取明文数据,确保数据在传输过程中的安全性。
数据可信存储:业务侧对用户隐私数据进行加密存储,相关凭据类敏感数据也基于"飞地"加密存储,防止未经授权的访问。
由此可见,这套架构不仅可以保护静态数据,更是补齐了数据在处理和交互中的安全防护能力,做到在全流程中更好地”保驾护航”。
△面向 AI 的端云协同架构英特尔®TDX 技术架构
在大家熟悉的英特尔® 至强® 处理器上,相关安全技术的探索,早在几年前 AI 应用还处于训练为主的时代就已经有过成功用例。
例如阿里云企业级 ECS 实例 g8i 方案,就通过引入第五代英特尔® 至强® 可扩展处理器,构建了有弹性可信边界、且易于将应用程序部署在其中的分级机密计算新方案。
基于此,阿里云提供了机密虚拟机和机密容器两种使用模式,并推出了采用英特尔® TDX 的 BigDL 大模型隐私保护方案。
不仅能保障 AI 推理阶段,在预处理、数据准备、模型训练等阶段都可以对使用中的数据进行保护,更好地保证数据、模型的隐私机密性。这不仅加强了对用户隐私的保护,也保护了宝贵的模型资产不被窃取。
△英特尔®TDX 技术架构
还有金融业的平安科技和其他行业一些 AI 应用的先锋,更早时就曾探索基于 SGX 技术来实现更安全、更可信的联邦学习,或者隐私保护的机器学习应用,当然这些应用也都属于训练类型,也都是面向那些愿意提供自家数据来训练一个共有模型的多家企业或机构,让他们的数据在这一过程中得到更好的保护。
再来回顾至强 CPU 安全能力的进化史。英特尔在这条道路上从未止步。
在至强® 处理器中,SGX 首次作为附加功能出现在第二代英特尔® 至强®可扩展处理器中,并在第三代至强®可扩展处理器中成为标准功能。
而 TDX 首次在 2023 年随第四代英特尔® 至强®可扩展处理器(代号 Sapphire Rapids)引入。第五代至强®可扩展处理器进一步推广了 TDX 技术,使其在市场上更广泛可用。
随着 AI 技术的不断发展和应用场景的不断扩大,加强数据隐私和安全的需求将日益凸显。构建云端可信环境,不仅为云上用户数据提供全方位的保护,也为大模型、生成式 AI 的个人化落地,以及“端云协同”模式下的数据安全与隐私保护提供了有价值的参考。
而这一切,都有英特尔® 至强®这款服务器 CPU 在背后默默发力和支持。
而今,在最新一代至强® 6 处理器产品上,不论是 6 月发布的能效核(E-core)产品,还是刚刚官宣的,拥有更强单核性能、更高核心/计算密度、更高能效表现、以及更强内存和 IO 支持的性能核产品——至强 6900P 系列身上,SGX 和 TDX 都未缺席,正是它们为这些 CPU 产品增添了“更安全可靠”的定语,也为 AI 应用和数据的安全保障带来更加可行、可用,易用,好用的保障。
为了科普 CPU 在 AI 推理新时代的玩法,量子位开设了《最“in”AI》专栏,将从技术科普、行业案例、实战优化等多个角度全面解读。
我们希望通过这个专栏,让更多的人了解 CPU 在 AI 推理加速,甚至是整个 AI 平台或全流程加速上的实践成果,重点就是如何更好地利用 CPU 来提升大模型应用的性能和效率。
更多英特尔® 至强®可扩展处理器为企业云服务提供更优安全防护的案例,可点击链接获取。