写点什么

智算浪潮下的专有云操作系统安全:范式跃迁与信任链重塑

  • 2025-08-20
    北京
  • 本文字数:6029 字

    阅读完需:约 20 分钟

大小:3.09M时长:18:01
智算浪潮下的专有云操作系统安全:范式跃迁与信任链重塑

过去十年,云计算的快速发展为企业带来了前所未有的便利,越来越多行业开始深度拥抱云技术。但与此同时,数据泄露、权限滥用、供应链攻击等安全事件频发,也让不少企业,尤其是数据安全敏感度型企业,在选择云模式时多了一层顾虑。在这样的背景下,专有云凭借物理隔离、自主可控、本地化部署等特性,成为许多企业平衡云便利与安全需求的重要选择。


然而,近两年 AI 技术的爆发,又给专有云固有的安全范式带来了新的冲击,比如大模型训练需要海量数据的跨域流动、数据轨迹难追溯、生成式 AI 攻击的黑箱特性等等。AI 时代,专有云的安全信任基石究竟该如何重构?



「AI 进化论:智算时代 OS 的破局之路」第二期直播,聚焦「专有云操作系统安全」,邀请了三位阿里云的技术专家:阿里云专有云系统安全技术专家 姜迎、阿里云技术专家 孙维东、阿里云技术专家 / 龙蜥社区软件供应链安全架构师 郑耿,共探 AI 时代专有云操作系统的安全之道。


以下为经编辑整理的专家访谈实录。


Part 1:行业趋势与核心挑战


Q1:在专有云场景下,物理隔离一直被视为安全的终极手段,但随着新技术的突破和业务场景复杂度的提升,其局限性也开始显现。如何看待物理隔离对专有云场景的价值?AI 时代对专有云的安全又提出了哪些新挑战?


姜迎:物理隔离仍是防御外部入侵的终极手段,也是合规层面的刚性需求 —— 例如政务网络要求物理切断连接以满足数据主权要求,但它无法抵御内部威胁。AI 时代的到来,让攻击路径更具自适应性、攻击手段更高级:攻击者能自动感知环境与设备信息,更容易发现内部漏洞并实现横向渗透。除此之外,专有云除了自用也会存在转售模式,并且业务也需要向混合云模式发展,还是需要透过连接公网进一步发展业务。这要求我们通过机密计算、零信任、抗量子技术等升级技术范式,以抵御这些高级威胁。


孙维东:物理隔离是专有云安全的基石,能防御各类外部攻击,如同 “最坚固的外壳”,但它无法覆盖所有攻击向量 —— 比如内部威胁,以及 AI 时代更复杂、智能化、随机化的攻击。物理隔离虽坚固但灵活性不足,在新攻击范式下,需要通过机密计算、零信任、软件供应链安全提升、国产操作系统与自主芯片协同等技术进行补充,让整个系统更安全。并非物理隔离本身过时,而是需要更灵活的技术组合。


郑耿:安全的核心始终是服务于业务。AI 时代的计算范式和业务架构发生了巨大变化,对海量数据和计算资源的需求显著提升。物理隔离从安全角度看是 “堡垒”,但会限制资源的按需调配与复用,对业务发展存在一定约束。


Q2:传统安全架构比较依赖 “边界防护” 和 “补丁管理”,但面对高级持续性威胁(APT)时往往力不从心。近年来 “零信任”“机密计算” 等理念兴起,这些技术正在如何重塑专有云的安全逻辑?从技术演进角度看,这种范式转换有何关键特征?


姜迎:AI 时代的攻防对抗不断升级,攻击模式更趋高级化 —— 例如能自适应调整攻击路径、通过深度伪造技术模拟声纹或视频等。这推动了机密计算、零信任、抗量子技术等的兴起,安全范式也从 “边界防护” 升级为 “端到端全链路保护”。

  • 机密计算:偏向数据流防护,实现数据全生命周期加密保护 —— 数据进入可信执行空间时加密处理,出空间需经过加密审批,仅在空间内解密并运行计算。

  • 零信任:偏向控制流管控,遵循最小权限原则,用动态身份认证(如短期访问凭据)替代传统固定密钥,强化权限管控力度。

  • 后量子技术:应对量子计算对非对称加密算法的解密威胁。

未来安全将向机密计算、零信任、后量子技术及 AI 智能化方向演进。


孙维东:零信任和机密计算在专有云场景的应用越来越广泛。专有云虽相对隔离,但 AI 时代不同业务单元间的数据协作、流动需求显著增加。机密计算解决 “数据可用不可见” 的问题,零信任则强化动态权限管控,二者共同重塑了 “不依赖固定边界、聚焦数据和权限本身” 的安全逻辑。


Q3:国产操作系统与自主芯片的协同发展是当前行业热点,但安全能力的提升不能仅靠 “替换”,更需 “重构”。当前,在国产 OS 与自主芯片的协同中,安全信任链构建面临哪些核心挑战?


孙维东:可控是构建安全生态的重要基础,但可控不意味着绝对安全。当前自主芯片生态呈现 “百花齐放” 的特点,涌现出众多新的安全架构、设计理念与技术方案,迭代速度显著加快 —— 这为安全特性的发展提供了支撑,但也带来两大挑战:

  1. 生态不统一:操作系统是连接硬件与应用的桥梁,需衔接不同芯片的安全特性、AI 加速能力等,但芯片生态较为分散,如何平衡性能、稳定性,同时提供统一的使用方法以避免增加开发者负担,是一大难题。

  2. 安全特性抽象难:需要将不同芯片的安全特性进行统一抽象,让开发者、企业、芯片厂商、学界等能轻松参与生态开发,目前实现难度较大。


Q4:软件供应链攻击已成为增长最快的安全威胁之一,一直以来行业通用的应对之法是什么?2025 年供应链攻击呈现出哪些新态势,带来了哪些新挑战?


郑耿:软件供应链安全是保障系统研发全环节(从开源软件包引入、编码、测试、发布到使用全流程)的安全性。由于开源的普及,主流开发范式变成基于开源组件的二次开发,如果研发中引入的开源组件若存在安全问题,这些问题会随着软件供应链传导至最终的产品,引发安全风险。

传统应对思路以 “扫描 + 修复” 为主:对源码、二进制制品进行安全扫描、依赖扫描等,识别安全风险后,通过工单推动业务修复。这种方式偏被动且滞后。如今则更强调 “安全左移”—— 在需求分析、架构设计、编码等阶段提前安全工程师介入,开展安全分析和组件评估,介入越早,修复成本越低。

2025 年的新态势主要有三个:

  1. 攻击智能化:攻击者借助 AI 发起攻击,AI 的随机性和创造性让攻击更难预测,传统防护策略容易失效。

  2. AI 自身供应链风险:AI 研发流程(从数据、模型训练、微调到部署)存在多个攻击点,已成为业界关注的热点。

  3. 云上攻击增多:AI 对数据、计算、存储资源的需求激增,企业上云比例上升,云的攻击价值提升,针对云的攻击也随之增加。


Part 2:技术突破与实践路径


Q5:从技术实践的角度来看,国产 OS 如何实现从硬件启动到应用运行的全栈可信验证?TPM(可信平台模块)与 TEE(硬件级可信执行环境)的协同在其中能发挥哪些关键作用?


孙维东:全栈可信验证的核心是保障运行环境的完整性 —— 只有完整性得到保证,机密性防护才有意义。验证过程需实现 “可度量、可验证”:

  • 基于 TPM 的可信计算阶段:从硬件开始,逐级度量固件、操作系统内核、系统软件、应用软件(包括虚拟化、云原生组件),最终生成硬件签名报告。通过验证报告,可确认系统运行在合法硬件上,且所有软件未被篡改。

  • TEE(机密计算)阶段:在完整性基础上增加机密性保护,例如机密虚拟机(Confidential VM)会对内存加密,即使是宿主机管理员等拥有高级权限的攻击者,也无法获取明文数据。

TPM 与 TEE 的协同有两种主流模式:

  1. 机密虚拟机运行在裸金属服务器时,TEE 保护虚拟机内的机密性和完整性,TPM 保护宿主机软件栈的完整性,从外到内覆盖全环境。

  2. 采用 VTPM(虚拟 TPM)技术,将 VTPM 运行在机密虚拟机内,既保护 VTPM 自身安全,又能为其他虚拟机提供类物理 TPM 的安全能力。


Q6:机密计算作为突破物理隔离局限、重塑安全逻辑的关键方案,其核心技术 TEE(硬件级可信执行环境)在专有云场景落地时,经常面临性能损耗、兼容性适配等问题。如何通过技术优化解决这些难题?


姜迎:性能损耗方面,机密计算的性能已远超同态加密、联邦学习等技术。国外芯片数据显示,CPU 和内存性能损耗约 2-3%,内存密集型或 AI 业务约 3-4%;IO 损耗相对较高(7-20%),但 Trust IO 等技术已能将 IO 损耗优化至接近无损水平。国内芯片也在通过硬件卸载、加速引擎、指令集优化等提升性能;软件层面,内存异步回收、内存子系统改造、缓存文件系统等技术也能降低损耗。性能优化需要业务、系统、硬件的垂直协同设计,单一层面的优化效果有限。

兼容性方面,国外机密计算技术发展较早,开源社区已有适配主流芯片的组件;国内因芯片 “百花齐放” 且发展较晚,兼容性仍是挑战,需要通过生态标准(如抽象层)实现统一适配。此外,安全、性能、兼容性之间需要平衡,可能存在为了安全和性能牺牲部分兼容性的情况,这往往需要通过芯片定制化实现安全与性能的双重保障。


Q7:国密算法的实践落地,不仅是出于合规性要求,更是技术发展的必然演进。OS 原生集成国密算法时,在密钥管理、合规适配方面有哪些技术难点?阿里云在这方面有哪些创新实践?


郑耿:技术难点主要有四点:

  1. 基础软件支持体系尚不完善:国密算法需覆盖操作系统内核、工具链、中间件、应用层全链路,但目前基础软件适配不足,需大量适配工作才能降低上层用户的接入成本。

  2. 生态呈现碎片化特征:纯软件实现国密算法的性能损耗较大,通常需要硬件与软件协同(如硬件密码加速算子),但国内硬件生态分散,适配标准不统一,增加了开发者的使用成本。

  3. 性能问题突出:这是安全领域的共性挑战,国密算法的实现(尤其是纯软件实现)往往存在较明显的性能损耗,影响业务运行效率。

  4. 密钥管理复杂:全链路加密涉及多环节密钥,如何实现统一管理是一大难题。

阿里云的实践包括:

  • 投入基础软件生态建设,在 Linux 内核、OpenSSL、libgcrypt、gnulib、nettle 等从内核到应用的全链路完成国密适配,并将能力贡献给上游开源社区,共建生态。

  • 联合铜锁社区推动国密算法标准化,例如铜锁社区的 8998 RFC 标准将国密算法实现在国际社区发布,为在 TLS v1.3 协议中使用完整的商密套件提供依据。

  • 在龙蜥社区安全联盟发起硬件安全合作计划,构建国产化的安全硬件基础设施和软件生态。

  • 布局后量子密码,联合铜锁社区在 Tongsuo 项目中实现了部分后量子密码,应对量子计算对传统密码的冲击。


Q8:面对软件供应链攻击的新态势,从技术架构的角度来看,我们应该如何构建可验证、可追溯的软件镜像发布体系?背后需要怎样的核心技术能力去支撑?


郑耿:构建可验证、可追溯的软件镜像发布体系,需要覆盖研发全链路,每个环节都需保障安全:

  1. 源码管理:通过安全扫描、结合大模型开展源码安全分析,确保源码和构建脚本的安全性。

  2. 构建环境:加强权限管理、隔离与可信性保障,例如采用 TEE 技术构建可信构建环境,防范构建环境被攻击。

  3. 下游信任传递:通过软件物料清单(SBOM)记录研发核心信息,包括源码依赖、构建工具依赖、构建三方包依赖、发布信息等,让下游用户清晰了解交付内容,解决 “黑盒” 信任问题。

  4. 制品仓管理:制品仓是供应链攻击的高频目标,需加强安全管控,通过权限管控、制品签名等方式,防范恶意软件上传。

核心技术支撑包括:安全扫描工具、大模型安全分析能力、TEE 可信环境技术、SBOM 生成与管理工具、制品仓安全管控机制等。


Part 3:阿里云方案与行业启示


Q9:阿里云推出的 ACK-TEE 机密计算平台,在金融、医疗等敏感行业已有成功案例。能否从技术架构层面解析它是如何实现 “计算在云端,数据不出域” 的?这种模式对行业有何借鉴价值?


姜迎:ACK-TEE 本质上是基于 Kubernetes 调度的容器集群,核心是将数据计算置于 TEE 可信执行环境中,从而实现 “计算在云端,数据不出域”,主要有三种模式:

  1. 机密虚拟机模式:将容器部署在机密虚拟机内,容器调度集群的数据面部署在机密云服务器上,控制端与数据端实现隔离。数据进入 TEE 前会经过预处理与加密(覆盖存储和传输环节),计算结果出域前需加密并经过审批,全链路保障数据不泄露。

  2. 物理机机密容器模式:直接在物理机上部署基于轻量虚拟化的机密容器(如开源项目 compositional containers),由 Kubernetes 调度,依赖芯片级内存加密和隔离技术保护数据。

  3. 安全容器 + APP TEE 模式:在安全容器(基于 Cgroup、NameSpace 等实现系统级隔离)上,采用英特尔 SGX 等技术实现进程级机密保护。即使安全容器被攻破,APP TEE 仍能保障数据安全(即 “破壳不破芯”)。

借鉴价值在于:企业可根据自身部署形态(如存量云服务器、容器等)选择适配模式,降低业务迁移成本。例如,存量业务若运行在云服务器上,可基于云服务器构建垂直机密能力;若业务已采用容器,可改造为机密容器,在安全与业务连续性之间实现平衡。


Q10:国产 OS 与自主芯片的协同需要生态各方共同努力。阿里云在龙蜥社区中,是如何推动国产 OS 与自主芯片的深度适配?


孙维东:龙蜥社区是阿里云深度参与的开源生态,推动国产 OS 与自主芯片适配主要依靠三点:

  1. 上游优先原则:阿里云将在机密计算、软件供应链、国密算法等领域的安全技术,以及性能、兼容性、稳定性优化等特性,毫无保留地贡献给龙蜥社区,推动软硬件生态繁荣,形成自主芯片与国产 OS 的正向循环。

  2. SIG 小组聚焦:社区设有机密计算、软硬件、国密等专项小组(SIG),以特定领域或课题为核心,组织芯片厂商、开发者等协同开发,让讨论与落地更聚焦高效。

  3. 生态开放性:通过开源活动吸纳学界、友商等参与,同时向国际社区(如 Coco 社区)贡献国产芯片适配代码,推动国产生态纳入国际标准,提升国际认可度。


Q11:未来三年,AI、量子计算等技术将如何重塑专有云安全?企业需重点关注哪些战略控制点?


姜迎:AI 时代的攻击将更具自主性 —— 会自适应调整路径、直击目标,甚至通过深度伪造实施攻击,这将驱动攻防对抗持续升级。防御层面则需强化 AI 智能化预测能力(例如部署 AI 哨兵系统),实现攻防的智能化升级。数据安全方面,需融合机密计算、多方计算、区块链等技术,并结合抗量子技术,从多学科角度保障数据安全。量子计算可能解密现有加密数据,因此需升级密码体系,布局量子密钥分发和后量子技术。


孙维东:从需求角度看,AI(尤其是大语言模型)的影响力让全行业意识到数据安全的重要性,对安全的要求也更高,但当前安全技术、生态与标准的迭代速度,仍难以跟上 AI 的发展节奏,这是行业普遍面临的现状。攻击的随机性和灵活性远超防御能力,即使借助 AI 进行防御,也受限于大模型的可解释性和精确性短板。量子计算的威胁则更明确 —— 它瞄准现代密码学的基石,一旦突破,现有安全技术将面临失效风险。企业需重点关注安全技术与 AI、量子计算的协同,以及生态和标准的完善。


郑耿:量子计算的破坏性具有可预见性,对基于整数分解问题和离散对数问题等的密码机制威胁最大,传统对称密码可通过加长密钥应对,或采用基于格等方式的新算法。AI 对安全领域的冲击更显著:传统安全防御是被动防御(基于历史攻击数据总结规律),在 AI 驱动的不可预测攻击面前防护效果将大打折扣,需转向 “安全韧性(Resilience)”—— 即强调主动防御和系统被攻破后的自动恢复能力。企业需要探索借助 AI 构建新的防御范式,以此提升安全韧性。


栏目介绍:

在 AI 重塑产业格局与国产化替代加速推进的双重浪潮下,《AI 进化论:智算时代 OS 的破局之路》以云、AI、安全等技术与服务器操作系统如何融合演进为主线,聚焦服务器操作系统在智算时代的进化之路,特邀学术权威、行业专家、客户代表围绕原生智能、原生安全、软硬协同等热点议题展开深度对话,并以阿里巴巴服务器操作系统为例,系统性解析其技术架构、演进之路及场景应用价值,以期给行业带来启示与借鉴。

2025-08-20 15:1113

评论

发布
暂无评论
智算浪潮下的专有云操作系统安全:范式跃迁与信任链重塑_阿里巴巴_付秋伟_InfoQ精选文章