搜索新聞

從計算到存儲，阿里云打通AI落地的“任督二脈”

來源：投影時代　更新日期：2025-09-05 作者：佚名

商顯市場最大的看點何在年度評選盛典獲獎揭曉 Infocomm China 深入報道

云計算的牌桌上，AI 算力競賽已是刀刀到肉。當行業逐漸對“堆卡”祛魅，真正的較量早已轉移到看不見的戰場——架構是否精妙；是否緊密貼合業務需求；以及如何破解規模定律（Scaling Law）效應減弱的魔咒。

在 8 月 14 日的飛天發布時刻，國內公有云一哥阿里云亮出底牌，發布通用計算、容器計算及存儲服務三項產品更新。這三大產品看似“分管”不同任務，實則巧妙地串聯出一條 AI 落地業務場景的完整路徑，每一步都為下一步鋪平道路，環環相扣，層層遞進。

對于行業而言，阿里云此次發布的意義也不止于一次產品升級，其背后的產品升級邏輯也在引導行業重新思考——AI 時代，云基礎設施的本質到底是什么。

場景化實例，

定義極致性能與資源利用效率

傳統 x86 服務器運行數據密集型業務時，常常卡在“算力不夠強、吞吐不夠快、內存不夠大”這三道硬限制上。

此次飛天發布時刻，阿里云共發布三款企業級實例，把同一批 AMD 硬件做成三檔規格，用戶按需取用即可：

u2a：CPU 與內存比例適中，價格最低，適合日常網站或輕量推理等通用需求。
g9a：CPU 主頻更高，能大幅提升單進程任務數據的處理效率，適合在線型應用場景。
g9ae：采用物理核設計，算力更高，內存帶寬更大，I/O 能力更強，適合高并發的計算密集型任務。

三款實例均搭配了 AMD 最新第五代 EPYC 處理器（Turin ）。阿里云和 AMD 雙方的合作最早可追溯到 Rome 時期，當時就與 AMD 合作進行芯片定制，到 Milan 時期開始規模商業化，性能提升 15%，Genoa 時期性能則提升 25%。

到今天，服務于數據中心的 EPYC 系列處理器，采用業界領先的 chiplet 架構，已經演進到第五代，即 AMD EPYC 處理器都靈 (Turin)。Turin 采用了全新的“Zen 5”核心架構，Zen 5 架構每時鐘周期指令（IPC）比上一代提升 17%；結合 Turin 支持全鏈路 AVX512 的能力，為 AI 和高性能計算（HPC）提供高達 37% 的 IPC 提升。

在 Turin 處理器基礎上，通過阿里云軟硬一體的 CIPU 架構驅動，此次發布的三款企業級實例實現了針對差異化場景的產品布局，讓不同業務直接落在最匹配的檔位，節省資源的同時也幫企業節省了算力預算。

首先來看面向中小型企業的 u2a。

“u”實例為通用算力型“universal”實例的簡稱，是一款為中小企業量身定制的云服務器。基于阿里云飛天云計算操作系統和云基礎設施處理器（CIPU），“u”實例讓中小企業像使用水、電和煤氣一樣，便捷獲取性能強勁、性價比出眾的云計算服務，無需投入精力自建或運維硬件設施。

此次全新升級的 u2 系列中，阿里云推出了首個基于 AMD EPYC 處理器的“u”實例——u2a。該系列涵蓋兩款細分產品，提供了企業級獨享算力，目前仍處于定向邀測階段，預計于 8 月 30 日正式開啟商業化。

u2a 采用自研雙單路服務器架構，單顆 CPU 故障不會影響另一顆，能夠顯著提升服務器的穩定性。性能上，u2a 實例性能基線較 u1 提升 20%，支持最高 15% 的算力突發能力；網絡基線帶寬為 16Gbps，支持突發至 25Gbps；最大規格可支持 64vCPU。

面向通用場景，u2a 能滿足企業不同層級的數據處理需求，通過屏蔽代系差異和較 u1 提升 50% 的性價比，將企業級算力的門檻大幅降低，讓更多中小企業能享受到技術紅利。

跟隨 u2a 一同發布的，還有第九代 ECS 性能旗艦產品，AMD 企業級實例 g9ae。

對于大數據、搜推廣、視頻轉碼等數據密集型業務，g9ae 實例瞄準內存帶寬、I/O 帶寬不足的行業痛點，基于 Turin D 處理器，創新性地采用了物理核設計，摒棄了傳統的超線程虛擬化思路。這意味著每個 vCPU 都獨占 L3 緩存和內存通道，算力不再因通道帶寬不足而被壓制。

阿里云之所以能首創物理核設計，離不開底層硬件的支持。

事實上，Turin 包含 Turin-C（Turin Classic）、Turin-D（Turin Dense）兩款 CPU，都使用 Zen5 的微架構，其中 Turin-C 使用了 Zen5 CCD，而 Dense 是 Zen5c CCD。

Zen5 和 Zen5c 微架構相同，指令集相同，IPC 提升相同，區別在于 Zen5c 的核心計算單元（CCD）通過芯粒（chiplet）架構支持更高的核心密度，從而支持阿里云實現首創的 “物理核設計”。

“物理核”設計讓 g9ae 實例單 vCPU 算力提升高達 60%，在視頻轉碼等業務中性能提升高達 65%，并能極大降低核心交易系統的長尾時延，性能輸出更穩定。

在 AMD 強大硬件的基礎上，阿里云自研操作系統又將其性能充分“兌現”了出來。阿里云彈性計算產品經理姬少晨介紹，g9ae 的極致性能還來源于軟硬件的深度融合。阿里云把自研的 Alibaba Cloud Linux 3 與 AMD 最新的 Turin 服務器做了“基因級”適配，涉及兩百多個內核補丁、改了近 2 萬行代碼，相當于把操作系統“重新編譯”了一遍，專門針對 AMD 的多核、內存通道、IO 路徑做優化。

針對 MySQL 查詢場景，操作系統存儲引擎的預讀機制會把數據提前加載到 CPU 的高速緩存中，再借助 g9ae 的超大內存帶寬，查詢速度再提升 10%；針對搜推訓練場景，操作系統的網絡協議棧采用“零拷貝”技術，數據包從網卡到應用內存“一次到位”，單節點推理性能再提 15%。

除極致性能外，端到端的數據安全能力也是 g9ae 的一大亮點。g9ae 開機即由 CIPU 可信根從 BIOS 到 kernel 再到操作系統開啟全鏈路度量，防止惡意植入；運行期間，AMD 機密計算給內存加硬鎖，數據可用不可見；在數據傳輸階段，首發 VPC 加密能力，實現了數據傳輸過程中的安全防護。

然而，盡管 g9ae 性能強大，但真實業務場景產生的 AI 負載遠非單個計算實例所能承載。AI 工作負載遠比傳統 Web 應用復雜，它有狀態、角色多樣、且需“同生同死”。

以一個 32B LLM 模型推理為例，模型啟動瞬間可能占用 65GB 顯存，接下來可能因并發請求膨脹到 200GB。推理服務在短時間內可能從 8 卡擴展到數百卡，再逐步縮回——這對于整個系統的調度、存儲及網絡通信效率都提出了更嚴苛的要求。

單實例性能提升雖顯著，但 AI 負載的復雜性要求更全面的基礎設施支持。要破解這些難題，就需要上述企業級實例和容器、存儲服務協同作戰。

容器激活“算力流通”，

存儲激活“數據流通”

容器作為云原生時代彈性計算的核心技術，在 AI 時代，它也逐漸從十年前“讓應用跑起來”的封裝工具，升級為未來算力的通用接口。

這場變革中，Kubernetes 已經成為承載 AI 負載的事實標準，是當前最主流、最廣泛采用的 AI 基礎設施平臺。根據 CNCF 2024 年度用戶調研，已有 52% 的受訪終端用戶在 Kubernetes 上運行 AI/ML 工作負載。我們確實也看到，主流云廠商、大模型實驗室，以及新興的 AI 初創公司幾乎都選擇以 Kubernetes 作為 AI 應用的運行底座。

這種情況下，企業面臨的問題就不再是“要不要上 Kubernetes”，而是“怎樣把 Kubernetes 用得更好”。

在此次飛天發布時刻，阿里云正式對外宣布了 ACK 和 ACS 兩項容器服務的最新進展，核心就是向用戶提供一種把 Kubernetes 用得更好的方法論。

其中，阿里云容器服務 ACK 在保障穩定性和提升 AI 部署效率兩個維度均有新突破。

穩定性方面，ACK 通過高效管理運維異構資源以保障業務穩定性，并實現三項能力突破：

異構資源管理：通過統一的 ACK 控制面，將 GPU、靈駿、遠程直接內存訪問（RDMA）、智算版并行文件系統（CPFS）等異構智算資源納入同一技術棧，用戶無需再為每類硬件單獨適配。
GPU 故障自愈：平臺先為硬件或軟件異常建立標準化判別模型；一旦觸發規則，立即隔離故障 GPU，防止錯誤分配，隨后調用 IaaS 層接口嘗試修復，修復成功后自動解除隔離并重新調度任務，顯著降低人工干預。
在線實時 GPU AI Profiling：借助 eBPF 與 library injector，用戶在不改代碼、不重啟服務的情況下即可實時抓取 GPU 運行時數據——涵蓋 CUDA kernel（含 NCCL 通信算子）及 PyTorch 高層調用——按時間軸還原現場，在線定位瓶頸，官方數據顯示診斷效率提升 50% 以上。

此外，為幫助企業以更低成本、更高效率、更強穩定性將大模型落地到生產環境，并讓模型能力真正高效、安全地賦能業務流程，ACK 此次也全新發布了云原生 AI 套件 Serving Stack。

該套件包括 RoleBasedGroup 控制器（簡稱 RBG）和 Gateway Inference Extension（簡稱 GIE）兩大組件。

RoleBasedGroup 控制器（簡稱 RBG）是該套件在 Kubernetes 集群中針對 LLM 推理工作負載的抽象層。

RBG 支持主流 LLM 推理引擎，如 vLLM、SGLang、TRT-LLM 等，兼容各類推理性能優化架構，如 Dynamo、Mooncake 等。 RBG 能夠將分布式推理工作負載中的不同任務角色（如 Prefill worker、Decode worker、Router 等），靈活地抽象為獨立的 Role；并支持采集不同角色的關鍵監控指標（如 TTFT、TPOT、Token throughput、Request rate 等），聯動推理運行時可支持基于 SLO（如平均 TTFT/TPOT）的彈性伸縮。

同時，RBG 還內置對 HPA、cronHPA、KPA、AHPA、KEDA 等 Kubernetes 生態中各類應用彈性伸縮架構的兼容，以適應不同場景需求；并結合 Fluid 的分布式緩存和數據預熱技術，能夠大幅提升 LLM 推理服務彈性伸縮的響應速度和效率。在 Deepseek R1 推理服務啟動速度測試中，Fluid 在 220 秒內將 671B 模型權重數據從遠程對象存儲讀取到 GPU 顯存中，達到 10GiB/s 以上的帶寬。這將 Deepseek R1 模型加載耗時減少了 90%。

GIE 則是 ACK 基于 Kubernetes Gateway API 的推理擴展組件，支持灰度發布、過載檢測、請求排隊、熔斷限流。在 Qwen、Deepseek 等模型推理服務壓測中，長尾場景下的首包延遲提升 73%，緩存利用率提升 90%，前綴感知負載均衡優化帶來 40% 的響應速度提升。

總的來看，在云原生 AI 套件 Serving Stack 中，RBG 負責 LLM 推理服務的部署，更新，升級等全生命周期管理，并根據業務指標動態調整實例規模，GIE 負責根據實時請求負載情況和模型處理能力智能路由流量。兩者一起打配合，讓大模型生產化部署做到低成本、高效率，同時具備強穩定性。

容器計算服務 ACS 此次則新上線了 AMD 通用算力，并在以下五個維度實現技術突破：

性能：在視頻編解碼、圖形渲染、大數據等計算密集型場景，AMD 實例端到端性能最高提升 55%。
規格：CPU 與內存最小粒度為 0.5vCPU、1GiB 步長，且 CPU 和內存配比可在 1:1～1:8 之間自由組合，更貼近實際負載，避免資源浪費。
彈性：AMD 實例可支持分鐘級萬個 Pod 彈出，并支持 AHPA 預測式伸縮；用戶可按需單獨使用 AMD，或采用 AMD 與其他異構芯片混合部署。
BestEffort 模式：新增可搶占式 AMD 實例，價格為常規實例的 20%；系統在資源緊張時自動驅逐這些實例，能夠滿足離線批處理、測試等對穩定性要求低、對成本極敏感的業務。
成本優化：推出按日承諾付費計劃，用戶以“每日預計使用規模”提前鎖定折扣，進一步壓低長期算力價格。

整體來看，ACS 以“容器算力”形態將通用算力切分得更碎、更便宜，ACK Pro 則在容器編排層讓 GPU 像水電一樣隨取隨用、故障自愈，兩條線合起來指向同一個結論：

單純采購算力資源已經無法滿足 AI 負載的需求，貼合負載需求靈活地調度算力資源，已經成為 AI 算力發展的主線。

然而，要讓 AI 真正落地業務場景，只實現算力的靈活調度還不夠，還需解決計算過程中產生數據的去向問題。

AI 訓推產生的大量權重、日志、KV-Cache 均需長期留存；多輪對話、個性化推薦等場景又要求毫秒級找回歷史狀態；一旦存儲跟不上算力彈性，就會出現 GPU 空轉、成本飆升的尷尬局面。

因此，靈活調度算力的下一步，就是靈活調度存儲。目前，Agentic AI 的趨勢已經把 AI 任務對靈活調度存儲的需求推到極致。

在此次飛天發布會上，阿里云表格存儲 Tablestore 還宣布全面升級 AI 場景支持能力：

功能方面，Tablestore 升級多元索引能力，新增 JSON 格式，相對嵌套（Nested）數據類型性能更好，成本更低；并支持多列向量，降低數據冗余，加速關聯查詢；
數據模型方面，Tablestore 推出了全新開源的 AI Agent Memory 框架，瞄準對話記憶和知識管理兩大場景，預置了會話（session）、消息（message）、知識庫（knowledge）三大通用數據模型，讓開發者無需關注底層存儲細節，更加專注業務創新本身。
生態方面，Tablestore 可通過 OpenMemory MCP（模型上下文協議）一鍵部署 AI 記憶方案，并接入開源 Dify，提供高可用性向量存儲方案以及 Spring AI，承接記憶（Memory）和知識（Knowledge）引擎的存儲需求。

在上述更新基礎上，Tablestore 又通過 DiskANN 等先進向量檢索算法，按需計費與自動彈性伸縮能力以及默認支持跨可用區部署三項升級，較傳統自建方案降低 30% 的整體存儲成本。

小結

阿里云的這套連招，每一步都在試圖讓基礎設施匹配業務，而不是業務遷就基礎設施。

過去，企業必須先“買下”一臺規格固定的機器，再去削足適履地改寫應用；如今，ACS 把算力切成 0.5 vCPU 的微小單元，ACK Pro 把 GPU 故障自愈、AI Profiling、分布式推理調度做成水電煤一樣的基礎服務。當算力可以按需膨脹、按秒計費、按故障自愈，業務邏輯第一次不必再為底層資源讓步。

更進一步看，當容器層把“計算”抽象到極限，存儲層必須同步把“記憶”抽象到極限——Tablestore 以 PB 級彈性、毫秒級檢索、開源 Memory Framework，讓智能體的“長期記憶”也變成可插拔的公共服務。于是，應用只需描述“我要多少算力、我要記住什么”，而不必關心“我從哪里買機器、我把數據放哪”。

阿里云此次發布會也越發凸顯了云計算的本質不只是算力資源，而是一種“服務”屬性。未來，算力與存儲也將繼續“服務化”，價格曲線與性能曲線或許會逐漸解耦，企業只為業務峰值買單。

當資源不再成為瓶頸，真正的競爭將回到業務創新本身——誰的場景抽象得更準，誰的模型迭代得更快，誰就能在下一輪浪潮中勝出。

返回投影機頻道首頁