設計工具

Invalid input. Special characters are not supported.

AI

推理 = IOPS:為什麼 AI 的下一個前沿陣地是儲存裝置

Jeremy Werner | 2025 年 5 月

推理曾經是訓練的後續行動,亦或是配角。但似乎一夜之間一切都變了。如今,推理是 AI 基礎架構中的重頭戲——而儲存裝置已然成為聚光燈下的焦點。

每次你向聊天機器人提問、生成圖像或執行「Copiloted」任務時,推理都在發揮作用。這些並不是像訓練那樣可預測、可重複的過程。推理是按需即時進行的,完全由使用者行為決定。這使得推理變得更難以處理,也更難最佳化。

想像一下上下班尖峰時段在繁忙的城市中穿行的情形。每個駕駛員都有獨一無二的目的地,交通模式也在不斷變化。你需要根據當下情況做出即時決策,調整路線以避開壅塞路段,有效率地到達目的地。這種不可預測性和快速調整需求反映了 AI 推理的隨機性。你的每一次互動都會觸發一系列獨特的程序和運算,因此,系統需要具備高效能和高回應性。

推理 = IOPS

實際情況是這樣:與訓練工作負載不同,推理工作負載不會直線運行。它們會循環、細化和重新處理。這意味著每次互動都會引發大量的讀取、寫入和查詢操作。每秒輸入/輸出操作(IOPS)也會迅速增加。推理不僅需要大容量,還需要高效能。運算成為人們關注的焦點,但不斷「餵飽野獸」的卻是儲存裝置。

隨著這些模型的擴充——近乎即時地為數十億像你這樣的使用者提供服務——對基礎架構的壓力呈指數級增長。AI 創新必須以光速前進,但其速度受限於最慢的元件。

Meta 首席 AI 科學家 Yann LeCun 說得好:「AI 的大部分基礎架構成本都用於推理:為數十億人提供 AI 助理服務。」

這種規模的推理直接轉化為對速度更快、回應更快的儲存系統的需求——不僅是高容量,還有高 IOPS。推理應用的並行 I/O 可達到過去 CPU 型運算應用的數百甚至數千倍。

推理 = IOPS

在美光,我們看到這種轉變已經體現在實際部署中。執行大型語言模型(LLM)和其他推理繁重工作負載的客戶正在尋找各種方法,以減少尾端延遲並提高在不可預測負載下的回應速度。

這正是美光 9550  和我們的次世代 PCIe Gen6 NVMe SSD  等硬碟的真正用武之地。這些硬碟不是通用儲存裝置。它們專為 AI 推理等資料密集型低延遲環境而設計。

推理 = IOPS

NVIDIA 的 Jensen Huang 最近指出:「我們需要的運算量……由於代理式 AI、由於推理,很容易比我們去年這個時候所認為的多 100 倍。」

變得越來越聰明的不僅僅是模型。在這種情況下,基礎架構需要跟進——在整個堆疊中。這其中包括儲存裝置,尤其是在使用大量 GPU、加速器和記憶體進行推理的系統中。

隨著聊天機器人、搜尋、Copilots 和邊緣嵌入式 AI 等使用案例的增加,整個 I/O 管道正進行重新評估。如果儲存裝置跟不上,那麼高速的運算結構又有什麼意義呢?

推理 = IOPS

推理時代已經來臨,IOPS 的需求將隨之增長——美光正在引領這一潮流。

企業副總裁暨儲存業務部門總經理

Jeremy Werner

Jeremy 是一位擁有 20 多年經驗的傑出的儲存裝置技術領導者。他在美光的職責範圍很廣,包括全球伺服器、儲存裝置、超大規模和用戶端市場的產品規劃、行銷和客戶支援。此前,他曾擔任 KIOXIA America 的 SSD 業務總經理,並在 MetaRAM、Tidal Systems 和 SandForce 等新創公司擔任過十年的業務和行銷職務。Jeremy 擁有康乃爾大學電子工程學士學位,擁有超過 25 項專利或正在申請的專利。 

OSZAR »