推理 = IOPS：為什麼 AI 的下一個前沿陣地是儲存裝置

推理曾經是訓練的後續行動，亦或是配角。但似乎一夜之間一切都變了。如今，推理是 AI 基礎架構中的重頭戲——而儲存裝置已然成為聚光燈下的焦點。

每次你向聊天機器人提問、生成圖像或執行「Copiloted」任務時，推理都在發揮作用。這些並不是像訓練那樣可預測、可重複的過程。推理是按需即時進行的，完全由使用者行為決定。這使得推理變得更難以處理，也更難最佳化。

想像一下上下班尖峰時段在繁忙的城市中穿行的情形。每個駕駛員都有獨一無二的目的地，交通模式也在不斷變化。你需要根據當下情況做出即時決策，調整路線以避開壅塞路段，有效率地到達目的地。這種不可預測性和快速調整需求反映了 AI 推理的隨機性。你的每一次互動都會觸發一系列獨特的程序和運算，因此，系統需要具備高效能和高回應性。

推理 = IOPS

實際情況是這樣：與訓練工作負載不同，推理工作負載不會直線運行。它們會循環、細化和重新處理。這意味著每次互動都會引發大量的讀取、寫入和查詢操作。每秒輸入/輸出操作（IOPS）也會迅速增加。推理不僅需要大容量，還需要高效能。運算成為人們關注的焦點，但不斷「餵飽野獸」的卻是儲存裝置。

隨著這些模型的擴充——近乎即時地為數十億像你這樣的使用者提供服務——對基礎架構的壓力呈指數級增長。AI 創新必須以光速前進，但其速度受限於最慢的元件。

Meta 首席 AI 科學家 Yann LeCun 說得好：「AI 的大部分基礎架構成本都用於推理：為數十億人提供 AI 助理服務。」

這種規模的推理直接轉化為對速度更快、回應更快的儲存系統的需求——不僅是高容量，還有高 IOPS。推理應用的並行 I/O 可達到過去 CPU 型運算應用的數百甚至數千倍。

推理 = IOPS

在美光，我們看到這種轉變已經體現在實際部署中。執行大型語言模型（LLM）和其他推理繁重工作負載的客戶正在尋找各種方法，以減少尾端延遲並提高在不可預測負載下的回應速度。

這正是美光 9550 和我們的次世代 PCIe Gen6 NVMe SSD 等硬碟的真正用武之地。這些硬碟不是通用儲存裝置。它們專為 AI 推理等資料密集型低延遲環境而設計。

推理 = IOPS

NVIDIA 的 Jensen Huang 最近指出：「我們需要的運算量……由於代理式 AI、由於推理，很容易比我們去年這個時候所認為的多 100 倍。」

變得越來越聰明的不僅僅是模型。在這種情況下，基礎架構需要跟進——在整個堆疊中。這其中包括儲存裝置，尤其是在使用大量 GPU、加速器和記憶體進行推理的系統中。

隨著聊天機器人、搜尋、Copilots 和邊緣嵌入式 AI 等使用案例的增加，整個 I/O 管道正進行重新評估。如果儲存裝置跟不上，那麼高速的運算結構又有什麼意義呢？

推理 = IOPS

推理時代已經來臨，IOPS 的需求將隨之增長——美光正在引領這一潮流。

企業副總裁暨儲存業務部門總經理

Jeremy Werner

Jeremy 是一位擁有 20 多年經驗的傑出的儲存裝置技術領導者。他在美光的職責範圍很廣，包括全球伺服器、儲存裝置、超大規模和用戶端市場的產品規劃、行銷和客戶支援。此前，他曾擔任 KIOXIA America 的 SSD 業務總經理，並在 MetaRAM、Tidal Systems 和 SandForce 等新創公司擔任過十年的業務和行銷職務。Jeremy 擁有康乃爾大學電子工程學士學位，擁有超過 25 項專利或正在申請的專利。

產品總覽

搜尋、篩選和下載美光資料表

市場與產業總覽

AI 資料中心

合作夥伴總覽

瞭解並註冊參加美光的技術應用支援計畫 (TEP)

業務與支援總覽

聯絡美光業務支援人員

關於總覽

投資人關係總覽

瀏覽美光的投資人關係網站

最近的搜尋

推理 = IOPS：為什麼 AI 的下一個前沿陣地是儲存裝置

推理 = IOPS

推理 = IOPS

推理 = IOPS

推理 = IOPS

Jeremy Werner