英偉達(dá)殺入光刻領(lǐng)域,DPU和GPU重磅更新,首次詳談云服務(wù)!
在前段時(shí)間的GTC演講中,英偉達(dá)CEO宣布了一系列的重磅芯品,當(dāng)中不但包括了為中國(guó)專(zhuān)門(mén)準(zhǔn)備的,基于H100改版而來(lái)的H800芯片。同時(shí),公司還宣布了為生成式AI而準(zhǔn)備的產(chǎn)品。
在這次演講中,黃仁勛還帶來(lái)了加速2nm設(shè)計(jì)的計(jì)算光刻等一系列產(chǎn)品,現(xiàn)在整理如下,與大家分享。
將旗艦 H100 調(diào)整為H800,出口到中國(guó)
據(jù)路透社報(bào)道,主導(dǎo)人工智能芯片市場(chǎng)的美國(guó)半導(dǎo)體設(shè)計(jì)公司Nvidia 已將其旗艦產(chǎn)品修改為可以合法出口到中國(guó)的版本。
美國(guó)監(jiān)管機(jī)構(gòu)去年制定了規(guī)則,禁止Nvidia 向中國(guó)客戶銷(xiāo)售其兩款最先進(jìn)的芯片,即 A100 和更新的 H100。此類(lèi)芯片對(duì)于開(kāi)發(fā)生成式人工智能技術(shù)(如 OpenAI 的 ChatGPT 和類(lèi)似產(chǎn)品)至關(guān)重要。
路透社在 11 月報(bào)道稱,Nvidia設(shè)計(jì)了一款名為 A800 的芯片,該芯片降低了 A100 的某些功能,使 A800 可以合法出口到中國(guó)。
周二,該公司證實(shí)它已經(jīng)開(kāi)發(fā)出類(lèi)似的 H100 芯片的中國(guó)出口版本。阿里巴巴集團(tuán)控股、百度公司和騰訊控股等中國(guó)科技公司的云計(jì)算部門(mén)正在使用這款名為 H800 的新芯片,英偉達(dá)發(fā)言人說(shuō)。
美國(guó)監(jiān)管機(jī)構(gòu)去年秋天實(shí)施了規(guī)則,以減緩中國(guó)在半導(dǎo)體和人工智能等關(guān)鍵技術(shù)領(lǐng)域的發(fā)展。
圍繞人工智能芯片的規(guī)則強(qiáng)加了一項(xiàng)測(cè)試,禁止那些具有強(qiáng)大計(jì)算能力和高芯片到芯片數(shù)據(jù)傳輸率的芯片。在使用大量數(shù)據(jù)訓(xùn)練人工智能模型時(shí),傳輸速度非常重要,因?yàn)檩^慢的傳輸速度意味著更多的訓(xùn)練時(shí)間。
中國(guó)一位芯片行業(yè)消息人士告訴路透社,H800 主要將芯片到芯片的數(shù)據(jù)傳輸速率降低到旗艦 H100 速率的一半左右。
Nvidia 發(fā)言人拒絕透露面向中國(guó)的 H800 與 H100 有何不同,只是“我們的 800 系列產(chǎn)品完全符合出口管制法規(guī)”。
突破計(jì)算光刻,為2nm芯片制造奠定基礎(chǔ)
在英偉達(dá)這次GTC大會(huì)上,下手ASML、TSMC 和 Synopsys突破計(jì)算光刻,助力行業(yè)跨越物理極限是另一個(gè)值得關(guān)注的亮點(diǎn)。
NVIDIA 表示,將加速計(jì)算帶入計(jì)算光刻領(lǐng)域,使 ASML、臺(tái)積電和 Synopsys 等半導(dǎo)體領(lǐng)導(dǎo)者能夠加速下一代芯片的設(shè)計(jì)和制造,正如當(dāng)前的生產(chǎn)流程已接近物理學(xué)的極限一樣使成為可能。
英偉達(dá)在新聞稿中指出,用于計(jì)算光刻的全新 NVIDIA cuLitho 軟件庫(kù)被世界領(lǐng)先的晶圓代工廠臺(tái)積電和電子設(shè)計(jì)自動(dòng)化領(lǐng)導(dǎo)者Synopsys集成到其最新一代 NVIDIA Hopper? 架構(gòu) GPU 的軟件、制造流程和系統(tǒng)中。設(shè)備制造商 ASML 在 GPU 和 cuLitho 方面與 NVIDIA 密切合作,并計(jì)劃將對(duì) GPU 的支持集成到其所有計(jì)算光刻軟件產(chǎn)品中。
這一進(jìn)步將使芯片具有比現(xiàn)在更細(xì)的晶體管和電線,同時(shí)加快上市時(shí)間并提高 24/7 全天候運(yùn)行以驅(qū)動(dòng)制造過(guò)程的大型數(shù)據(jù)中心的能源效率。
“芯片行業(yè)是世界上幾乎所有其他行業(yè)的基礎(chǔ),”NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示?!半S著光刻技術(shù)達(dá)到物理極限,NVIDIA 推出 cuLitho 并與我們的合作伙伴 TSMC、ASML 和 Synopsys 合作,使晶圓廠能夠提高產(chǎn)量、減少碳足跡并為 2nm 及更高工藝奠定基礎(chǔ)?!?/p>
在 GPU 上運(yùn)行,cuLitho 比當(dāng)前光刻技術(shù)(在硅晶圓上創(chuàng)建圖案的過(guò)程)提供高達(dá) 40 倍的性能飛躍,加速目前每年消耗數(shù)百億 CPU 小時(shí)的大量計(jì)算工作負(fù)載。
它使 500 個(gè) NVIDIA DGX H100 系統(tǒng)能夠完成 40,000 個(gè) CPU 系統(tǒng)的工作,并行運(yùn)行計(jì)算光刻過(guò)程的所有部分,有助于減少電力需求和潛在的環(huán)境影響。
在短期內(nèi),使用 cuLitho 的晶圓廠可以幫助每天多生產(chǎn) 3-5 倍的光掩?!酒O(shè)計(jì)的模板——使用比當(dāng)前配置低 9 倍的功率。需要兩周才能完成的光掩模現(xiàn)在可以在一夜之間完成。
從長(zhǎng)遠(yuǎn)來(lái)看,cuLitho 將實(shí)現(xiàn)更好的設(shè)計(jì)規(guī)則、更高的密度、更高的產(chǎn)量和 AI 驅(qū)動(dòng)的光刻。
“cuLitho 團(tuán)隊(duì)通過(guò)將昂貴的操作轉(zhuǎn)移到 GPU,在加速計(jì)算光刻方面取得了令人欽佩的進(jìn)展,”臺(tái)積電首席執(zhí)行官 CC Wei 博士說(shuō)?!斑@一發(fā)展為臺(tái)積電在芯片制造中更廣泛地部署逆光刻技術(shù)和深度學(xué)習(xí)等光刻解決方案開(kāi)辟了新的可能性,為半導(dǎo)體規(guī)模的持續(xù)發(fā)展做出了重要貢獻(xiàn)。”
“我們計(jì)劃將對(duì) GPU 的支持集成到我們所有的計(jì)算光刻軟件產(chǎn)品中,”ASML 首席執(zhí)行官 Peter Wennink 說(shuō)?!拔覀兣c NVIDIA 在 GPU 和 cuLitho 方面的合作應(yīng)該會(huì)給計(jì)算光刻帶來(lái)巨大好處,從而給半導(dǎo)體微縮帶來(lái)好處。在High NA 極紫外光刻時(shí)代尤其如此。”
Synopsys 董事長(zhǎng)兼首席執(zhí)行官 Aart de Geus 表示:“計(jì)算光刻,特別是光學(xué)鄰近校正 (OPC),正在突破最先進(jìn)芯片的計(jì)算工作負(fù)載界限?!巴ㄟ^(guò)與我們的合作伙伴 NVIDIA 合作,在 cuLitho 平臺(tái)上運(yùn)行 Synopsys OPC 軟件,我們將性能從數(shù)周大幅提升至數(shù)天!我們兩家領(lǐng)先公司的合作將繼續(xù)推動(dòng)該行業(yè)取得驚人的進(jìn)步?!?/p>
英偉達(dá)表示,近年來(lái),由于較新節(jié)點(diǎn)中的晶體管數(shù)量更多以及更嚴(yán)格的精度要求,半導(dǎo)體制造中最大工作負(fù)載所需的計(jì)算時(shí)間成本已超過(guò)摩爾定律。未來(lái)的節(jié)點(diǎn)需要更詳細(xì)的計(jì)算,并非所有這些都可以適用于當(dāng)前平臺(tái)提供的可用計(jì)算帶寬,從而減緩了半導(dǎo)體創(chuàng)新的步伐。
晶圓廠流程變更通常需要 OPC 修訂,從而造成瓶頸。cuLitho 有助于消除這些瓶頸,并使新穎的解決方案和創(chuàng)新技術(shù)成為可能,例如曲線掩模、High NA EUV 光刻和新技術(shù)節(jié)點(diǎn)所需的亞原子光刻膠建模。
Nvidia 宣布 BlueField-3 GA
Nvidia 今天宣布全面推出其 BlueField-3 數(shù)據(jù)處理單元 (DPU) 以及令人印象深刻的早期部署,包括 Oracle Cloud Infrastructure。BlueField-3 于 2021 年首次描述,現(xiàn)已交付,是 Nvidia 的第三代 DPU,擁有大約 220 億個(gè)晶體管。與上一代 BlueField 相比,新的 DPU 支持以太網(wǎng)和 InfiniBand 連接,速度高達(dá)每秒 400 吉比特,計(jì)算能力提高 4 倍,加密加速提高 4 倍,存儲(chǔ)處理速度提高 2 倍,內(nèi)存帶寬提高 4 倍。”
Nvidia 首席執(zhí)行官黃仁勛在 GTC 23 主題演講中表示:“在現(xiàn)代軟件定義的數(shù)據(jù)中心中,執(zhí)行虛擬化、網(wǎng)絡(luò)、存儲(chǔ)和安全性的操作系統(tǒng)會(huì)消耗數(shù)據(jù)中心近一半的 CPU 內(nèi)核和相關(guān)功率。數(shù)據(jù)中心必須加速每個(gè)工作負(fù)載以回收功率并釋放 CPU 用于創(chuàng)收工作負(fù)載。Nvidia BlueField 卸載并加速了數(shù)據(jù)中心操作系統(tǒng)和基礎(chǔ)設(shè)施軟件?!?/p>
早在 2020 年,Nvidia 就制定了 DPU 戰(zhàn)略,認(rèn)為 CPU 正因諸如 Huang 所引用的內(nèi)務(wù)雜務(wù)而陷入困境。Nvidia 認(rèn)為,DPU 將吸收這些任務(wù),從而釋放 CPU 用于應(yīng)用程序。其他芯片供應(yīng)商——尤其是英特爾和 AMD——似乎同意并已跳入 DPU 市場(chǎng)。
有時(shí)被描述為類(lèi)固醇的智能網(wǎng)卡引起了人們的興趣,但尚未轉(zhuǎn)化為廣泛的銷(xiāo)售。變化現(xiàn)在可能正在發(fā)生。Huang 列舉了“超過(guò) 20 個(gè)生態(tài)系統(tǒng)合作伙伴”,其中包括現(xiàn)在使用 BlueField 技術(shù)的 Cisco、DDN、Dell EMC 和 Juniper。
在媒體/分析師預(yù)簡(jiǎn)報(bào)會(huì)上,英偉達(dá)網(wǎng)絡(luò)副總裁 Kevin Deierling 表示:“BlueField-3 已全面投入生產(chǎn)并可供使用。它的 Arm 處理器內(nèi)核數(shù)量是 BlueField-2 的兩倍,加速器更多,并且運(yùn)行工作負(fù)載的速度比我們上一代 DPU 快八倍。BlueField-3 可跨云 HPC、企業(yè)和加速 AI 用例卸載、加速和隔離工作負(fù)載?!?/p>
Nvidia 的 DPU 瞄準(zhǔn)超級(jí)計(jì)算機(jī)、數(shù)據(jù)中心和云提供商。在 GTC 上,Nvidia 吹捧了 Oracle 云部署,其中 BlueField-3 是Nvidia更大的 DGX-in-the-Cloud 勝利的一部分。
“正如你所聽(tīng)到的,我們宣布Oracle Cloud Infrastructure率先運(yùn)行 DGX Cloud 和 AI 超級(jí)計(jì)算服務(wù),使企業(yè)能夠立即訪問(wèn)為生成 AI 訓(xùn)練高級(jí)模型所需的基礎(chǔ)設(shè)施和軟件。OCI [還] 選擇了 BlueField-3 以實(shí)現(xiàn)更高的性能、效率和安全性。與 BluField-2 相比,BlueField-3 通過(guò)從 CPU 卸載數(shù)據(jù)中心基礎(chǔ)設(shè)施任務(wù),將虛擬化實(shí)例增加了八倍,從而提供了巨大的性能和效率提升,”Deierling 說(shuō)。
在官方公告中,英偉達(dá)引用了 OCI 執(zhí)行副總裁 Clay Magouyrk 的話說(shuō):“Oracle 云基礎(chǔ)設(shè)施為企業(yè)客戶提供了幾乎無(wú)與倫比的人工智能和科學(xué)計(jì)算基礎(chǔ)設(shè)施的可訪問(wèn)性,并具有改變行業(yè)的能力。Nvidia BlueField-3 DPU 是我們提供最先進(jìn)、可持續(xù)的云基礎(chǔ)設(shè)施和極致性能戰(zhàn)略的關(guān)鍵組成部分?!?/p>
BlueField-3 在 CSP 中的其他勝利包括百度、CoreWeave。京東、微軟 Azure 和騰訊。
Nvidia 還報(bào)告稱,BlueField-3 具有“通過(guò)DOCA軟件框架”的完全向后兼容性。
DOCA 是 BlueField 的編程工具,DOCA 2.0 是最新版本。Nvidia 一直在穩(wěn)步為其 DPU 產(chǎn)品線添加功能。例如,最近,它加強(qiáng)了內(nèi)聯(lián) GPU 數(shù)據(jù)包處理,“以實(shí)施高數(shù)據(jù)率解決方案:數(shù)據(jù)過(guò)濾、數(shù)據(jù)放置、網(wǎng)絡(luò)分析、傳感器信號(hào)處理等?!?新的 DOCA GPUNetIO 庫(kù)可以克服以前 DPDK 解決方案中發(fā)現(xiàn)的一些限制。
按照英偉達(dá)所說(shuō),Nvidia 實(shí)時(shí) GPU 網(wǎng)絡(luò)數(shù)據(jù)包處理是一種對(duì)多個(gè)不同應(yīng)用領(lǐng)域有用的技術(shù),包括信號(hào)處理、網(wǎng)絡(luò)安全、信息收集和輸入重建。這些應(yīng)用程序的目標(biāo)是實(shí)現(xiàn)內(nèi)聯(lián)數(shù)據(jù)包處理管道以在 GPU 內(nèi)存中接收數(shù)據(jù)包(無(wú)需通過(guò) CPU 內(nèi)存暫存副本);與一個(gè)或多個(gè) CUDA 內(nèi)核并行處理它們;然后運(yùn)行推理、評(píng)估或通過(guò)網(wǎng)絡(luò)發(fā)送計(jì)算結(jié)果。
推出H100 NVL,用于大模型的內(nèi)存服務(wù)器卡
Anandtech表示,雖然今年的春季 GTC 活動(dòng)沒(méi)有采用 NVIDIA 的任何新 GPU 或 GPU 架構(gòu),但該公司仍在推出基于去年推出的 Hopper 和 Ada Lovelace GPU 的新產(chǎn)品。但在高端市場(chǎng),該公司今天宣布推出專(zhuān)門(mén)針對(duì)大型語(yǔ)言模型用戶的新 H100 加速器變體:H100 NVL。
H100 NVL 是NVIDIA H100 PCIe 卡的一個(gè)有趣變體,它是時(shí)代的標(biāo)志和 NVIDIA 在 AI 領(lǐng)域取得的廣泛成功,其目標(biāo)是一個(gè)單一的市場(chǎng):大型語(yǔ)言模型 (LLM) 部署。有一些東西使這張卡與 NVIDIA 通常的服務(wù)器票價(jià)不同——其中最重要的是它的 2 個(gè) H100 PCIe 板已經(jīng)橋接在一起——但最大的收獲是大內(nèi)存容量。組合的雙 GPU 卡提供 188GB 的 HBM3 內(nèi)存——每張卡 94GB——提供比迄今為止任何其他 NVIDIA 部件更多的每個(gè) GPU 內(nèi)存,即使在 H100 系列中也是如此。
驅(qū)動(dòng)此 SKU 的是一個(gè)特定的利基市場(chǎng):內(nèi)存容量。像 GPT 系列這樣的大型語(yǔ)言模型在許多方面都受到內(nèi)存容量的限制,因?yàn)樗鼈兩踔習(xí)芸焯顫M H100 加速器以保存它們的所有參數(shù)(在最大的 GPT-3 模型的情況下為 175B)。因此,NVIDIA 選擇拼湊出一個(gè)新的 H100 SKU,它為每個(gè) GPU 提供的內(nèi)存比他們通常的 H100 部件多一點(diǎn),后者最高為每個(gè) GPU 80GB。
在封裝的蓋下,我們看到的本質(zhì)上是放置在 PCIe 卡上的GH100 GPU的特殊容器。所有 GH100 GPU 都配備 6 個(gè) HBM 內(nèi)存堆棧(HBM2e 或 HBM3),每個(gè)堆棧的容量為 16GB。然而,出于良率原因,NVIDIA 僅在其常規(guī) H100 部件中提供 6 個(gè) HBM 堆棧中的 5 個(gè)。因此,雖然每個(gè) GPU 上標(biāo)稱有 96GB 的 VRAM,但常規(guī) SKU 上只有 80GB 可用。
而H100 NVL 是神話般的完全啟用的 SKU,啟用了所有 6 個(gè)堆棧。通過(guò)打開(kāi)第 6個(gè)HBM 堆棧,NVIDIA 能夠訪問(wèn)它提供的額外內(nèi)存和額外內(nèi)存帶寬。它將對(duì)產(chǎn)量產(chǎn)生一些實(shí)質(zhì)性影響——多少是 NVIDIA 嚴(yán)密保守的秘密——但 LLM 市場(chǎng)顯然足夠大,并且愿意為近乎完美的 GH100 封裝支付足夠高的溢價(jià),以使其值得 NVIDIA 光顧。
即便如此,應(yīng)該注意的是,客戶無(wú)法訪問(wèn)每張卡的全部 96GB。相反,在總?cè)萘繛?188GB 的內(nèi)存中,它們每張卡的有效容量為 94GB。在今天的主題演講之前,NVIDIA 沒(méi)有在我們的預(yù)簡(jiǎn)報(bào)中詳細(xì)介紹這個(gè)設(shè)計(jì),但我們懷疑這也是出于良率原因,讓 NVIDIA 在禁用 HBM3 內(nèi)存堆棧中的壞單元(或?qū)樱┓矫嬗幸恍┧尚?。最終結(jié)果是新 SKU 為每個(gè) GH100 GPU 提供了 14GB 的內(nèi)存,內(nèi)存增加了 17.5%。同時(shí),該卡的總內(nèi)存帶寬為 7.8TB/秒,單個(gè)板的總內(nèi)存帶寬為 3.9TB/秒。
除了內(nèi)存容量增加之外,更大的雙 GPU/雙卡 H100 NVL 中的各個(gè)卡在很多方面看起來(lái)很像放置在 PCIe 卡上的 H100 的 SXM5 版本。雖然普通的 H100 PCIe 由于使用較慢的 HBM2e 內(nèi)存、較少的活動(dòng) SM/張量核心和較低的時(shí)鐘速度而受到一些限制,但 NVIDIA 為 H100 NVL 引用的張量核心性能數(shù)據(jù)與 H100 SXM5 完全相同,這表明該卡沒(méi)有像普通 PCIe 卡那樣進(jìn)一步縮減。我們?nèi)栽诘却a(chǎn)品的最終、完整規(guī)格,但假設(shè)這里的所有內(nèi)容都如所呈現(xiàn)的那樣,那么進(jìn)入 H100 NVL 的 GH100 將代表當(dāng)前可用的最高分檔 GH100。
這里需要強(qiáng)調(diào)復(fù)數(shù)。如前所述,H100 NVL 不是單個(gè) GPU 部件,而是雙 GPU/雙卡部件,它以這種方式呈現(xiàn)給主機(jī)系統(tǒng)。硬件本身基于兩個(gè) PCIe 外形規(guī)格的 H100,它們使用三個(gè) NVLink 4 橋接在一起。從物理上講,這實(shí)際上與 NVIDIA 現(xiàn)有的 H100 PCIe 設(shè)計(jì)完全相同——后者已經(jīng)可以使用 NVLink 橋接器進(jìn)行配對(duì)——所以區(qū)別不在于兩板/四插槽龐然大物的結(jié)構(gòu),而是內(nèi)部芯片的質(zhì)量。換句話說(shuō),您今天可以將普通的 H100 PCIe 卡捆綁在一起,但它無(wú)法與 H100 NVL 的內(nèi)存帶寬、內(nèi)存容量或張量吞吐量相匹配。
令人驚訝的是,盡管有出色的規(guī)格,但 TDP 幾乎保持不變。H100 NVL 是一個(gè) 700W 到 800W 的部件,分解為每塊板 350W 到 400W,其下限與常規(guī) H100 PCIe 的 TDP 相同。在這種情況下,NVIDIA 似乎將兼容性置于峰值性能之上,因?yàn)楹苌儆蟹?wù)器機(jī)箱可以處理超過(guò) 350W 的 PCIe 卡(超過(guò) 400W 的更少),這意味著 TDP 需要保持穩(wěn)定。不過(guò),考慮到更高的性能數(shù)據(jù)和內(nèi)存帶寬,目前還不清楚 NVIDIA 如何提供額外的性能。Power binning 在這里可以發(fā)揮很大的作用,但也可能是 NVIDIA 為卡提供比平常更高的提升時(shí)鐘速度的情況,因?yàn)槟繕?biāo)市場(chǎng)主要關(guān)注張量性能并且不會(huì)點(diǎn)亮整個(gè) GPU一次。
否則,鑒于 NVIDIA 對(duì) SXM 部件的普遍偏好,NVIDIA 決定發(fā)布本質(zhì)上最好的 H100 bin 是一個(gè)不尋常的選擇,但在 LLM 客戶的需求背景下,這是一個(gè)有意義的決定?;?SXM 的大型 H100 集群可以輕松擴(kuò)展到 8 個(gè) GPU,但任何兩個(gè) GPU 之間可用的 NVLink 帶寬量因需要通過(guò) NVSwitch 而受到限制。對(duì)于只有兩個(gè) GPU 的配置,將一組 PCIe 卡配對(duì)要直接得多,固定鏈路保證卡之間的帶寬為 600GB/秒。
但也許比這更重要的是能夠在現(xiàn)有基礎(chǔ)設(shè)施中快速部署 H100 NVL。LLM 客戶無(wú)需安裝專(zhuān)門(mén)為配對(duì) GPU 而構(gòu)建的 H100 HGX 載板,只需將 H100 NVL 添加到新的服務(wù)器構(gòu)建中,或者作為對(duì)現(xiàn)有服務(wù)器構(gòu)建的相對(duì)快速升級(jí)即可。畢竟,NVIDIA 在這里針對(duì)的是一個(gè)非常特殊的市場(chǎng),因此 SXM 的正常優(yōu)勢(shì)(以及 NVIDIA 發(fā)揮其集體影響力的能力)可能不適用于此。
總而言之,NVIDIA 宣稱 H100 NVL 提供的 GPT3-175B 推理吞吐量是上一代 HGX A100 的 12 倍(8 個(gè) H100 NVL 對(duì)比 8 個(gè) A100)。對(duì)于希望盡快為 LLM 工作負(fù)載部署和擴(kuò)展系統(tǒng)的客戶來(lái)說(shuō),這肯定很有吸引力。如前所述,H100 NVL 在架構(gòu)特性方面并沒(méi)有帶來(lái)任何新的東西——這里的大部分性能提升來(lái)自 Hopper 架構(gòu)的新變壓器引擎——但 H100 NVL 將作為最快的 PCIe H100 服務(wù)于特定的利基市場(chǎng)選項(xiàng),以及具有最大 GPU 內(nèi)存池的選項(xiàng)。
總結(jié)一下,根據(jù) NVIDIA 的說(shuō)法,H100 NVL 卡將于今年下半年開(kāi)始發(fā)貨。該公司沒(méi)有報(bào)價(jià),但對(duì)于本質(zhì)上是頂級(jí) GH100 的產(chǎn)品,我們預(yù)計(jì)它們會(huì)獲得最高價(jià)格。特別是考慮到 LLM 使用量的激增如何轉(zhuǎn)變?yōu)榉?wù)器 GPU 市場(chǎng)的新淘金熱。
Nvidia 的“云”,服務(wù)起價(jià) 37,000 美元
如果你是 Nvidia 的忠實(shí)擁護(hù)者,請(qǐng)準(zhǔn)備好花大價(jià)錢(qián)使用它在云端的 AI 工廠。
Nvidia 聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛上個(gè)月在談到這家GPU 制造商的季度收益時(shí),提出了 Nvidia DGX Cloud 的計(jì)劃,本質(zhì)上是呼吁將公司的 DGX AI 超級(jí)計(jì)算機(jī)硬件和配套軟件——尤其是其廣泛的企業(yè) AI一套軟件——放到公有云平臺(tái)上供企業(yè)使用。
我們必須申明,Nvidia 還不夠富有,或者說(shuō)不夠愚蠢,他們無(wú)法構(gòu)建云來(lái)與 Amazon Web Services、Microsoft Azure 或 Google Cloud 等公司競(jìng)爭(zhēng)。但他們足夠聰明,可以利用這些龐大的計(jì)算和存儲(chǔ)實(shí)用程序?yàn)樽约褐\利,并在它們構(gòu)建的基礎(chǔ)設(shè)施之上銷(xiāo)售服務(wù)賺錢(qián),而基礎(chǔ)設(shè)施又基于自己的組件。
DGX Cloud 的巧妙之處不在于有經(jīng)過(guò)認(rèn)證的本地和云堆棧來(lái)運(yùn)行 Nvidia 的 AI 硬件和軟件。您需要向 Nvidia 支付費(fèi)用,才能以一種 SaaS 模式這樣做——Nvidia 可以向您或云出售構(gòu)建基礎(chǔ)設(shè)施的部件。
就其本身而言,這是使AI 民主化的最新嘗試,將其帶出 HPC 和研究機(jī)構(gòu)的領(lǐng)域,并將其置于主流企業(yè)的范圍內(nèi),這些企業(yè)非??释眯屡d技術(shù)可以帶來(lái)的業(yè)務(wù)優(yōu)勢(shì)遞送。
對(duì)于 Nvidia 而言,DGX Cloud 的人工智能即服務(wù)代表著向云優(yōu)先戰(zhàn)略的強(qiáng)烈轉(zhuǎn)變,以及一種理解——與其他組件制造商一樣——它現(xiàn)在既是一家硬件制造商,也是一家軟件公司,而公共云是一個(gè)使該軟件易于訪問(wèn)并且更重要的是將其貨幣化的自然途徑。
對(duì)于十多年前將 AI 置于其前進(jìn)戰(zhàn)略中心、構(gòu)建以 AI 為核心的路線圖的公司而言,這是重要的下一步。Nvidia 在 2016 年推出了 DGX-1,這是其第一臺(tái)深度學(xué)習(xí)超級(jí)計(jì)算機(jī)。第四代系統(tǒng)于去年推出。2020 年出現(xiàn)了第一批DGX SuperPOD,一年后 Nvidia 推出了 AI Enterprise,這是一個(gè)包含框架、工具和相當(dāng)大劑量的 VMware vSphere 的軟件套件。
AI Enterprise 強(qiáng)調(diào)了軟件對(duì) Nvidia 日益增長(zhǎng)的重要性——反映了其他組件制造商的類(lèi)似趨勢(shì)——這家公司現(xiàn)在從事軟件工作的員工多于硬件。
借助 DGX Cloud,Nvidia 現(xiàn)在可以通過(guò)另一種方式將所有這些交付給那些希望在其工作流程中利用生成式 AI 工具(例如來(lái)自 OpenAI 的廣受歡迎的 ChatGPT)的企業(yè)(通過(guò) Microsoft),但沒(méi)有資源在其內(nèi)部擴(kuò)展基礎(chǔ)設(shè)施數(shù)據(jù)中心來(lái)支持它。他們現(xiàn)在可以通過(guò)云訪問(wèn)它,享受它所有的可擴(kuò)展性和即用即付的好處。
Nvidia 企業(yè)計(jì)算副總裁 Manuvir Das 在 GTC 前會(huì)議上告訴記者:“多年來(lái),我們一直在與企業(yè)公司合作,創(chuàng)建他們自己的模型來(lái)訓(xùn)練他們自己的數(shù)據(jù)。” “過(guò)去幾個(gè)月,像 ChatGPT 這樣基于非常非常大的 GPT 模型的服務(wù)越來(lái)越受歡迎,每天有數(shù)百萬(wàn)人使用一個(gè)模型。當(dāng)我們與企業(yè)公司合作時(shí),他們中的許多人有興趣使用自己的數(shù)據(jù)為自己的目的創(chuàng)建模型?!?/p>
據(jù)最新介紹,租用 GPU 公司包羅萬(wàn)象的云端 AI 超級(jí)計(jì)算機(jī)的DGX Cloud起價(jià)為每個(gè)實(shí)例每月 36,999 美元。租金包括使用帶有八個(gè) Nvidia H100 或 A100 GPU 和 640GB GPU 內(nèi)存的云計(jì)算機(jī)。價(jià)格包括用于開(kāi)發(fā) AI 應(yīng)用程序和大型語(yǔ)言模型(如 BioNeMo)的 AI Enterprise 軟件。
“DGX Cloud 有自己的定價(jià)模型,因此客戶向 Nvidia 付費(fèi),他們可以根據(jù)他們選擇使用它的位置通過(guò)任何云市場(chǎng)購(gòu)買(mǎi)它,但這是一項(xiàng)由 Nvidia 定價(jià)的服務(wù),包括所有費(fèi)用,” Nvidia 企業(yè)計(jì)算副總裁 Manuvir Das 在新聞發(fā)布會(huì)上說(shuō)。
DGX Cloud 的起始價(jià)格接近 Microsoft Azure 每月收取的 20,000 美元的兩倍,用于滿載的 A100 實(shí)例,該實(shí)例具有 96 個(gè) CPU 內(nèi)核、900GB 存儲(chǔ)空間和 8 個(gè) A100 GPU 每月。
甲骨文在其 RDMA 超級(jí)集群中托管 DGX 云基礎(chǔ)設(shè)施,可擴(kuò)展到 32,000 個(gè) GPU。微軟將在下個(gè)季度推出 DGX Cloud,隨后將推出 Google Cloud。
客戶將不得不為最新的硬件支付額外費(fèi)用,但軟件庫(kù)和工具的集成可能會(huì)吸引企業(yè)和數(shù)據(jù)科學(xué)家。
Nvidia 聲稱它為 AI 提供了最好的可用硬件。它的 GPU 是高性能和科學(xué)計(jì)算的基石。但是 Nvidia 專(zhuān)有的硬件和軟件就像使用 Apple iPhone 一樣——你得到了最好的硬件,但一旦你被鎖定,就很難脫身,而且在它的生命周期中會(huì)花費(fèi)很多錢(qián)。
但為 Nvidia 的 GPU 支付溢價(jià)可能會(huì)帶來(lái)長(zhǎng)期利益。例如,Microsoft 正在投資 Nvidia 硬件和軟件,因?yàn)樗ㄟ^(guò) Bing with AI 提供了成本節(jié)約和更大的收入機(jī)會(huì)。
人工智能工廠的概念是由首席執(zhí)行官黃仁勛提出的,他將數(shù)據(jù)設(shè)想為原材料,工廠將其轉(zhuǎn)化為可用數(shù)據(jù)或復(fù)雜的人工智能模型。Nvidia的硬件和軟件是AI工廠的主要組成部分。
“你只需提供你的工作,指向你的數(shù)據(jù)集,然后點(diǎn)擊開(kāi)始,所有的編排和下面的一切都在 DGX Cloud 中得到處理?,F(xiàn)在,相同的模型可以在托管在各種公共云上的基礎(chǔ)設(shè)施上使用,”Nvidia 企業(yè)計(jì)算副總裁 Manuvir Das 在新聞發(fā)布會(huì)上說(shuō)。
Das 說(shuō),數(shù)百萬(wàn)人正在使用 ChatGPT 風(fēng)格的模型,這需要高端人工智能硬件。
DGX Cloud 進(jìn)一步推動(dòng)了 Nvidia 將其硬件和軟件作為一套產(chǎn)品銷(xiāo)售的目標(biāo)。Nvidia 正在進(jìn)軍軟件訂閱業(yè)務(wù),該業(yè)務(wù)的長(zhǎng)尾涉及銷(xiāo)售更多硬件,從而產(chǎn)生更多軟件收入。Base Command Platform 軟件界面將允許公司管理和監(jiān)控 DGX 云培訓(xùn)工作負(fù)載。
Oracle Cloud 擁有多達(dá) 512 個(gè) Nvidia GPU 的集群,以及每秒 200 GB 的 RDMA 網(wǎng)絡(luò)。該基礎(chǔ)設(shè)施支持包括 Lustre 在內(nèi)的多個(gè)文件系統(tǒng),吞吐量為每秒 2 TB。
Nvidia 還宣布有更多公司采用了其 H100 GPU。Amazon 宣布他們的 EC2“UltraClusters”和 P5 實(shí)例將基于 H100?!斑@些實(shí)例可以使用他們的 EFA 技術(shù)擴(kuò)展到 20,000 個(gè) GPU,”Nvidia 超大規(guī)模和 HPC 計(jì)算副總裁 Ian Buck 在新聞發(fā)布會(huì)上說(shuō)。
EFA 技術(shù)是指 Elastic Fabric Adapter,它是由 Nitro 編排的網(wǎng)絡(luò)實(shí)現(xiàn),它是一種處理網(wǎng)絡(luò)、安全和數(shù)據(jù)處理的通用定制芯片。
Meta Platforms 已開(kāi)始在Grand Teton中部署 H100 系統(tǒng),這是社交媒體公司下一代 AI 超級(jí)計(jì)算機(jī)的平臺(tái)。
總結(jié)
在開(kāi)幕的GTC上,英偉達(dá)還帶來(lái)了多樣化的產(chǎn)品,例如用于特定推理的的英偉達(dá) L4 GPU。據(jù)報(bào)道,這款 GPU 可以提供比 CPU 高 120 倍的人工智能視頻性能。它提供增強(qiáng)的視頻解碼和轉(zhuǎn)碼功能、視頻流、增強(qiáng)現(xiàn)實(shí)和生成 AI 視頻。
此外,英偉達(dá)還聯(lián)合客戶打造由 16 個(gè) DGX H100 系統(tǒng)組成,每個(gè)系統(tǒng)配備八個(gè) H100 GPU的生成式AI超級(jí)計(jì)算機(jī)Tokyo-1。根據(jù) Nvidia 的 AI 觸發(fā)器數(shù)學(xué)計(jì)算,這相當(dāng)于大約一半的 exaflop AI 能力;由于每個(gè) H100(一開(kāi)始將有 128 個(gè))提供 30 teraflops 的峰值 FP64 功率,因此它應(yīng)該達(dá)到大約 3.84 petaflops 的峰值。
由此可見(jiàn),黃仁勛正在帶領(lǐng)英偉達(dá)走向一個(gè)新階段。