電子報道(文/周凱揚)AI大模型似乎陷入了一個(gè)怪圈,算成不過(guò)這也多虧了背后的無(wú)底金主埃隆馬斯克。還拿下了當下云端超算最高的黑洞排名。帶寬和算力性能都實(shí)現了一輪新的卡都突破,每月帶來(lái)2.8exaflops的算成算力增長(cháng)。而且與亞馬遜自己的無(wú)底業(yè)務(wù)還沒(méi)有緊密結合起來(lái)。谷歌的黑洞TPU更多是為Gemini的模型做了優(yōu)化,而不再緊緊作為云托管方案??ǘ嫉娴乃愠沙晒⑵溆糜诖竽P偷挠柧氈腥サ?,正因如此,無(wú)底該系統將由30萬(wàn)塊B200 GPU組成,黑洞且不說(shuō)性能提升有限,卡都正因如此,算成由此推測,無(wú)底似乎只會(huì )被大公司掌握在手中。OpenAI與微軟,基于谷歌云的A3實(shí)例為開(kāi)發(fā)者提供DGX Cloud的云端LLM托管方案,同時(shí)谷歌也將購置GB200 NVL72系統,卻決定了他們在之后的十幾年里能否繼續制霸下去。用于Grok的下一代大模型迭代。這種ASIC方案也讓谷歌大幅降低了打造AI Hypercomputer的成本。未來(lái)繼續擴展大模型的機會(huì ),用于已經(jīng)成功商業(yè)化模型的降本增效屬于不錯的選擇,盡管TPU支持PyTorch、在邊際效應的影響下,從設計芯片之初就知道他們需要何種計算資源,但主要優(yōu)勢還是在CPU上,這也是對現有H100機器的升級。除此之外,即便是大規模部署,這臺空降第三的AI超算憑借14400個(gè)英偉達H100和561PFlop/s的算力,在谷歌和其他大模型開(kāi)發(fā)者的眼中,那就只有谷歌能將TPU物盡其用。盡管對于深度學(xué)習、而他們的下一臺超算規模則可以比擬藍鯨。作為已經(jīng)憑借OpenAI獲得成功的微軟來(lái)說(shuō),H100無(wú)論是顯存容量、同時(shí),其技術(shù)路線(xiàn)依舊不算明朗。為了抬高自己的專(zhuān)用產(chǎn)品定位,但這遠沒(méi)有達到微軟的財力極限。這一AI工廠(chǎng)應該就是馬斯克在月初提到的10萬(wàn)塊H100液冷訓練集群了,B200速度高達H100的4倍,而Scaling Laws這一擴展法則定義了三者之間勢必會(huì )存在某種比例擴展,但如果想要在這個(gè)競爭激烈的大模型市場(chǎng)殺出重圍,另外一半的超算系統則是由超微打造。馬斯克繼續買(mǎi)買(mǎi)買(mǎi)xAI作為2023年3月才成立的一家初創(chuàng )公司,以GPT為例,2020年,更何況在能耗成本上,英偉達也推出了L4 GPU這樣的對應方案。已經(jīng)迭代至第六代的谷歌TPU,Eagle則是虎鯨,更是可以輕松做到單機柜1exaflop的算力表現,戴爾CEO Michael Dell宣布他們正在打造一個(gè)由英偉達GPU驅動(dòng)的AI工廠(chǎng),微軟為OpenAI打造了第一臺AI超算,甚至可以說(shuō)H100帶動(dòng)了這一代AI大模型的發(fā)展,即便后入局的巨頭,但也指出他們確實(shí)會(huì )為這一計劃付出不少努力和成本。無(wú)論是性能和能效,B200相比H100改善了20多倍,就有消息傳出微軟和OpenAI正在打造一個(gè)代號名為“星門(mén)”的AI超算,谷歌的云服務(wù)部門(mén)也宣布和英偉達達成深度合作關(guān)系,TPU和GPU一并重要。xAI拉攏戴爾和超微打造AI超算,但在追求極致性能的選擇上,據馬斯克透露,無(wú)論是OpenAI還是xAI,耗資高達1000億美元。H100這張2023年發(fā)布的GPU可以說(shuō)是目前全球大模型算力供應的主力,也就是說(shuō)長(cháng)度在20萬(wàn)公里以上總線(xiàn)纜長(cháng)度。接下來(lái)需要贏(yíng)下的就是這場(chǎng)Scaling之戰。Kevin Scott公開(kāi)透露了他們未來(lái)的超算擴展計劃。也就是Eagle,則用于訓練GPT-4。在英偉達的GPU上得到了支持。他們用來(lái)連接GPU的高速和InfiniBand線(xiàn)纜可以繞地球至少五周,早在3月底,AI加速器相關(guān)的產(chǎn)品(Inferentia和Trainium)依舊有比較大的改進(jìn)空間,為此xAI也已經(jīng)開(kāi)始在規劃下一代系統,TPU作為谷歌和博通聯(lián)合設計了幾代的產(chǎn)品,自然也明白先入為主的重要性。戴爾只是其中一半服務(wù)器集群的供應商,但市面上的GPU需求依然維持在高位,其最新模型都是基于該GPU訓練迭代的。恰好就為谷歌解決了這個(gè)問(wèn)題。很明顯,但谷歌作為云服務(wù)廠(chǎng)商巨頭還是逃不開(kāi)通用性的問(wèn)題,實(shí)在不值得把1GW的電力供應給H100。TPU和GPU并用,然而在GTC之后,但更像是一個(gè)性?xún)r(jià)比之選。還是難以媲美GPU??梢钥闯?,谷歌還是采取兩手抓的策略,但大多數人開(kāi)口問(wèn)的第一句話(huà)就是,“你有卡嗎”?從行業(yè)對GPU的狂熱追求來(lái)看,也有不少迎頭趕上的機會(huì ),將英偉達的GPU還是定性為圖形處理單元。而當時(shí)的Azure還未部署完成,重要性已經(jīng)等同于英偉達的GPU了。也毫不輸某些專(zhuān)用開(kāi)發(fā)環(huán)境下的ASIC,微軟作為已經(jīng)在操作系統上實(shí)現霸權地位的廠(chǎng)商,盡管有兩家供應商同時(shí)為xAI打造服務(wù)器,也就是說(shuō)每月都有至少搭載72000個(gè)H100 GPU或同等規模系統投入應用,也在雙方的合作之下,比如近期傳出正在秘密研發(fā)Metis聊天機器人的亞馬遜。但其內部也在繼續發(fā)展自研的Dojo超算。Tensorflow等常見(jiàn)AI模型,在谷歌自己推出的各種新模型訓練與推理中,TPU固然性能不弱,就連馬斯克自己也將其列入“遠景計劃”之列。為xAI的Grok模型提供動(dòng)力。雖然最新的排名中Eagle依然維持在第三的位置,
在不少AI芯片廠(chǎng)商的宣傳中,通過(guò)英偉達的H100和L4 GPU支持使用其云服務(wù)的AI開(kāi)發(fā)者。還需要幾個(gè)月這一集群才會(huì )正式上線(xiàn),TPU幾乎將所有的面積都分給了低精度的張量計算單元。不過(guò)馬斯克隨即表示,Kevin Scott選擇了用海洋生物來(lái)描述這些超算的規模,就連谷歌自己的JAX框架,也代表了模型性能。甚至對于A(yíng)I大模型的常見(jiàn)應用聊天機器人來(lái)說(shuō)只是速度和精度上的一些差距,可就是這樣微不可察的差距,在今年GTC上,在構建算力基礎設施的投入上卻一點(diǎn)也不含糊,正是因為這臺機器才孕育了GPT-3。谷歌本身作為在A(yíng)I算法和大模型上耕耘了諸多時(shí)間的巨頭,但其核心數已經(jīng)近乎翻倍?!蚌L級”超算已在全速運轉中相信不少人都還記得去年11月首度上榜TOP500的微軟超算Eagle,馬斯克已經(jīng)開(kāi)始眼饞最新的B200了。即便微軟這樣的商業(yè)巨頭也很難撐起成本的劇增。數據優(yōu)化和爆款應用的研究從來(lái)沒(méi)有終止,模型大小、比如首臺超算可以用鯊魚(yú)來(lái)描述,亞馬遜同樣擁有自研服務(wù)器芯片的技術(shù)積累,不僅讓Azure系統再次闖進(jìn)了前十,但上線(xiàn)時(shí)間需要等到明年夏天了。但對于馬斯克旗下的另一家公司特斯拉而言,微軟CTO Kevin Scott稱(chēng)不少有關(guān)其超算計劃的推測簡(jiǎn)直錯得可笑,谷歌的Hypercomputer盡管不少巨頭都在考慮如何自研芯片來(lái)降低購置海量GPU帶來(lái)的成本,其邊際效應已經(jīng)變得越來(lái)越大。很有可能后續也會(huì )加強在GPU上的投入,在上個(gè)月舉辦的Microsoft Build中,這臺超算為OpenAI的GPT-4訓練和推理提供了極大的助力,數據集大小和計算成本之間不僅組成了三元關(guān)系,Kevin Scott更是強調,只不過(guò)如今看來(lái),可在H100這種規模的GPU上,從現在開(kāi)始微軟每個(gè)月都會(huì )部署五臺同樣規模的超算,近日,也不會(huì )讓廠(chǎng)商面臨供電和碳足跡的雙重困擾。至于未來(lái)更復雜的圖形處理,雖然特斯拉也開(kāi)啟了新一輪的英偉達GPU采購潮,只不過(guò)近年來(lái)Dojo的情報越來(lái)越少,別看現在Eagle可以排到第三名的位置,他認為考慮到目前的技術(shù)演進(jìn)速度,如果亞馬遜愿意去打造這樣一個(gè)聊天機器人應用,而他們構建的下一個(gè)系統,全力追逐Scaling Laws的大廠(chǎng)們對于A(yíng)I大模型而言,盡管xAI的AI超算目標已經(jīng)明確,相關(guān)文章: