
Meta 不僅是全球最大的社交網(wǎng)絡公司,和當下最熱門技術(shù)概念“元宇宙”的推行者。它同時也是人工智能(AI)研究的全球頂級公司之一。
該公司在 AI 方面卓越研究成果的背后,必然有強大的算力支持。不過一直以來,Meta 從未對外界公開展示過其算力究竟有多厲害。
而在今天,Meta 公司突然對外宣布了其在打造 AI 超級計算機方面的最新進展。
根據(jù) Meta 此次公開透露的結(jié)果,其打造的超級計算機 AI RSC,目前算力在全球應該已經(jīng)排到了前四的水平。
這個情況已經(jīng)足以令人非常震驚。畢竟,在算力方面能夠和 RSC 相提并論的其它超級計算機,均由中國、美國、日本的國有研究機構(gòu)運作——而 RSC 是前五里唯來自于私營機構(gòu)的超算系統(tǒng)。
這還沒完:這臺超級計算機,還在以驚人的速度,變得更快、更強。
Meta 預測,到今年7月,也即半年之內(nèi),RSC 的算力將實現(xiàn)2.5倍的增長。另據(jù)專業(yè)機構(gòu) HPCwire 估計,Meta 的 RSC 超級計算機,其運行 Linpack benchmark 的算力將有望達到220 PFlops。
如無意外,RSC 將成為名副其實的“全球最快 AI 超級計算機”。
AI RSC 內(nèi)部,圖片來源:Meta
AI 研發(fā)進入“超算”時代
首先需要回答一個問題:什么樣的 AI 研究,需要如此強大的超級計算機?
一般的模型,或許可以在一般的電腦或普通的數(shù)據(jù)中心里,用一塊或是幾塊顯卡就可以完成訓練。而 Meta 正在研究的,是比目前的模型參數(shù)量要大得多,性能要求更高、更嚴格,訓練花費時間更久的——超大模型。
以識別有害內(nèi)容為例:CV 算法需要能夠以更高的采樣率,處理更大、更長的視頻;語音識別算法需要在極大噪音的復雜背景下達到更高的識別準確度;NLP 模型要能夠同時理解多種語言、方言和口音,等等……
在過去,許多算法在跑分數(shù)據(jù)集上都得到了不錯的成績。然而,Meta 是一家?guī)状笾奘畠|級別用戶量的公司,它必須確保同一個模型投放到生產(chǎn)環(huán)境中能夠最大限度保證普適性。所以,一般模型不夠用了,現(xiàn)在要訓練大模型。
訓練大模型,需要大算力——問任何一個從事大模型研究的人,你都會得到這樣的答案。畢竟過去的訓練任務用幾周能夠完成,可在今后,面對新的大模型,我們可等不起幾年……
“在今天,包括識別有害內(nèi)容等在內(nèi)的許多重要的工作,都對于超大模型產(chǎn)生了極大的需要,”Meta 在其新聞稿中寫道,“而高性能計算系統(tǒng)是訓練這些超大模型的重要組件?!?/p>
Meta 此次發(fā)布的超級計算機 AI RSC,全稱為 AI Research SuperCluster(人工智能研究超級計算集群)。
雖然 Meta 在今天首次公開宣布推出這一系統(tǒng),實際上 RSC 的前身版本最早在 2017 年就已經(jīng)在 Facebook 公司內(nèi)部投入生產(chǎn)使用了。當時,F(xiàn)acebook 團隊采用了2.2萬張英偉達 V100 Tensor GPU 組成了首個單一集群。該系統(tǒng)每天可以運行大約3.5萬個訓練任務。
據(jù) HPCwire 預計,這個基于 V100 GPU 的前身版本,按照 Linpack benchmark 的浮點計算性能應該已經(jīng)達到了135 PFlops。這個水平在全球超算排行榜 Top500 的2021年11月排名中,已經(jīng)足以排到第三名了,也即其算力可能已經(jīng)超越了美國能源部在加州 Livermore 運作的“山脊”(Sierra)超級計算機。
不過,對于 Meta 來說,這還遠遠不夠。他們想要的,是世界上最大、最快、最強的 AI 超級計算機。
這臺超算還必須要達到生產(chǎn)環(huán)境的數(shù)據(jù)安全級別,畢竟在未來,Meta 的生產(chǎn)系統(tǒng)所用的模型可能直接在它上面訓練甚至運行。
并且,這臺超算還需要為用戶——Meta 公司的 AI 研究員——提供不亞于一般訓練機/顯卡的使用便利性,和流暢的開發(fā)者體驗。
Meta AI RSC 技術(shù)項目經(jīng)理 Kevin Lee 圖片來源:Meta
2020年初,Meta 團隊認為當時公司的超算集群難以跟上未來大模型訓練的需要,決定“重新出發(fā)”,采用最頂尖的 GPU 和數(shù)據(jù)傳輸網(wǎng)絡技術(shù),打造一個全新的集群。
這臺新的超算,必須能夠在大小以 EB(超過10億GB)為單位的數(shù)據(jù)集上,訓練具有超過萬億參數(shù)量的超大神經(jīng)網(wǎng)絡模型。
(例如,中國科研機構(gòu)智源 BAAI 開發(fā)的“悟道”,以及谷歌去年用 Switch Transformer 技術(shù)訓練的混合專家系統(tǒng)模型,都是參數(shù)量達到萬億級別的大模型;相比來看,此前在業(yè)界非常著名的 OpenAI GPT-3 語言模型,性能和泛用性已經(jīng)非常令人驚訝,參數(shù)量為1750億左右。)
Meta 團隊選擇了三家在 AI 計算和數(shù)據(jù)中心組件方面最知名的公司:英偉達、Penguin Computing,和 Pure Storage。
具體來說,Meta 直接從英偉達采購了 760 臺 DGX 通用訓練系統(tǒng)。這些系統(tǒng)包含共計6080塊 Ampere 架構(gòu) Tesla A100 Tensor 核心 GPU,在當時,乃至今天,都是最頂級的 AI 訓練、推理、分析三合一系統(tǒng)。中間的網(wǎng)絡通信則采用了英偉達 InfiniBand,數(shù)據(jù)傳輸速度高達200GB每秒。
存儲方面,Meta 從 Pure Storage 采購了共計 231PB 的閃存陣列、模塊和緩存容量;而所有的機架搭建、設(shè)備安裝和數(shù)據(jù)中心的后續(xù)管理工作,則由從 Facebook 時代就在服務該公司的 Penguin Computing 負責。
這樣組建出來的新超算集群,Meta 將其正式命名為 AI RSC:
圖中顯示的是 RSC 第一階段(P1)的參數(shù)細節(jié)。圖片來源:Meta
相較于之前 FAIR 采用 V100 顯卡搭建的計算集群,初代 RSC 對于生產(chǎn)級別的計算機視覺類算法帶來了20倍的性能提升,運行英偉達多卡通訊框架的速度提升了超過9倍,對于大規(guī)模自然語言處理類 workflow 的訓練速度也提升了3倍——節(jié)約的訓練時間以周為單位。
值得一提的是,在 Meta 剛剛做好 RSC 升級計劃的時候,新冠疫情突然襲來了。所有實體建造的工期都遇到了極大的不確定性,RSC 能否成功升級換代,打上了一個巨大的問號。
然而,公司業(yè)務發(fā)展和 AI 科研的需要,無法等待新冠疫情。負責 RSC 升級和建造的團隊,以及包括英偉達、Penguin Computing、Pure Storage 等三家硅谷公司在內(nèi)的技術(shù)合作方,不得不在極大的工期壓力下,完成數(shù)據(jù)中心的裝修建設(shè)、設(shè)備的生產(chǎn)和運輸、現(xiàn)場裝機、布線、調(diào)試等一系列非常繁瑣和技術(shù)要求極高的工作。
更夸張的是由于當時全美各地都有居家隔離令,整個 RSC 項目團隊的多位負責人,都不得不在家中遠程工作……團隊里的研究員 Shubho Sengupta 表示,“最讓我感到驕傲的是,我們在完全遠程辦公的條件下完成了(RSC 的升級工作)??紤]到項目的復雜性,完全沒有和其它團隊成員見面就能把這些事都辦了,簡直太瘋狂了”。
就目前來看,RSC 已經(jīng)是世界上運行速度最快的 AI 超級計算機之一了。
但是 Meta 仍不滿足。
打造全球最快、最安全的 AI 超算
為了滿足 Meta 在生產(chǎn)環(huán)境和 AI 研究這兩大方面日益增長的算力需求,RSC 必須持續(xù)升級擴容。
按照 Meta 的 RSC 第二階段(P2)計劃,到今年7月,也即半年之內(nèi),整個計算集群的 A100 GPU 總數(shù)提升到驚人的 1.6 萬塊……
初代 RSC 采用的 DGX A100 單機數(shù)量是760臺,折合6,080張顯卡——這樣計算的話,也就是說 RSC 將在 P2 再增加9,920張顯卡,即 Meta 需要再從英偉達采購1,240臺 DGX A100 超級計算機……
就連英偉達也表示,Meta 的計劃,將讓 RSC 成為英偉達 DGX A100 截至目前最大的客戶部署集群,沒有之一。
算力提升了,其它配套設(shè)施,包括存儲和網(wǎng)絡,也要跟上。
按照 Meta 的預計,RSC 的 P2 完成后,其數(shù)據(jù)存儲總量將達到1 EB——折合超過 10 億 GB。
不僅如此,整個超算集群的單個節(jié)點之間的通訊帶寬也獲得了史無前例般的提升,達到驚人的16TB/s,并且實現(xiàn)一比一過載(也即每個 DGX A100 計算節(jié)點對應一個網(wǎng)絡接口,不出現(xiàn)多節(jié)點共享接口爭搶帶寬資源的情況)。
(這里還有個點值得單獨提一下:按照 Meta 團隊的估計,像 RSC 這樣采用 DGX A100 節(jié)點組建超算集群的做法,能夠支持的節(jié)點上限也就是1.6萬了,再多就會出現(xiàn)過載,意味著追加投資的邊際收益顯著降低。)
在數(shù)據(jù)安全的角度,Meta 這次也沒有忘了在新聞稿中專門介紹其數(shù)據(jù)處理方式,以求令公眾安心。
“無論是檢測有害內(nèi)容,還是創(chuàng)造新的增強現(xiàn)實體驗——為了打造新的 AI 模型,我們都會用到來自公司生產(chǎn)系統(tǒng),取自真實世界的數(shù)據(jù)?!盡eta 表示,這也是為什么RSC 從設(shè)計之初就加入了數(shù)據(jù)隱私和數(shù)據(jù)安全方面的考慮。只有這樣,Meta 的研究院才能夠安全地使用加密、匿名化后的真實世界數(shù)據(jù)來訓練模型。
1)RSC 被設(shè)計為無法和真正的互聯(lián)網(wǎng)直接連接,而是和位于 RSC 所在地附近的一座 Meta 數(shù)據(jù)中心進行連接;
2)當 Meta 的研究人員向 RSC 的服務器導入數(shù)據(jù)的時候,這些數(shù)據(jù)首先要通過一道隱私審查系統(tǒng),確認數(shù)據(jù)已經(jīng)進行了匿名化;
3)在數(shù)據(jù)正式投入到 AI 模型算法的訓練之前,數(shù)據(jù)也會再次進行加密,并且密鑰是周期生成和拋棄的,這樣即使有舊的訓練數(shù)據(jù)存儲,也無法被訪問;
4)數(shù)據(jù)只會在訓練系統(tǒng)的內(nèi)存中解密,這樣即使有不速之客闖入 RSC,對服務器進行物理訪問,也無法破解數(shù)據(jù)。
可能是出于保密的目的,Meta 甚至連 RSC 的具體所在地都沒有透露……
不過根據(jù)已知的情況,RSC 的附近必有一座 Facebook/Meta 數(shù)據(jù)中心存在。并且,下圖截取自 RSC 的公告視頻,圖中我們可以看到,AI RSC 位于右上,左下則是 Meta 的一座數(shù)據(jù)中心。圖中有著大量較高的樹木。
硅星人基本可以確定,上圖中的 Meta 數(shù)據(jù)中心位于美國弗吉尼亞州 Henrico 縣。該縣是美國東部最大的數(shù)據(jù)中心集中地,也是連接歐洲、南美、亞洲、非洲的多條海底光纜在美國的末端所在地。至于 RSC 的實際所在地,其前身應該是 QTS Richmond 數(shù)據(jù)中心。
右邊為 Meta 數(shù)據(jù)中心,左邊為 QTS Richmond 也即 Meta AI RSC 所在地 截自 Google Maps
最后,讓我們來看看成本……
不考慮同樣極其昂貴的存儲和網(wǎng)絡基礎(chǔ)設(shè)施,我們就先只看計算的部分:
每臺 DGX A100 的標準售價為19.9萬美元,Meta 大宗采購肯定有折扣,但假設(shè)沒有折扣的話:RSC 這次 P2 的擴容成本,僅顯卡采購的部分,就高達2.5億美元……
當然,按照今天的 Meta 市值來看,這筆費用簡直是九牛一毛。假若真的打造出全世界最大最強最快的 AI 超算,對于這家公司的業(yè)務,無論是其現(xiàn)在的核心業(yè)務,還是未來的元宇宙產(chǎn)品,預計都能夠帶來非常大的幫助。
Meta 是這么說的:“最終,我們在 RSC 上面的努力,將能夠為作為下一個關(guān)鍵計算平臺的元宇宙鋪就道路。屆時,AI 驅(qū)動的應用和產(chǎn)品將會扮演重要的角色?!?/p>
關(guān)鍵詞: meta rsc 模型 ai 數(shù)據(jù)中心 超級計算機 集群 英偉達 數(shù)據(jù) 算力
網(wǎng)站首頁 |網(wǎng)站簡介 | 關(guān)于我們 | 廣告業(yè)務 | 投稿信箱
Copyright © 2000-2020 hexin8.com All Rights Reserved.
中國網(wǎng)絡消費網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復制或建立鏡像
聯(lián)系郵箱:920 891 263@qq.com
驻马店市| 吴川市| 荣成市| 子长县| 苍南县| 启东市| 南昌县| 高密市| 磐安县| 苏尼特右旗| 桓仁| 昌图县| 县级市| 河源市| 屏南县| 都江堰市| 长沙市| 米脂县| 平舆县| 象州县| 天等县| 九寨沟县| 特克斯县| 屯留县| 牙克石市| 深水埗区| 汾阳市| 阿鲁科尔沁旗| 莱州市| 宝清县| 库车县| 淳安县| 中江县| 福州市| 永登县| 蕲春县| 淳化县| 盱眙县| 永安市| 鹿邑县| 双流县|