自研AI晶片,為哪般?



2023年,生成式AI技術一枝獨秀,在人工智慧領域獨佔鰲頭,成為最耀眼的明星。在下半年,生成式AI晶片玩家更是掀起了一股狂歡。先是ChatGPT幕後的股東微軟在11月16日的Microsoft Ignite大會上發佈Maia 100晶片,1050億晶體管挑戰AI晶片極限;緊接著,亞馬遜雲科技(AWS)在11月底的re:Invent大會上發佈了專為生成式AI和機器學習訓練的專用晶片Trainium 2;而在12月初,谷歌也放大招,發佈了新一代TPU晶片v5p。
隨著這些雲服務巨頭紛紛推出新一代生成式AI晶片,圍繞著生成式AI領域的競爭愈演愈烈。

生成式AI大模型,成兵家必爭之地

科技巨頭蘋果來自服務領域的營收高達850多億美元,佔到總營收的22%。以ChatGPT為代表的大模型應用說到底也是服務的一種。像大模型這樣的服務功能正在成為科技企業未來可觀的業務營收增長來源。所以,生成式AI早已是兵家必爭之地。

根據研究公司International Data Corp.(IDC)的預測,僅今年一年,全球企業就將在生成式AI解決方案上花費大約為159億美元,2024年的花費大約是355億美元。預計到2027年,全球用於生成式AI的支出將達到1,431億美元。IDC表示,ICT企業在AI領域支出大約為7%,而生成式AI在2027年將佔總體AI支出的34%。而中國在生成式AI上的支出,從2022年~2027年的復合年增長率更是高達87.5%。

而且行業用戶對生成式AI的應用和部署整體非常熱衷。IDC在2023年8月的《Gen AI ARC Survey》的調研報告中指出,在擁有5000名以上員工的企業中,80%的企業認為GenAI(生成式AI)將在未來 18個月內顛覆他們的業務。高管們希望在2024年看到GenAI 在客戶體驗、決策制定和訂單速度方面的收益。不少企業已經把生成式AI支出納入年度預算。

在這樣的市場需求下,雲巨頭們無不紛紛開始佈局大模型。谷歌近日強勢推出Gemini,劍指GPT-4。Gemini被谷歌號稱是“性能優於以前最先進的模型”,眾所周知,當今最強大的大模型是GPT4。Gemini是從頭開始構建的多模式,這意味著它可以概括和無縫地理解、操作和組合不同類型的資訊,包括文本、代碼、音頻、圖像和視頻。Gemini Ultra 的得分高達 90.0%,是第一個在MMLU(大規模多任務語言理解)上超越人類專家的模型。

自研AI晶片,為哪般?插图1

Gemini 在文本和編碼等一系列基準測試中超越了最先進的性能。(圖源:谷歌)

AWS也發佈了融合了亞馬遜25年的人工智慧 (AI) 和機器學習 (ML)創新的Titan多模式基礎模型 (FM)。不過AWS的Titan模型是一款文生圖的模型,它主要針對的受眾是企業,譬如廣告、電子商務以及媒體和娛樂公司可以以低成本大批量創建工作室品質的逼真圖像,而不是像 OpenAI 的 DALL-E 等現有的知名圖像生成器那樣以消費者為導向。

而中國百模大戰也已開啟。聽、說、讀、寫、看、畫、思、動,AI無處不在的時代已經悄然朝我們走來。

自研AI晶片,為哪般?插图3

來源:拍攝自IDC中國副總裁兼首席分析師武連峰《加速構建生成式AI:從戰略到落地》演講

在生成式AI領域,不可能僅單一的大模型就可以釋放生成式AI的所有價值。所以繼ChatGPT之後,市場上必然還會有其他高性能的大模型會在市場有所立足之地。至於最終誰將能夠與ChatGPT一樣問鼎中原,仍然需要經歷市場的考驗。

自研晶片成為發展大模型企業行業主流

在推動生成式人工智慧應用發展的過程中,底層晶片扮演著至關重要的角色。考慮到X86服務器CPU的相對較高成本以及 Nvidia Hopper H100 和 H200 GPU 加速器以及AMD Instinct MI300X 和 MI300A GPOU加速器的驚人定價,更為關鍵的是,這些高性能芯片面臨供應不足的問題。因此,自研晶片逐漸成為推動大型模型企業發展的主流方式。

在一眾雲服務提供商中,谷歌是資深的晶片玩家。雖然谷歌的第一代TPU晶片是在2016年的Google I/O開發者大會上發佈的,但是其自研晶片的旅途卻始於十年前,感興趣的讀者可以翻看《谷歌的自研晶片帝國》。其最新發布的TPU晶片——TPU v5p,與 TPU v4 相比FLOPS 提高了 2 倍以上,高帶寬內存 (HBM) 提高了3倍以上,總容量為 95GB。谷歌將這些TPU v5p組合到Pod中,每個TPU v5p Pod由 8,960 個晶片組成,並通過谷歌的最高帶寬的晶片間互連 (ICI)連接在一起,採用3D環面拓撲,每晶片速率為 4,800 Gbps。谷歌稱,TPU v5p訓練大型 LLM 模型的速度比上一代 TPU v4 快 2.8 倍。谷歌最新的Gemini大模型就是使用TPU進行訓練和服務的,而且谷歌表示,使用TPU定製晶片Gemini 的運行速度明顯快於早期、較小且功能較差的型號。

自研AI晶片,為哪般?插图5

谷歌v5p vs v5e vs v4(圖源:谷歌)

AWS近日也發佈了專為高性能深度學習訓練而設計的Trainium 2。Trainium 2晶片可以訓練具有數千億至數萬億參數的基礎模型進行優化。每個Trainium加速器都包含兩個專為深度學習算法而構建的第二代NeuronCore,採用NeuronLink,這是一種實例內、超高速非阻塞互連技術。Trainium 2加速器具有32GB的高帶寬內存,提供高達190 TFLOPS的 FP16/BF16 計算能力,比Trainium 1晶片訓練速度快4倍。並能夠部署在多達 100,000個晶片的EC2 UltraClusters中,從而使基礎模型 (FM) 和大型語言模型 (LLM) 的訓練只需極少的時間,同時能效提高達2倍。

相比谷歌和AWS,微軟在自研晶片領域可以說起步晚了些,但是其卻來勢凶猛。微軟自研的Maia 100晶片基於臺積電5納米工藝打造,總共包含1050億個晶體管。從公開數據開來,微軟這顆晶片是迄今為止最大的AI晶片。Maia 100在MXInt8下的性能為1600 TFLOPS,在MXFP4下則錄得了 3200 TFLOPS的運算速度。從這些FLOPS 看來,該晶片完全徹底碾壓了谷歌的 TPU v5 (Viperfish) 以及亞馬遜的Trainium/Inferentia2 晶片。與Nvidia的H100 和AMD的MI300X相比,微軟Maia 100的差距也並不遠。不過在內存帶寬方面,微軟Maia 100的規格是1.6TB/s的內存帶寬,高於Trainium/Inferentia2,但卻遜於TPUv5,至於其原因,按照semianalysis的說法,之所以微軟會出現這樣的“錯誤”,完全是因為這該晶片是在LLM熱潮發生之前設計的。在晶片互連方面,與谷歌對其TPUv5和專有ICI網路所做的類似,微軟在每個晶片都有自己的內置傳輸速度達4.8Tbps 的RDMA以太網 IO,。

市場上有很多傳聞,ChatGPT的開發者OpenAI也在考慮自研晶片,並招募了不少行業的大牛。按照這個發展態勢,可能未來的大模型公司都會採取自研的策略。

背後原因:為了壓價?替代GPU?還是隻是備選?

那麼,這些正在進軍大模型的龍頭雲廠商們,自研晶片究竟所為哪般?

眾所周知,目前市面上能用於生成式AI大模型訓練的芯片價格普遍很高,所以這些廠商自研是否是為了壓價?有消息稱,谷歌使用TPU後,不必向Nvidia支付70%的利潤。又或是徹底替代第三方的GPU or其他AI加速器晶片?還是隻是為了一個備選?對此,業內不同領域的專家均發表了自己的一些看法。

中科院計算所研究員韓銀和認為,他們最主要目的是希望能通過晶片來增強他們在大模型或者雲計算服務上的核心競爭力,而不僅是降低成本。他還提到,OpenAI也透露出自研AI晶片的消息,他們一定會在大模型訓練和推理上做一定的定製,以提升他們公司在大模型研發上的核心競爭力。這類定製化的晶片通常會在自身業務上具有一定的優勢,但缺乏GPU那樣的通用性。

就目前的情況而言,儘管這些廠商漸漸發佈了自研的晶片,但是在短期內仍然離不開對GPU的依賴。如谷歌Cloud AI副總裁 Amin Vahdat表示,Gemini將同時運行在GPU和TPU上。對此現象,矩向科技創始人兼CEO黃朝波指出,谷歌在自研TPU的情況下,依然使用GPU,這個現象其實很好理解。現在的大模型仍然是在持續迭代,一開始,通過GPU平臺更友好的編程,快速驗證一些想法。等業務規模上來以後,通過TPU來優化成本或性能,是一個很自然的方式。在黃朝波看來,這些廠商自研晶片的目的是兼而有之,短期是壓價,長期是替代。Nvidia在未來很長一段時期內,仍然是最炙手可熱的晶片公司(沒有之一),但其利潤率會慢慢回歸到正常區間。

業內投資人Jasper認為,目前Nvidia GPU在生態、易用性和通用性上還是有很高的壁壘,短期還是不可替代的。而且目前TPU在晶片層面的性能和軟體生態上,尤其在通用任務上,還是和NV有一定差距,不少第三方客戶在從Nvidia切換到TPU還是有不順的地方。不過,Google的TPU+光互聯+系統+大模型Infra,在系統級其實是更有優勢的。

人工智慧和晶片行業人士Roland的看法與Jasper類似,他告訴半導體行業觀察,在可預期的未來幾年,Nvidia的GPU都將是雲端人工智慧訓練和部署的標準方案。原因在於,過去十年間的雲端人工智慧軟硬體技術棧都是基於Nvidia的方案,相關的部署方案和代碼已經在雲端大廠裡根深蒂固,因此在未來一兩年內切換到另一個自研方案的風險極大。

但是Roland進一步指出,“類似谷歌Gemini這樣的做法,同時運行在TPU(自研晶片)和GPU上,很大程度上也是為了確保有一個備選方案,如果自研的晶片的方案遇到了意想不到的問題還可以切換到Nvidia的GPU上,反之亦然。未來自研方案只能慢慢取代Nvidia,當自研方案能足夠成熟之後,可望可以越來越多地取代Nvidia。但是即使在最樂觀的情況下也不太可能完全取代。

所以在Roland看來,廠商自研晶片是一種second source方案,目的除了壓價(其實可能也壓不了太多價格)之外,更多是將核心技術把握在自己手中。更便於自己去制定未來的路線圖,而不會對於某些供貨商有過分依賴。這樣做的好處是:一方面,這樣如果主流方案缺貨或者因為其他原因無法獲得時,還有自研方案能保證供應鏈安全;另一方面,當新的技術出現,目前主流方案供貨商無力支持或者不願意支持的時候可以有能力用自己的方案頂上。

談到雲廠商自研晶片的成本效益問題時,韓銀和表示,這其實是一個需要時間來待驗證的問題。從半導體行業發展的經驗來看,在AI晶片這類具備大批量、形成生態的晶片種類,長期競爭的結果,往往是贏者通吃,這是一個殘酷的現實。看晶片,不僅僅要看最後高昂的製造成本,還有前端研發和設計投入的大量人力、時間成本,如果是以晶片為主要產品和核算單元的企業,單獨一個企業的量是很難支撐一個大晶片廠商成本的。當然,谷歌、微軟他們可能是以最後提供的雲服務或者大模型能力為核算單元的,如果晶片能給他們核心競爭力提供助力,這個賬可能是算得過來的。

投資人Jasper也分析道,Nvidia 2023Q3的綜合毛利是73.95%,高端晶片的毛利市場預計更高。這麼高的毛利,對於自研晶片來說,都是可能節省的成本。實際節省的費用,還要綜合考慮自研晶片以及整套軟硬體成本的研發成本。但是,由於多模態大模型巨大的訓練成本,以及未來海量的應用場景,雲廠商自研晶片的成本效益仍然是值得期待的。

專用生成式AI晶片,是未來大模型發展的必然趨勢

“我們在評價一個算力晶片綜合能力的時候,通常需要關注兩個參數:性能和通用性。AI模型一直在快速的迭代,因為通用性的原因,TPU一直不如GPU好用。”黃朝波指出,“但形勢在發生變化,自從Transformer模型以來,Transformer有一統AI模型的趨勢。雖然也有一些新的底層算法提出,但核心的算子和Transformer比較,變化不多。或者說,隨著AI模型底層算法迭代變慢,專用晶片能跟得上這個迭代節奏。這樣的話,相比GPU,TPU這樣的專用AI晶片在通用性上沒有了劣勢,而在性能上相比GPU的方式要更加高效一些。”

他進一步強調:“如果我們從技術角度來闡述這件事情,就是目前NVIDIA GPU的通用靈活性就剛好匹配了上層的大模型算法迭代所需要的通用靈活性。但同時,我們也看到了,整個行業對AGI的突破很樂觀,並且底層的算法結構也在逐步沉澱,那這樣的話,自研專用的AI加速處理器,會是未來的必然趨勢。

考慮到算法迭代仍然是比較快的。黃朝波強調道,在未來5年,能夠大放異彩的AI處理器應該是這樣的:相比GPU更加專用更加高效一些,但相比目前的專用AI晶片,又更加通用更加低效一些,在性能和通用性方面達到一個新的平衡。

隨著各種專用的生成式AI晶片陸續出來,業界不禁發問,這些雲廠商會不會由此成為英偉達GPU的又一個勁敵?對此,韓銀和表示,他認為短期內不會。他指出,無論是TPU還是微軟等正在研製的AI晶片,都以符合自身業務需求為主,並不對外供貨。而要想對外供貨,就需要形成成熟的生態,這包括軟體、工具、開發者等。在這一方面,要想超過英偉達是非常困難的,並不是單一性能領先就能解決的。此外,還有穩定的供應鏈合作關係的問題。大規模的晶片量產,需要穩定的供應鏈支持,而這對雲廠商來說也是一個挑戰。

投資人Jasper則表示:“從歷史上來看,目前Nvidia很像2000年前後的思科,那個時候思科也是軟硬一體、超高性能、極強的護城河,因此有很高的壁壘和毛利,業務增長和市值增長都非常迅猛。但是,隨著下游客戶應用不斷地起量,最終服務器和網路設備迅速的自研化。思科的昨天,是否會變成Nvidia的明天?”

結語

在自研晶片“自給自足”方面,這些雲廠商早已蹚出一條成功的路。AWS的Graviton晶片已經迭代了第4代,在服務器領域發展的如火如荼。谷歌的TPU晶片也是如此,TPU晶片早已是谷歌人工智慧業務的核心,TPU晶片為蒐索、YouTube、Gmail、谷歌地圖、Google Play和Android等數十億用戶提供服務。現在他們正在將這一成功經驗轉嫁到生成式AI領域。

伴隨著這些雲廠商的介入,將推動大型模型和專用AI晶片的研發,加速這些技術的創新和應用。這些廠商所推出的專為生成式AI設計的晶片,可能會使得生成式AI技術的應用更加經濟可行。

聯系郵箱:0xniumao@gmail.com