中信證券:谷歌Gemini模型發佈,AI進入多模態時代



近日,谷歌宣佈發佈新一代大模型Gemini,再次引發市場對人工智慧產業的持續關注。Gemini模型作為谷歌以及全球範圍內最先發布的多模態模型,在性能上是第一個在MMLU上超越人類專家的模型。模型根據體量大小分為Gemini Ultra、Gemini Pro、以及Gemini Nano三個版本,支持在雲端以及邊緣測運行。同時谷歌同步發佈最新版本的計算晶片TPU v5p,相較上一代TPU v4性價比提升2.3倍。中信證券認為,多模態Gemini模型的正式發佈,一方面可以拓寬應用場景的拓展,另一方面能夠帶來算力需求的持續升級。中信證券持續看好後續AI產業的前景,認為後續GPT-5等模型的發佈亦將帶來更多的催化。

品發佈:多模態模型Gemini、TPU v5p等新品發佈。

近日,谷歌進行新一輪的產品發佈,包含AI軟體及計算硬體等領域。模型層面,谷歌發佈了最新的多模態模型Gemini,基於TPU進行訓練,可以概括和無縫地理解、操作和組合不同類型的資訊。模型包括Ultra、Pro、Nano三個版本,能夠在從數據中心到移動設備的所有設備上高效運行。TPU亦更新至v5p版本,與上一代 TPU v4 相比,性價比提高了 2.3 倍。

Gemini:實現多模態,性能得到大幅提升。

根據谷歌披露,Gemini是基於Transformer decoder構建的多模態模型,其性能較原有的單一模型更為全面,支持32K的contex長度。根據公司披露,Gemini Ultra 在大型語言模型 (LLM) 研發中使用的 32 個廣泛使用的學術基準中的 30 個方面,其性能超過了當前最先進的結果。Gemini Ultra 的得分為 90.0%,是第一個在 MMLU(大規模多任務語言理解)方面優於人類專家的模型,橫向對比來看多個任務性能超過GPT-4。在公司披露的技術文檔中,Gemini能夠實現圖標理解與格式轉換、基於圖片的多個問答、文生圖、圖片理解與推理、幾何問題求解、圖片資訊關聯、基於圖片以及提示詞的問答、梗圖理解、圖片邏輯解釋、代碼生成、數學問題求解、表格轉換及計算、複雜圖片生成、視頻理解等功能。

訓練方法:基於TPU v5e及v4訓練,數據集類型更為豐富。

Gemini的預訓練數據集使用來自web文檔、書籍和代碼的數據,包括圖像、音頻和視頻數據,並通過篩選、過濾方式去除有害數據,提升數據質量。硬體層面,採用了谷歌的TPU v5e及v4訓練,並針對任務進行優化,訓練的硬體規模相較上一代的PaLM-2顯著提升。後續來看,預計谷歌將繼續推出更高級的TPU v5p,進一步提升訓練效果。

後續展望:持續關注在谷歌體系內的導入進展,以及GPT-5等多模態模型進展。

谷歌在發布會上表示,目前,Gemini的初始版本已在Bard(12月6日)中提供,開發人員版本將於12月13日通過Google Cloud的API提供。根據谷歌的計劃, Bard 將使用 Gemini Pro 的微調版本進行更高級的推理、計劃、理解等。谷歌還將 Gemini 引入 Pixel,Pixel 8 Pro 是第一款搭載 Gemini Nano 的智慧手機。在接下來的幾個月裡,Gemini 將出現在谷歌體系內更多產品和服務中,如蒐索、廣告、Chrome 和 Duet AI。在當前的蒐索場景中,Gemini能夠降低大約40%的延遲。對整個產業來講,谷歌產品化、商業化的推進亦將帶來行業整體的變化,同時伴隨GPT-5等模型的推出,中信證券預計將看到:1)多模態模型帶來的算力需求增長以及 2)越來越多的AI場景與產品的出現。

風險因素:

AI核心技術發展不及預期風險;科技領域政策監管持續收緊風險;全球宏觀經濟復甦不及預期風險;宏觀經濟波動導致歐美企業IT支出不及預期風險;全球雲計算市場發展不及預期風險;企業數據洩露、資訊安全風險;行業競爭持續加劇風險等。

投資建議:

短期來看,Gemini的發佈將進一步帶來對多模態模型的更多期待,對產業而言,多模態料將帶動算力需求的提升;而在中長期來看,預計多模態模型的升級將豐富相關產品的使用場景,疊加硬體升級、算法優化帶來的成本優化,2C產品的進展值得期待。中信證券持續看好本輪生成式AI浪潮對科技產業的長週期影響和改變,繼續關注算力、算法、數據、應用等環節的領先廠商。

注:本文節選自中信證券研究部已於當日發佈的《晨會》報告,分析師:陳俊雲S1010517080001;賈凱方S1010522080001;許英博S1010510120041

聯系郵箱:0xniumao@gmail.com