中信證券：谷歌Gemini模型發佈，AI進入多模態時代

2023年12月7日 am9:15 • 財經與經濟

近日，谷歌宣佈發佈新一代大模型Gemini，再次引發市場對人工智慧產業的持續關注。Gemini模型作為谷歌以及全球範圍內最先發布的多模態模型，在性能上是第一個在MMLU上超越人類專家的模型。模型根據體量大小分為Gemini Ultra、Gemini Pro、以及Gemini Nano三個版本，支持在雲端以及邊緣測運行。同時谷歌同步發佈最新版本的計算晶片TPU v5p，相較上一代TPU v4性價比提升2.3倍。中信證券認為，多模態Gemini模型的正式發佈，一方面可以拓寬應用場景的拓展，另一方面能夠帶來算力需求的持續升級。中信證券持續看好後續AI產業的前景，認為後續GPT-5等模型的發佈亦將帶來更多的催化。

▍產品發佈：多模態模型Gemini、TPU v5p等新品發佈。

近日，谷歌進行新一輪的產品發佈，包含AI軟體及計算硬體等領域。模型層面，谷歌發佈了最新的多模態模型Gemini，基於TPU進行訓練，可以概括和無縫地理解、操作和組合不同類型的資訊。模型包括Ultra、Pro、Nano三個版本，能夠在從數據中心到移動設備的所有設備上高效運行。TPU亦更新至v5p版本，與上一代 TPU v4 相比，性價比提高了 2.3 倍。

▍Gemini：實現多模態，性能得到大幅提升。

根據谷歌披露，Gemini是基於Transformer decoder構建的多模態模型，其性能較原有的單一模型更為全面，支持32K的contex長度。根據公司披露，Gemini Ultra 在大型語言模型（LLM）研發中使用的 32 個廣泛使用的學術基準中的 30 個方面，其性能超過了當前最先進的結果。Gemini Ultra 的得分為 90.0%，是第一個在 MMLU（大規模多任務語言理解）方面優於人類專家的模型，橫向對比來看多個任務性能超過GPT-4。在公司披露的技術文檔中，Gemini能夠實現圖標理解與格式轉換、基於圖片的多個問答、文生圖、圖片理解與推理、幾何問題求解、圖片資訊關聯、基於圖片以及提示詞的問答、梗圖理解、圖片邏輯解釋、代碼生成、數學問題求解、表格轉換及計算、複雜圖片生成、視頻理解等功能。

▍訓練方法：基於TPU v5e及v4訓練，數據集類型更為豐富。

Gemini的預訓練數據集使用來自web文檔、書籍和代碼的數據，包括圖像、音頻和視頻數據，並通過篩選、過濾方式去除有害數據，提升數據質量。硬體層面，採用了谷歌的TPU v5e及v4訓練，並針對任務進行優化，訓練的硬體規模相較上一代的PaLM-2顯著提升。後續來看，預計谷歌將繼續推出更高級的TPU v5p，進一步提升訓練效果。

▍後續展望：持續關注在谷歌體系內的導入進展，以及GPT-5等多模態模型進展。

谷歌在發布會上表示，目前，Gemini的初始版本已在Bard(12月6日)中提供，開發人員版本將於12月13日通過Google Cloud的API提供。根據谷歌的計劃， Bard 將使用 Gemini Pro 的微調版本進行更高級的推理、計劃、理解等。谷歌還將 Gemini 引入 Pixel，Pixel 8 Pro 是第一款搭載 Gemini Nano 的智慧手機。在接下來的幾個月裡，Gemini 將出現在谷歌體系內更多產品和服務中，如蒐索、廣告、Chrome 和 Duet AI。在當前的蒐索場景中，Gemini能夠降低大約40%的延遲。對整個產業來講，谷歌產品化、商業化的推進亦將帶來行業整體的變化，同時伴隨GPT-5等模型的推出，中信證券預計將看到：1）多模態模型帶來的算力需求增長以及 2）越來越多的AI場景與產品的出現。

▍風險因素：

AI核心技術發展不及預期風險；科技領域政策監管持續收緊風險；全球宏觀經濟復甦不及預期風險；宏觀經濟波動導致歐美企業IT支出不及預期風險；全球雲計算市場發展不及預期風險；企業數據洩露、資訊安全風險；行業競爭持續加劇風險等。

▍投資建議：

短期來看，Gemini的發佈將進一步帶來對多模態模型的更多期待，對產業而言，多模態料將帶動算力需求的提升；而在中長期來看，預計多模態模型的升級將豐富相關產品的使用場景，疊加硬體升級、算法優化帶來的成本優化，2C產品的進展值得期待。中信證券持續看好本輪生成式AI浪潮對科技產業的長週期影響和改變，繼續關注算力、算法、數據、應用等環節的領先廠商。

注：本文節選自中信證券研究部已於當日發佈的《晨會》報告，分析師：陳俊雲S1010517080001；賈凱方S1010522080001；許英博S1010510120041

聯系郵箱：0xniumao@gmail.com