谷歌Gemini開啟原生多模態大模型新時代(附股)



谷歌Gemini開啟原生多模態大模型新時代(附股)插图1

12月6日,谷歌發佈大模型Gemini 1.0,並在技術報告中聲稱其Ultra版在絕大部分測試中優於GPT-4。

(1)Gemini Ultra,對標GPT-4,主要用於數據中心,在32項基準測試中30項優於GPT-4,絕大部分文本和推理測試中略勝於GPT-4,在幾乎所有多模態(圖像、視頻、音頻)任務中

略勝於GPT-4V。預計2024年初可以通過Bard的高級版訪問。

(2)Gemini Pro,對標GPT3.5,在8項基準測試中6項優於GPT3.5,適用於廣泛的任務,目前已部署在Bard(僅支持文本),開發者和企業客戶12月13日可以通過Google AI Studio或Google Cloud Vertex AI訪問Gemini Pro。

(3)Gemini Nano,支持在安卓設備上本地離線訪問,目前已在Pixel 8 Pro上部署,可以實現文本摘要、上下文智慧回復、語法糾正等功能,在Gemini Nano支持下,Pixel 8 Pro可以在沒有網路連接的情況下總結錄音內容。    

谷歌Gemini開啟原生多模態大模型新時代(附股)插图3

目前創建多模態模型時,往往分別訓練不同模態的模型並加以拼接。OpenAI就是單獨訓練了支持圖像和語言的模型DALL-E和Whisper。而Gemini為原生多模態大模型,由多模態數據集訓練而來,一開始就在不同模態上進行預訓練,可以處理跨文本、圖像、音頻、視頻和代碼的複雜任務,因此能夠對輸入的各模態內容順暢地理解和推理,效果較優。

多模態能力將是未來大模型廠商技術發展重點,谷歌、OpenAI、Adobe等巨頭紛紛發力多模態,人工智慧有望加速邁進“通感”時代,應用場景和生態也將進一步豐富。    

谷歌Gemini開啟原生多模態大模型新時代(附股)插图5

A股多模態相關概念股有約40只,受Gemini發佈的影響,近期表現搶眼。

網達軟體(603189.SH)拿下6天4板,公司稱促進AI技術在視頻圖像領域的應用,可對媒資內容進行視頻結構化分析,實現自動打點、自動標注、自動快剪、自動人物集錦等功能,以減少了人工標注的工作量。此外,參股公司上海蛙色產品可以實現AI摳圖生成嵌入視頻/圖文,位置匹配系統可實現多模態動態交互,打造科技創意效果。

因賽集團(300781.SZ)近6天內收穫3次20%漲停,公司基於各類第三方大型模型和自研營銷領域專用的AIGC多模態模型,實現文本、圖片、視頻等多種形式的智能化內容生成,並應用於智慧策劃、文案撰寫、平面設計、視頻製作等具體的業務場景。

秀克州科達(603660.SH)兩連板,公司是網路視頻會議和網路安防領域龍頭,推出了著眼於安防行業實際應用場景的大模型KD-GPT,包括多模態大模型、AIGC圖像大模型和行業大模型已經初具雛形,並開始在實際專案中投入應用

聲訊股份(003004.SZ):公司在多源多模態算法和模型上有長期的積累,在沉澱多年的行業大數據基礎上,經過長期訓練形成了安防、檢領域的行業化智慧應用。公司在安防、安檢類的數據,如視頻數據、音頻數據、報警圖像數據、X光成像數據等方面,有著豐富的大數據基礎,形成了安防與安檢千萬級的可見光視頻圖像數據、光圖像數據以及其他結構光的圖像數據。   


聯系郵箱:0xniumao@gmail.com