掃一掃
下載數(shù)字化報(bào)APP
谷歌Gemini橫空出世,再次讓大家的目光聚焦在了多模態(tài)大模型上。
Gemini1.0號(hào)稱具有原生多模態(tài)能力,能夠處理視頻、音頻、圖像、文本和代碼等多種形式的內(nèi)容,且性能優(yōu)于現(xiàn)有的“拼接型”多模態(tài)大模型。從谷歌官方公布的技術(shù)文檔中的示例來看,Gemini不僅能夠進(jìn)行雙模態(tài)之間的轉(zhuǎn)換(如文生圖或文生視頻),亦能處理需要進(jìn)行多模態(tài)轉(zhuǎn)換的復(fù)雜任務(wù)。
多模態(tài)的意義在于,為AI應(yīng)用帶來了更多可能性,是通用人工智能(AGI)發(fā)展的關(guān)鍵。
從這個(gè)角度來看,Gemini上線是AI產(chǎn)業(yè)發(fā)展的里程碑事件,其代表的原生多模態(tài)大模型有望拓展大模型的應(yīng)用場(chǎng)景和邊界。國盛證券稱,Gemini的問世有望為業(yè)界貢獻(xiàn)大模型泛化能力的全新范式,加速AIGC向AIAgent的轉(zhuǎn)變。
而谷歌作為科技巨頭,擁有豐富的軟硬件生態(tài)。國海證券表示,如果谷歌將旗下產(chǎn)品全面接入Gemini,其搜索引擎和辦公軟件將能夠與微軟的NewBing及Microsoft 365 Copilot對(duì)壘;此外,谷歌亦有可能在搭載Android系統(tǒng)的移動(dòng)設(shè)備上推出類似于Windows Copilot的AI助手,充分發(fā)揮其在2C端的用戶優(yōu)勢(shì),順應(yīng)當(dāng)前AI手機(jī)的發(fā)展潮流。
▌多個(gè)多模態(tài)AI應(yīng)用驚艷亮相
最近已有多個(gè)多模態(tài)AI應(yīng)用驚艷亮相,包括爆火出圈的Pika,以及三大圖片轉(zhuǎn)視頻神器——阿里的Animate Anyone、字節(jié)跳動(dòng)的Magic Animate、微軟的GAIA。
對(duì)于Pika,大家已經(jīng)耳熟能詳,它是對(duì)標(biāo)Runway Gen-2的AI視頻生成平臺(tái),對(duì)于Animate Anyone和Magic Animate,《科創(chuàng)板日?qǐng)?bào)》此前已做過詳細(xì)報(bào)道。GAIA相關(guān)論文發(fā)布于11月26日,該AI工具的效果同樣出色,能讓一張人物肖像/照片“張嘴說話”,還附帶音頻。
另有多家科技公司在文生視頻領(lǐng)域取得新進(jìn)展:Meta發(fā)布工具Emu Video,能夠基于文本和圖像輸入生成視頻剪輯;Runway在Gen2中上線Motion Brush動(dòng)態(tài)筆刷功能,只需對(duì)著圖像任意位置一刷,就能讓靜止的一切物體動(dòng)起來;Stable AI推出Stable Video Diffusion,可以從圖像中生成高品質(zhì)的視頻剪輯。
開源證券表示,科技巨頭之間多模態(tài)大模型的競(jìng)爭(zhēng)日益激烈,同時(shí)驅(qū)動(dòng)著底層多模態(tài)大模型的能力不斷突破,疊加GPTs等AI應(yīng)用形式的出現(xiàn),AI應(yīng)用有望迎來快速增長期。
▌再次呼喚更多算力
多模態(tài)大模型的算力需求遠(yuǎn)高于純文本模態(tài)。以Gemini為例,其強(qiáng)大的多模態(tài)能力背后,是龐大的算力需求。雖然沒有正式公布,但根據(jù)內(nèi)部消息,Gemini有萬億參數(shù),訓(xùn)練所用的算力甚至達(dá)到GPT-4的五倍。
有別于傳統(tǒng)大模型對(duì)英偉達(dá)硬件及生態(tài)的依賴,Gemini訓(xùn)練所需的算力基于谷歌自研的TPU v4和v5e等硬件。在推出新模型的同時(shí),谷歌順勢(shì)宣布推出迄今為止功能最強(qiáng)大、最高效、可擴(kuò)展性最強(qiáng)的TPU系統(tǒng)Cloud TPU v5p,將用于開發(fā)更高層次的AI大模型。
其TPU v5p的訓(xùn)練性能是上一代TPU v4的2.8倍,內(nèi)存帶寬提升3倍,芯片間互聯(lián)帶寬翻倍,達(dá)到4.8Tbps,同時(shí),v5p單個(gè)POD中的芯片數(shù)量翻倍,達(dá)到8960顆。
民生證券認(rèn)為,谷歌作為自研算力新勢(shì)力,有望激化算力市場(chǎng)良性競(jìng)爭(zhēng),進(jìn)而降低算力使用成本。在海外互聯(lián)網(wǎng)巨頭AI模型軍備競(jìng)賽下算力基建產(chǎn)業(yè)鏈將持續(xù)受益。國盛證券也表示,谷歌作有望為算力供需雙方提供全新選項(xiàng),從供應(yīng)側(cè)看,有利于技術(shù)的良性競(jìng)爭(zhēng),從需求側(cè)看,充分的市場(chǎng)競(jìng)爭(zhēng)也有利于降低算力的使用成本。
另一方面,因Gemini Nano將登陸谷歌Pixel 8 Pro手機(jī),端側(cè)算力也受到重視。此前高通發(fā)布的報(bào)告顯示,未來AI推理的規(guī)模將遠(yuǎn)高于AI訓(xùn)練,推理成本將隨著日活用戶數(shù)量及其使用頻率的增加而增加,而云端推理的成本掌握在云廠商手中,這將導(dǎo)致規(guī)?;瘮U(kuò)展難以持續(xù),因此布署端側(cè)算力是生成式AI規(guī)?;瘮U(kuò)展至關(guān)重要的一步。
放眼全球AI產(chǎn)業(yè),OpenAI于11月份發(fā)布了GPT-4 Turbo且開放了GPTs,谷歌緊隨其后發(fā)布Gemini,表明人工智能巨頭在大模型領(lǐng)域的競(jìng)爭(zhēng)依然白熱化。
平安證券表示,在此背景下繼續(xù)看好AI算力需求的增長。國信證券也稱,ChatGPT外,繪圖、視頻等多類AI應(yīng)用陸續(xù)取得進(jìn)展,訓(xùn)練與后續(xù)推理需求持續(xù),算力基礎(chǔ)設(shè)施長期景氣度持續(xù)。
(來源金融界)未經(jīng)數(shù)字化報(bào)網(wǎng)授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
特別提醒:如內(nèi)容、圖片、視頻出現(xiàn)侵權(quán)問題,請(qǐng)發(fā)送郵箱:tousu_ts@sina.com。
風(fēng)險(xiǎn)提示:數(shù)字化報(bào)網(wǎng)呈現(xiàn)的所有信息僅作為學(xué)習(xí)分享,不構(gòu)成投資建議,一切投資操作信息不能作為投資依據(jù)。本網(wǎng)站所報(bào)道的文章資料、圖片、數(shù)據(jù)等信息來源于互聯(lián)網(wǎng),僅供參考使用,相關(guān)侵權(quán)責(zé)任由信息來源第三方承擔(dān)。
本文地址: http:///news/53307.shtml
數(shù)字化報(bào)(數(shù)字化商業(yè)報(bào)告)是國內(nèi)數(shù)字經(jīng)濟(jì)創(chuàng)新門戶網(wǎng)站,以數(shù)字技術(shù)創(chuàng)新發(fā)展為中心,融合數(shù)字經(jīng)濟(jì)和實(shí)體經(jīng)濟(jì)發(fā)展,聚焦制造業(yè)、服務(wù)業(yè)、農(nóng)業(yè)等產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型,致力為讀者提供最新、最權(quán)威、最全面的科技和數(shù)字領(lǐng)域資訊。數(shù)字化報(bào)并非新聞媒體,不提供新聞信息服務(wù),提供商業(yè)信息服務(wù);
商務(wù)合作:Hezuo@szhww.com
稿件投訴:help@szhww.com
Copyright ? 2013-2023 數(shù)字化報(bào)(數(shù)字化報(bào)商業(yè)報(bào)告)
數(shù)字化報(bào)并非新聞媒體,不提供新聞信息服務(wù),提供商業(yè)信息服務(wù)
浙ICP備2023000407號(hào)數(shù)字化報(bào)網(wǎng)(杭州)信息科技有限公司 版權(quán)所有浙公網(wǎng)安備 33012702000464號(hào)