蘋果公司(AAPL.US)WWDC開發(fā)者大會上推出了名為Apple Intelligence的AI產(chǎn)品,然而當(dāng)日股價收盤跌1.91%。有趣的是,6月11日Wind數(shù)據(jù)中的Sora指數(shù)(8841756.WI)漲1.55%。
為什么會有這樣的區(qū)別?
蘋果選擇了避開當(dāng)下正熱的視頻大模型,推出的AI相關(guān)更新更多側(cè)重文字領(lǐng)域,而國內(nèi)概念股的漲幅與近期文生視頻大模型熱度又起緊密相關(guān)。國外如明星AI視頻生成公司Pika完成新一輪融資,總額8000萬美元的B輪融資后,公司估值將超過4.7億美元。國內(nèi)如快手(1024.HK)“可靈”視頻生成大模型正式上線,采用了與Sora相似的技術(shù)路線。
在多位行業(yè)人士看來,蘋果聚焦AI文字而非視頻領(lǐng)域的整合,更多出于成本與實用性等方面的考量。
蘋果避開Sora“戰(zhàn)局”
蘋果推出的內(nèi)置大語言模型可讓iPhone、iPad和Mac理解并生成語言和圖像。Siri通過接入ChatGPT,具有了語義檢索功能,可以智能搜索照片、日歷、文件和郵件等內(nèi)容,還可以免注冊使用大部分ChatGPT的功能。
天風(fēng)國際證券分析師郭明錤發(fā)布簡評稱,蘋果新發(fā)布的Apple Intelligence套件展現(xiàn)了生態(tài)整合與界面設(shè)計優(yōu)勢,對使用者很實用,但對投資人只是錦上添花,后者期待看到原創(chuàng)且非用不可的功能。
面壁智能首席研究員韓旭對記者表示,從接入操作系統(tǒng)的角度來看,蘋果主要需要AI來理解人的意圖和調(diào)用系統(tǒng)層面的接口,這些需求和Sora的出發(fā)點不完全一致,但與多模態(tài)輸入文本輸出的大模型較為匹配。Sora這類生成圖片或視頻的模型,目前還是和軟件尤其是視覺處理軟件結(jié)合比較合適。
為什么蘋果沒有加入Sora的“戰(zhàn)局”?
一位AIGC視頻應(yīng)用廠商人員對記者表示,從產(chǎn)品思維和經(jīng)營角度來講,蘋果只會落地相對比較成熟,且投入產(chǎn)出比能見度更加可觀的領(lǐng)域。在手機硬件交互的層面,文字的使用場景更多,從研發(fā)投入到實際推理成本方面來講,該領(lǐng)域?qū)μO果目前的技術(shù)積累而言也相對更有性價比。
另一位行業(yè)技術(shù)人員表示,今天的LLM服務(wù)(大型語言模型服務(wù))在文字領(lǐng)域基本實現(xiàn)保本,文生圖領(lǐng)域不一定,文生視頻領(lǐng)域一定會虧損。這也是這次蘋果WWDC大會暫時沒有整合視頻AIGC能力的重要原因。
相對于蘋果公司的動作,國內(nèi)大模型賽道目前對視頻領(lǐng)域寄予厚望。今年4月,清華大學(xué)人工智能研究院副院長、生數(shù)科技聯(lián)合創(chuàng)始人兼首席科學(xué)家朱軍教授代表清華大學(xué)與生數(shù)科技,發(fā)布中國首個視頻大模型Vidu,不久前,快手上線的視頻大模型“可靈”也引發(fā)了一定程度的熱議。
記者將Sora代表視頻文案作為提示詞,輸入快手“可靈”,進行生成視頻對比,以“東京街頭女郎漫步”為例,當(dāng)時Sora視頻存在女郎走路過程中存在腿部變形、腿部交叉換位時錯亂、右腿連續(xù)兩次在前方邁步等錯誤。快手“可靈”也存在類似問題。
天風(fēng)證券認(rèn)為,快手3D VAE+DiT架構(gòu)對算力、模型和數(shù)據(jù)質(zhì)量的提升已展現(xiàn)出能夠?qū)崿F(xiàn)商用的結(jié)果,同時時長、比例的自定義使得生成素材的可用性大幅加強,盡管在一些復(fù)雜語義理解上遜色于Sora,但在稍簡單的場景下已差距不大。
多模態(tài)成中國大模型賽道機會
一個優(yōu)秀的視頻生成模型需要考慮四大核心要素——模型設(shè)計、數(shù)據(jù)保障、計算效率,以及模型能力的擴展。
針對Sora存在的不成熟之處,OpenAI曾表示,Sora可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理,可能無法理解因果關(guān)系,可能混淆提示的空間細(xì)節(jié),可能難以精確描述隨著時間推移發(fā)生的事件,如遵循特定的相機軌跡等。
但這更像是一個普遍存在的問題。愛詩科技創(chuàng)始人王長虎此前表示,目前的視頻大模型都是直接從視頻數(shù)據(jù)里學(xué)習(xí)物理知識,但真實視頻中往往包含很多信息,很難分別把每個物理規(guī)律精確地學(xué)習(xí)好。在給模型輸入視覺畫面的同時,單獨加入人手、動物尾巴等3D建模信息作為約束,可以輔助大模型學(xué)習(xí),也能優(yōu)化效果。
可靈大模型采用的是原生文生視頻技術(shù)路線,替代了圖像生成+時序模塊的組合。目前,在隱空間編/解碼上,主流的視頻生成模型通常采用Stable Diffusion的2D VAE進行空間壓縮,但這對于視頻而言存在明顯的信息冗余。因此,快手大模型團隊自研了3D VAE網(wǎng)絡(luò),試圖尋找訓(xùn)練性能和效果之間的平衡。另外在時序信息建模上,快手大模型團隊設(shè)計了一款全注意力機制(3D Attention)作為時空建模模塊。
生數(shù)科技CEO唐家渝提到,多模態(tài)大模型的研究仍處于起步階段,技術(shù)成熟度還不高。這一點不同于火熱的語言模型,國外已經(jīng)領(lǐng)先了一個時代。因此,相比于在語言模型上“卷”,唐家渝認(rèn)為多模態(tài)更是國內(nèi)團隊搶占大模型賽道的一個重要機會。這一點與啟明創(chuàng)投合伙人周志峰有相同之處,他也認(rèn)為如今的大模型已從原來的純語言模態(tài)逐步走向多模態(tài)的探索。
北京智源人工智能研究院副院長兼總工程師林詠華對第一財經(jīng)記者表示,中國在多模態(tài)領(lǐng)域彎道超車是有一定可能性的,但多模態(tài)模型的成功要素依然是算力、算法和數(shù)據(jù)。目前算法層面,中美團隊之間差異沒有那么大,行業(yè)也仍有辦法去解決算力問題,但要獲取海量高質(zhì)量數(shù)據(jù),依然難度很大。