123,123

有圖像視頻業(yè)務(wù)傍身的互聯(lián)網(wǎng)企業(yè)，加速奔向大模型。近日，快手正式上線視頻大模型“可靈”并開始邀測，用戶輸入一段文字即可生成視頻。美圖宣布將在7月底上線新品MOKI，該產(chǎn)品基于美圖奇想大模型的視頻生成能力，可幫助用戶生成AI短片。不論是做視頻還是做短片，都是通過大模型輔助用戶創(chuàng)作，契合自己的主營業(yè)務(wù)。目前，獲得內(nèi)測資格的用戶可以免費使用可靈，其他AI功能以限時免費、限次免費等方式向用戶開放。美圖相關(guān)人士并未透露KOMI的變現(xiàn)計劃，但付費會員、單次付費等變現(xiàn)模式已是美圖成熟的商業(yè)模式。

不約而同

“今天你‘可靈’了嗎？”6月12日晚間，快手通過官方公眾號向用戶“安利”自家的視頻生成大模型“可靈”。為了證明實力，快手不光拿出一條由快手可靈生成的一分鐘預(yù)告片，還放出一系列首批獲得測試資格的創(chuàng)作者生成的視頻，如一朵花綻放的過程、復(fù)活成語故事《對牛彈琴》等。

打開快手的視頻剪輯App快影，進入主頁的“AI玩法”，再點擊“AI生成視頻”模塊填寫問卷，即可以申請免費的內(nèi)測資格。根據(jù)內(nèi)測網(wǎng)友提供的信息，用戶可以輸入一段200字以內(nèi)的文字描述，自行選擇超現(xiàn)實主義、極簡等風(fēng)格，再等待約3分鐘，就能看到由可靈生成的一段5秒視頻。

來自快手的最新數(shù)據(jù)顯示，截至目前，在快影App上申請文生視頻內(nèi)測資格的人數(shù)已超6萬，圖生視頻功能將于近期上線。

同樣瞄準(zhǔn)視頻大模型出手的還有美圖�！澳壳笆袌錾系腁I視頻產(chǎn)品傾向于提供文生視頻等能力，我們認(rèn)為只有深度理解創(chuàng)作者的需求，提煉有共性的視頻場景，才能打造輔助內(nèi)容創(chuàng)作的工具�！泵缊D創(chuàng)始人吳欣鴻談到MOKI時說，“MOKI聚焦于AI短片創(chuàng)作，專注于動畫短片、網(wǎng)文短劇、故事繪本和MV等視頻場景�！�

具體的工作流程是：在腳本、視覺風(fēng)格、角色等前期設(shè)定完成后，AI自動生成分鏡圖并轉(zhuǎn)為視頻素材，通過智能剪輯、AI配樂、AI音效、自動字幕等功能串聯(lián)素材并實現(xiàn)成片。MOKI的上述能力即基于美圖奇想大模型。

熱度升溫

除了快手、美圖，近日視頻生成的網(wǎng)紅應(yīng)用Pika、聯(lián)合清華大學(xué)發(fā)布視頻大模型Vidu的生數(shù)科技，也為視頻大模型賽道添了一把柴。

Pika不久前通過官網(wǎng)宣布，Pika已完成總額8000萬美元的B輪融資，由Spark Capital領(lǐng)投，Greycroft、Lightspeed Venture Partners以及Jared Leto參投。Pika團隊表示，這一輪融資將加快公司構(gòu)建最佳視頻模型的進程，同時幫助公司聘用優(yōu)秀的人才。

成立于2023年4月，爆火于2023年11月，早在Sora出世前，Pika就依靠AI生成和編輯3D動畫、動漫等多種風(fēng)格的視頻，成為網(wǎng)紅應(yīng)用。

生數(shù)科技僅比Pika早成立一個月，主要業(yè)務(wù)集中在圖像、3D、視頻等原生多模態(tài)大模型的研發(fā)。2024年4月，生數(shù)科技聯(lián)合清華大學(xué)發(fā)布的視頻大模型Vidu，支持一鍵生成16秒、分辨率1080P的高清視頻內(nèi)容。

6月初，生數(shù)科技宣布，已完成數(shù)億元Pre-A輪融資，由百度、北京市人工智能產(chǎn)業(yè)投資基金領(lǐng)投，此前這家創(chuàng)業(yè)公司還獲得了來自螞蟻集團、智譜AI等的投資。生數(shù)科技稱，將在本輪融資完成后堅持其原生通用多模態(tài)技術(shù)路線，持續(xù)迭代優(yōu)化自研大模型，并加速產(chǎn)品開發(fā)與市場拓展。

“近期視頻大模型活躍，說明大模型最早形成的一些技術(shù)壁壘在被打破�！蔽臏Y智庫創(chuàng)始人王超告訴北京商報記者，“我認(rèn)為能超過GPT-4的中國大模型可能在年中就會出現(xiàn)。中國的算力、能源和人才，支持著中國大模型持續(xù)追趕�！�

談及視頻大模型的門檻，中經(jīng)傳媒智庫專家張書樂向北京商報記者表示，“視頻生成不是將一堆AI繪畫連在一起變成動畫片，除了考慮形象一致、符合描述、光影分割、分鏡表現(xiàn)等，還要具有對劇情的理解能力、再創(chuàng)造能力，這些都需要對視頻結(jié)構(gòu)、內(nèi)容解析等多個垂直領(lǐng)域進行深度學(xué)習(xí)，難度高于聊天、繪畫或棋類等靠主要數(shù)據(jù)堆積和用戶糾錯完成的功能”。

跟著業(yè)務(wù)走

2022年底OpenAI的ChatGPT讓國內(nèi)科技巨頭在生成式大模型賽道扎堆，且大多瞄準(zhǔn)對話式互動形式，2024年OpenAI又推出文生視頻模型Sora。和一擁而上的大語言模型競爭相比，在視頻大模型領(lǐng)域比拼的主角更多是圖像視頻類互聯(lián)網(wǎng)公司。

站在技術(shù)的角度，王超認(rèn)為，“這兩種大模型雖然都是AGI（通用人工智能），但技術(shù)路線不同，OpenAI兩個都做，但不是每個企業(yè)都有這樣的能力”。

在視頻大模型賽道，“快手和美圖的最大優(yōu)勢在于用戶積累、算法和數(shù)據(jù)處理等方面的經(jīng)驗”，深度科技研究院院長張孝榮表示。

張書樂的看法是，“快手、美圖擁有可以讓人工智能深度學(xué)習(xí)的‘學(xué)習(xí)資料’，且可以規(guī)避一定的版權(quán)問題。這兩家企業(yè)在視頻領(lǐng)域的內(nèi)容積累、垂直細分的標(biāo)簽標(biāo)注，能讓大模型更好地‘檢索’知識”。

不過第三方觀察者也提醒，做視頻大模型的難度比大語言模型更高，前景還不明確，“這是沒多少國內(nèi)大模型創(chuàng)業(yè)公司進入視頻大模型賽道的原因，連巨頭都沒那么積極”，王超說。“視頻大模型的變現(xiàn)比大語言模型困難。”張孝榮補充。

快手和美圖正通過各種手段吸引更多用戶使用AI，并尋找AI變現(xiàn)的路徑。以快影的AI創(chuàng)作功能為例，快影向用戶提供AI舞王、AI小說轉(zhuǎn)漫畫、AI變裝、AI頭像壁紙等十幾種服務(wù)，其中AI舞王提供免費5次的使用機會、AI變裝限時免費、AI小說轉(zhuǎn)漫畫是VIP會員的權(quán)益。

美圖相關(guān)人士并未向北京商報記者透露MOKI可能的變現(xiàn)模式，但吳欣鴻在介紹美圖新品時多次提到產(chǎn)品的商業(yè)化數(shù)據(jù)，在他看來，“如果AI幫用戶創(chuàng)收，用戶是很愿意為能創(chuàng)造價值的AI產(chǎn)品付費的”。

視頻大模型 快手美圖殊途同歸

視頻大模型快手美圖殊途同歸