首頁(yè)|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|芯片|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|大數(shù)據(jù)|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 人工智能 >> 正文

阿里通義千問(wèn)再放大招 多模態(tài)大模型迭代 加速改寫(xiě)AGI時(shí)間表

2025年8月20日 07:37  21世紀(jì)經(jīng)濟(jì)報(bào)道  

阿里通義千問(wèn)更新,再為多模態(tài)大模型賽道添了一把火。

8月19日,通義團(tuán)隊(duì)推出Qwen-Image-Edit,基于20B參數(shù)的Qwen-Image,專注于語(yǔ)義和外觀編輯,支持雙語(yǔ)文本修改、風(fēng)格遷移及物體旋轉(zhuǎn),進(jìn)一步拓展了生成式AI在專業(yè)內(nèi)容創(chuàng)作中的應(yīng)用。

短短半年內(nèi),阿里連續(xù)推出Qwen2.5-VL、Qwen2.5-Omni、Qwen-Image等多模態(tài)模型,而阿里之外,智譜、階躍星辰等大模型廠商也在密集布局,從視覺(jué)理解到全模態(tài)交互,多模態(tài)大模型在2025年明顯迭代加速。

業(yè)內(nèi)普遍認(rèn)為,當(dāng)前大模型的發(fā)展已經(jīng)從單一的語(yǔ)言模型邁向了多模態(tài)融合的新階段,這是通向AGI的必經(jīng)之路。

谷歌研究報(bào)告顯示,預(yù)計(jì)至2025年,全球多模態(tài)AI市場(chǎng)規(guī)模將飆升至24億美元,而到2037年底,這一數(shù)字更是預(yù)計(jì)將達(dá)到驚人的989億美元。

商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、首席科學(xué)家林達(dá)華在此前接受21世紀(jì)經(jīng)濟(jì)報(bào)道記者采訪時(shí)表示,未來(lái)的多模態(tài)模型甚至能在純語(yǔ)言任務(wù)上超越單一語(yǔ)言模型,而國(guó)內(nèi)廠商也在加速布局,2025年下半年或?qū)⒂瓉?lái)多模態(tài)模型的全面普及。

國(guó)內(nèi)廠商密集布局

2023年12月,谷歌原生多模態(tài)Gemini 1.0模型正式上線,一舉將AI競(jìng)賽由ChatGPT主導(dǎo)的文本領(lǐng)域帶入多模態(tài)領(lǐng)域。

人類的日常任務(wù)活動(dòng),天然涉及對(duì)文本、圖像、視頻、網(wǎng)頁(yè)等多模態(tài)信息的處理。從生產(chǎn)力工具到生產(chǎn)力,關(guān)鍵就在于多模態(tài)信息的輸入、處理與輸出能力。在大模型越來(lái)越強(qiáng)調(diào)落地應(yīng)用的當(dāng)下,多模態(tài)能力和低成本、強(qiáng)智能等特征一樣,成為了大模型的核心競(jìng)爭(zhēng)點(diǎn)。

而大廠也早已開(kāi)始了相關(guān)布局,阿里推出的Qwen2.5系列就在逐步強(qiáng)化多模態(tài)能力。

2025年,阿里開(kāi)源升級(jí)版視覺(jué)理解模型Qwen2.5-VL,72B版本在13項(xiàng)權(quán)威評(píng)測(cè)中視覺(jué)理解能力全面超越GPT-4o與Claude3.5;同期還發(fā)布了首個(gè)端到端全模態(tài)大模型Qwen2.5-Omni,支持文本、圖像、音頻、視頻的實(shí)時(shí)交互,可部署于手機(jī)等終端智能硬件。

8月,阿里又開(kāi)源全新的文生圖模型Qwen-Image,當(dāng)天即登上AI開(kāi)源社區(qū)Hugging Face的模型榜單首位,成為全球熱度最高的開(kāi)源模型。

此次發(fā)布的Qwen-Image-Edit是基于20B的Qwen-Image模型進(jìn)一步訓(xùn)練,將Qwen-Image的文本渲染能力延展至圖像編輯領(lǐng)域,實(shí)現(xiàn)了對(duì)圖片中文字的精準(zhǔn)編輯。

此外,Qwen-Image-Edit將輸入圖像同時(shí)輸入到Qwen2.5-VL(實(shí)現(xiàn)視覺(jué)語(yǔ)義控制)和VAE Encoder(實(shí)現(xiàn)視覺(jué)外觀控制),從而兼具語(yǔ)義與外觀的雙重編輯能力。

業(yè)內(nèi)評(píng)價(jià)稱,Qwen-Image-Edit在中文圖像編輯領(lǐng)域樹(shù)立了新標(biāo)桿,尤其適合需要高精度文本修改和創(chuàng)意設(shè)計(jì)的場(chǎng)景,可以進(jìn)一步降低專業(yè)圖像創(chuàng)作門(mén)檻。

積極布局多模態(tài)能力的廠商不只一家,近期模型迭代的速度也越來(lái)越快。

世界人工智能大會(huì)前夕,階躍星辰發(fā)布了新一代基礎(chǔ)大模型Step 3,原生支持多模態(tài)推理,具備視覺(jué)感知和復(fù)雜推理能力。階躍星辰Step系列基座模型矩陣中,多模態(tài)模型的占比達(dá)7成。此外,階躍星辰還連續(xù)開(kāi)源語(yǔ)音、視頻生成、圖像編輯等多個(gè)多模態(tài)大模型。

同樣是在人工智能大會(huì)上,商湯發(fā)布了日日新V6.5大模型,進(jìn)行了模型架構(gòu)改進(jìn)和成本優(yōu)化,多模態(tài)推理與交互性能大幅提升。商湯從日日新6.0開(kāi)始,就沒(méi)有語(yǔ)言模型單獨(dú)的存在,全部都是多模態(tài)模型。

8月,智譜也宣布推出開(kāi)源視覺(jué)推理模型GLM-4.5V,并同步在魔搭社區(qū)與Hugging Face開(kāi)源,涵蓋圖像、視頻、文檔理解以及GUIAgent等常見(jiàn)任務(wù)。

8月11日至15日,昆侖萬(wàn)維(36.860, -0.28, -0.75%)(維權(quán))則在一周內(nèi)連續(xù)發(fā)布了六款多模態(tài)模型,覆蓋了數(shù)字人(15.250, 0.17, 1.13%)生成、世界模擬、統(tǒng)一多模態(tài)理解等核心場(chǎng)景。

這些全方位的開(kāi)源攻勢(shì)明顯旨在快速占領(lǐng)開(kāi)發(fā)者心智,建立各自產(chǎn)品在多模態(tài)領(lǐng)域的全面影響力。在當(dāng)下這個(gè)節(jié)點(diǎn),多模態(tài)的競(jìng)爭(zhēng)還不算太晚。

仍處于發(fā)展初期

如果想要構(gòu)建通用人工智能(AGI)和強(qiáng)大的AI系統(tǒng),多模態(tài)的能力必不可少。

“從智能的本質(zhì)來(lái)說(shuō),需要對(duì)各種模態(tài)的信息進(jìn)行跨模態(tài)的關(guān)聯(lián)。”林達(dá)華向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示。

在這方面,中國(guó)科技公司速度很快。一個(gè)顯著的變化是,中國(guó)企業(yè)在多模態(tài)領(lǐng)域的集體崛起已經(jīng)改變了長(zhǎng)期以來(lái)由OpenAI、Google等西方巨頭主導(dǎo)的AI創(chuàng)新敘事,在視覺(jué)推理、視頻生成等多個(gè)細(xì)分領(lǐng)域排在權(quán)威榜單的前列。

技術(shù)推進(jìn)加速落地應(yīng)用。2025年被業(yè)內(nèi)人士普遍視為“AI應(yīng)用商業(yè)化元年”,而多模態(tài)技術(shù)正是這一趨勢(shì)的核心驅(qū)動(dòng)力(10.170, 0.15, 1.50%),數(shù)字人直播、醫(yī)療診斷、金融分析等等場(chǎng)景已經(jīng)有多模態(tài)大模型應(yīng)用其中。

但從技術(shù)的角度來(lái)看,多模態(tài)領(lǐng)域還有很大的發(fā)展空間,尤其是對(duì)比文本領(lǐng)域。

“當(dāng)前文本領(lǐng)域已從GPT范式的1.0走到了強(qiáng)化學(xué)習(xí)范式下的2.0,部分研究者已開(kāi)始探索下一代范式如自主學(xué)習(xí)。相比之下,多模態(tài)領(lǐng)域仍處于發(fā)展初期,諸多基礎(chǔ)性問(wèn)題尚未解決!彪A躍星辰創(chuàng)始人、CEO姜大昕向21世紀(jì)經(jīng)濟(jì)報(bào)道記者表示,“這些挑戰(zhàn)不僅存在于國(guó)內(nèi)研究,國(guó)際領(lǐng)先模型同樣未能攻克!

多模態(tài)技術(shù)面臨的瓶頸,其復(fù)雜性遠(yuǎn)超自然語(yǔ)言處理。首先,在表征復(fù)雜度方面,文本作為離散符號(hào)系統(tǒng),其表征空間通常僅為數(shù)萬(wàn)維度,這對(duì)計(jì)算機(jī)處理而言屬于低維問(wèn)題。而視覺(jué)數(shù)據(jù)以1024×1024分辨率的圖像為例,其表征空間即達(dá)到百萬(wàn)維度的連續(xù)空間,兩者在表征難度上存在本質(zhì)差異。

其次,在語(yǔ)義閉環(huán)性方面,文本系統(tǒng)具有天然的語(yǔ)義自閉環(huán)特性,其語(yǔ)義表達(dá)與表征空間完全統(tǒng)一。相比之下,視覺(jué)數(shù)據(jù)作為自然存在的物理空間表征,其本身并不包含語(yǔ)義信息。要實(shí)現(xiàn)視覺(jué)與文本語(yǔ)義空間的對(duì)齊,必須建立跨模態(tài)的映射關(guān)系,而這一映射缺乏天然的標(biāo)注數(shù)據(jù)支持。

“這些導(dǎo)致了多模態(tài)領(lǐng)域的發(fā)展還是面臨非常大的挑戰(zhàn),還是需要幾次像ChatGPT、強(qiáng)化學(xué)習(xí)范式這樣的大技術(shù)變遷才能解決!苯箨肯蛴浾弑硎尽

此外,雖然很多模型已經(jīng)在具體場(chǎng)景中實(shí)現(xiàn)落地應(yīng)用,但距離真正實(shí)現(xiàn)AGI還有較為漫長(zhǎng)的路要走。

主流的多模態(tài)模型通過(guò)視覺(jué)編碼器與語(yǔ)言模型的前后結(jié)合,但是后續(xù)的思考推理過(guò)程還是主要依賴純語(yǔ)言的推理,因此,當(dāng)前多模態(tài)模型對(duì)于圖形和空間結(jié)構(gòu)的推理能力還很薄弱。林達(dá)華向記者舉例稱,國(guó)際頂尖多模態(tài)模型,在面對(duì)諸如積木拼接等簡(jiǎn)單空間問(wèn)題時(shí),也無(wú)法準(zhǔn)確判斷積木的組成數(shù)量以及各部分之間的連接關(guān)系,而這些問(wèn)題對(duì)于幾歲的兒童來(lái)說(shuō)卻是輕而易舉的。

“這表明當(dāng)前多模態(tài)模型的思維方式主要依賴于邏輯推理,缺乏較強(qiáng)的空間感知能力。若這一問(wèn)題得不到突破,未來(lái)將成為具身智能落地的重要障礙!绷诌_(dá)華向記者表示。

隨著技術(shù)不斷成熟和生態(tài)持續(xù)完善,多模態(tài)能力將成為AI系統(tǒng)的標(biāo)配,而如何將這種能力轉(zhuǎn)化為實(shí)際生產(chǎn)力和社會(huì)價(jià)值,將是產(chǎn)業(yè)界下一步需要重點(diǎn)探索的方向。

(作者:董靜怡 編輯:包芳鳴)

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦新聞              
 
人物
中國(guó)電信柯瑞文:星辰智惠 共治共享
精彩視頻
“移起向新 數(shù)智興農(nóng)” 廣西媒體行
現(xiàn)場(chǎng)直擊2025世界人形機(jī)器人運(yùn)動(dòng)會(huì)
機(jī)器人也太會(huì)整活了!跟隨中國(guó)聯(lián)通,打卡國(guó)家速滑館“冰絲帶”
華為史振鈺:智能體從辦公走向生產(chǎn),AI成為生產(chǎn)力
精彩專題
2025世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議
2025中國(guó)聯(lián)通合作伙伴大會(huì)
2025 MWC 上海
2025工業(yè)互聯(lián)網(wǎng)大會(huì)
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像