北京時(shí)間12月12日晚間消息,谷歌今日發(fā)布了新一代AI大模型Gemini 2.0,標(biāo)志著向能夠獨(dú)立完成復(fù)雜任務(wù)的AI系統(tǒng)邁出了雄心勃勃的一步。同時(shí),Gemini 2.0還引入了原生圖像生成和多語(yǔ)言音頻功能,使得谷歌在日益激烈的AI競(jìng)爭(zhēng)中與OpenAI和Anthropic展開直接競(jìng)爭(zhēng)。
新版本的發(fā)布正值谷歌首次推出Gemini的一年后,也正處于AI開發(fā)的關(guān)鍵時(shí)刻。這些新的“代理”AI系統(tǒng)不僅可以響應(yīng)查詢,還可以理解微妙的上下文,提前規(guī)劃多個(gè)步驟,并代表用戶采取受監(jiān)督行動(dòng)。
谷歌的新AI助手將如何重塑日常數(shù)字生活?
在最近的一次新聞發(fā)布會(huì)上,Gemini產(chǎn)品管理總監(jiān)Tulsee Doshi概述了該系統(tǒng)的增強(qiáng)功能,同時(shí)展示了實(shí)時(shí)圖像生成和多語(yǔ)言對(duì)話。Doshi解釋說(shuō):“Gemini 2.0帶來(lái)了增強(qiáng)的性能和新的功能,如原生圖像和多語(yǔ)言音頻生成。它還具有原生智能工具的使用,這意味著它可以直接訪問(wèn)谷歌產(chǎn)品,如搜索,甚至執(zhí)行代碼!
最初的版本以Gemini 2.0 Flash為中心,這是一個(gè)實(shí)驗(yàn)版本,谷歌聲稱其運(yùn)行速度是其前身的兩倍,同時(shí)超越了一些強(qiáng)大模型的功能。這代表著一項(xiàng)重大的技術(shù)成就,因?yàn)橹暗乃俣忍嵘ǔJ且越档凸δ転榇鷥r(jià)的。
走進(jìn)新一代AI代理
也許最重要的是,谷歌推出了三個(gè)基于Gemini 2.0架構(gòu)的原型AI代理,展示了該公司對(duì)AI未來(lái)的愿景。Project Astra是一款升級(jí)后的通用AI助手,展示了它在訪問(wèn)谷歌工具和維護(hù)先前交互的上下文記憶的同時(shí),能夠跨多種語(yǔ)言保持復(fù)雜對(duì)話的能力。
谷歌DeepMind團(tuán)隊(duì)產(chǎn)品經(jīng)理Bibo Xu在現(xiàn)場(chǎng)演示中解釋說(shuō):“Project Astra現(xiàn)在有長(zhǎng)達(dá)10分鐘的會(huì)話記憶,可以記住你過(guò)去與它的對(duì)話,這樣你就可以獲得更有用、更個(gè)性化的體驗(yàn)!
該系統(tǒng)可以在各語(yǔ)言之間平穩(wěn)過(guò)渡,并通過(guò)谷歌搜索和地圖訪問(wèn)實(shí)時(shí)信息,顯示出了以前在消費(fèi)者AI產(chǎn)品中看不到的整合水平。
企業(yè)AI之戰(zhàn)愈演愈烈
對(duì)于開發(fā)人員和企業(yè)客戶,谷歌推出了Project Mariner和Jules,這兩款專門的AI代理旨在自動(dòng)化復(fù)雜的技術(shù)任務(wù)。作為Chrome擴(kuò)展程序演示的Project Mariner,在WebVoyager基準(zhǔn)測(cè)試中實(shí)現(xiàn)了令人印象深刻的83.5%的成功率,這比之前的自主Web導(dǎo)航嘗試有了顯著改進(jìn)。該WebVoyager基準(zhǔn)主要測(cè)試代理在端到端、真實(shí)世界的Web任務(wù)上的性能。
Google Labs產(chǎn)品管理總監(jiān)Jaclyn Konzelmann表示:“ Project Mariner是一個(gè)早期的研究原型,它探索了瀏覽網(wǎng)頁(yè)和采取行動(dòng)的代理能力。當(dāng)使用WebVoyager基準(zhǔn)進(jìn)行評(píng)估時(shí),Project Mariner取得了83.5%的令人印象深刻的成功率。”
定制硅:谷歌AI雄心背后的基礎(chǔ)設(shè)施
支持這些進(jìn)步的是Trillium,谷歌的第六代Tensor Processing Unit (TPU),如今已普遍可供云客戶使用。定制的AI加速器代表了對(duì)計(jì)算基礎(chǔ)設(shè)施的巨大投資,谷歌在單個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中部署了超過(guò)10萬(wàn)個(gè)Trillium芯片。
谷歌AI工作室和Gemini API團(tuán)隊(duì)的產(chǎn)品經(jīng)理Logan Kilpatrick在新聞發(fā)布會(huì)上強(qiáng)調(diào)了這項(xiàng)基礎(chǔ)設(shè)施投資的實(shí)際影響。Kilpatrick說(shuō):“閃存使用量的增長(zhǎng)超過(guò)了900%,這令人難以置信。你知道,在過(guò)去的幾個(gè)月里,我們已經(jīng)推出了六個(gè)實(shí)驗(yàn)?zāi)P,現(xiàn)在有數(shù)百萬(wàn)開發(fā)人員在使用Gemini!
未來(lái)之路:自主AI時(shí)代的安全問(wèn)題和競(jìng)爭(zhēng)
谷歌向自主代理的轉(zhuǎn)變,可能是自O(shè)penAI發(fā)布ChatGPT以來(lái)AI領(lǐng)域最重要的戰(zhàn)略轉(zhuǎn)折點(diǎn)。雖然競(jìng)爭(zhēng)對(duì)手一直專注于增強(qiáng)大型語(yǔ)言模型的能力,但谷歌認(rèn)為,未來(lái)屬于能夠主動(dòng)導(dǎo)航數(shù)字環(huán)境、并在最少的人為干預(yù)下完成復(fù)雜任務(wù)的AI系統(tǒng)。
這種能夠思考、計(jì)劃和行動(dòng)的AI代理的愿景,代表著與當(dāng)前響應(yīng)式AI助理模式的背離。這是一個(gè)有風(fēng)險(xiǎn)的賭注,因?yàn)樽灾飨到y(tǒng)可能帶來(lái)更大的安全問(wèn)題和技術(shù)挑戰(zhàn)。但如果成功,它可能會(huì)重塑競(jìng)爭(zhēng)格局。谷歌在定制硅和基礎(chǔ)設(shè)施方面的大規(guī)模投資表明,該公司準(zhǔn)備在這個(gè)新方向上積極競(jìng)爭(zhēng)。
然而,向更自主的AI系統(tǒng)的過(guò)渡引發(fā)了新的安全和倫理問(wèn)題。谷歌強(qiáng)調(diào)了其對(duì)負(fù)責(zé)任開發(fā)的承諾,包括與值得信賴的用戶進(jìn)行廣泛的測(cè)試和內(nèi)置的安全措施。谷歌還逐步推出這些功能的方法,從開發(fā)人員訪問(wèn)和值得信賴的測(cè)試人員開始,表明了對(duì)部署自主AI系統(tǒng)所涉及的潛在風(fēng)險(xiǎn)的認(rèn)識(shí)。
此次Gemini 2.0的發(fā)布正值谷歌面臨競(jìng)爭(zhēng)對(duì)手日益增加的壓力和對(duì)AI安全的嚴(yán)格審查的關(guān)鍵時(shí)刻。微軟和OpenAI今年在AI開發(fā)方面取得了重大進(jìn)展,而Anthropic等其他公司也在企業(yè)客戶中獲得了吸引力。
谷歌Gemini API集團(tuán)產(chǎn)品經(jīng)理Shrestha Basu Mallick在新聞發(fā)布會(huì)上強(qiáng)調(diào):“我們堅(jiān)信,構(gòu)建AI的唯一方法是從一開始就負(fù)責(zé)任。隨著我們推進(jìn)模型和代理,我們將繼續(xù)優(yōu)先考慮將安全和責(zé)任作為模型開發(fā)過(guò)程的關(guān)鍵要素。”
隨著這些系統(tǒng)在現(xiàn)實(shí)世界中采取行動(dòng)的能力越來(lái)越強(qiáng),它們可以從根本上重塑人們與技術(shù)的互動(dòng)方式。Gemini 2.0的成功不僅可以決定谷歌在AI市場(chǎng)的地位,還可以決定隨著行業(yè)向更自主的系統(tǒng)發(fā)展,AI發(fā)展的更廣泛軌跡。
一年前,當(dāng)谷歌推出Gemini的第一個(gè)版本時(shí),AI領(lǐng)域主要由聊天機(jī)器人(21.990, -0.01, -0.05%)主導(dǎo),這些機(jī)器人可以進(jìn)行聰明的對(duì)話,但在現(xiàn)實(shí)世界的任務(wù)中卻舉步維艱。現(xiàn)在,隨著AI代理開始朝著自主性邁出第一步,該行業(yè)正處于另一個(gè)轉(zhuǎn)折點(diǎn)。問(wèn)題不再是AI是否能理解我們,而是我們是否準(zhǔn)備好讓AI代表我們行事。谷歌正在押注,而且賭注很大。