123,123

北京時間12月12日晚間消息，谷歌今日發(fā)布了新一代AI大模型Gemini 2.0，標(biāo)志著向能夠獨立完成復(fù)雜任務(wù)的AI系統(tǒng)邁出了雄心勃勃的一步。同時，Gemini 2.0還引入了原生圖像生成和多語言音頻功能，使得谷歌在日益激烈的AI競爭中與OpenAI和Anthropic展開直接競爭。

新版本的發(fā)布正值谷歌首次推出Gemini的一年后，也正處于AI開發(fā)的關(guān)鍵時刻。這些新的“代理”AI系統(tǒng)不僅可以響應(yīng)查詢，還可以理解微妙的上下文，提前規(guī)劃多個步驟，并代表用戶采取受監(jiān)督行動。

谷歌的新AI助手將如何重塑日常數(shù)字生活？

在最近的一次新聞發(fā)布會上，Gemini產(chǎn)品管理總監(jiān)Tulsee Doshi概述了該系統(tǒng)的增強功能，同時展示了實時圖像生成和多語言對話。Doshi解釋說：“Gemini 2.0帶來了增強的性能和新的功能，如原生圖像和多語言音頻生成。它還具有原生智能工具的使用，這意味著它可以直接訪問谷歌產(chǎn)品，如搜索，甚至執(zhí)行代碼。”

最初的版本以Gemini 2.0 Flash為中心，這是一個實驗版本，谷歌聲稱其運行速度是其前身的兩倍，同時超越了一些強大模型的功能。這代表著一項重大的技術(shù)成就，因為之前的速度提升通常是以降低功能為代價的。

走進(jìn)新一代AI代理

也許最重要的是，谷歌推出了三個基于Gemini 2.0架構(gòu)的原型AI代理，展示了該公司對AI未來的愿景。Project Astra是一款升級后的通用AI助手，展示了它在訪問谷歌工具和維護(hù)先前交互的上下文記憶的同時，能夠跨多種語言保持復(fù)雜對話的能力。

谷歌DeepMind團隊產(chǎn)品經(jīng)理Bibo Xu在現(xiàn)場演示中解釋說：“Project Astra現(xiàn)在有長達(dá)10分鐘的會話記憶，可以記住你過去與它的對話，這樣你就可以獲得更有用、更個性化的體驗�！�

該系統(tǒng)可以在各語言之間平穩(wěn)過渡，并通過谷歌搜索和地圖訪問實時信息，顯示出了以前在消費者AI產(chǎn)品中看不到的整合水平。

企業(yè)AI之戰(zhàn)愈演愈烈

對于開發(fā)人員和企業(yè)客戶，谷歌推出了Project Mariner和Jules，這兩款專門的AI代理旨在自動化復(fù)雜的技術(shù)任務(wù)。作為Chrome擴展程序演示的Project Mariner，在WebVoyager基準(zhǔn)測試中實現(xiàn)了令人印象深刻的83.5%的成功率，這比之前的自主Web導(dǎo)航嘗試有了顯著改進(jìn)。該WebVoyager基準(zhǔn)主要測試代理在端到端、真實世界的Web任務(wù)上的性能。

Google Labs產(chǎn)品管理總監(jiān)Jaclyn Konzelmann表示：“ Project Mariner是一個早期的研究原型，它探索了瀏覽網(wǎng)頁和采取行動的代理能力。當(dāng)使用WebVoyager基準(zhǔn)進(jìn)行評估時，Project Mariner取得了83.5%的令人印象深刻的成功率。”

定制硅：谷歌AI雄心背后的基礎(chǔ)設(shè)施

支持這些進(jìn)步的是Trillium，谷歌的第六代Tensor Processing Unit （TPU），如今已普遍可供云客戶使用。定制的AI加速器代表了對計算基礎(chǔ)設(shè)施的巨大投資，谷歌在單個網(wǎng)絡(luò)結(jié)構(gòu)中部署了超過10萬個Trillium芯片。

谷歌AI工作室和Gemini API團隊的產(chǎn)品經(jīng)理Logan Kilpatrick在新聞發(fā)布會上強調(diào)了這項基礎(chǔ)設(shè)施投資的實際影響。Kilpatrick說：“閃存使用量的增長超過了900%，這令人難以置信。你知道，在過去的幾個月里，我們已經(jīng)推出了六個實驗?zāi)Ｐ�，現(xiàn)在有數(shù)百萬開發(fā)人員在使用Gemini�！�

未來之路：自主AI時代的安全問題和競爭

谷歌向自主代理的轉(zhuǎn)變，可能是自O(shè)penAI發(fā)布ChatGPT以來AI領(lǐng)域最重要的戰(zhàn)略轉(zhuǎn)折點。雖然競爭對手一直專注于增強大型語言模型的能力，但谷歌認(rèn)為，未來屬于能夠主動導(dǎo)航數(shù)字環(huán)境、并在最少的人為干預(yù)下完成復(fù)雜任務(wù)的AI系統(tǒng)。

這種能夠思考、計劃和行動的AI代理的愿景，代表著與當(dāng)前響應(yīng)式AI助理模式的背離。這是一個有風(fēng)險的賭注，因為自主系統(tǒng)可能帶來更大的安全問題和技術(shù)挑戰(zhàn)。但如果成功，它可能會重塑競爭格局。谷歌在定制硅和基礎(chǔ)設(shè)施方面的大規(guī)模投資表明，該公司準(zhǔn)備在這個新方向上積極競爭。

然而，向更自主的AI系統(tǒng)的過渡引發(fā)了新的安全和倫理問題。谷歌強調(diào)了其對負(fù)責(zé)任開發(fā)的承諾，包括與值得信賴的用戶進(jìn)行廣泛的測試和內(nèi)置的安全措施。谷歌還逐步推出這些功能的方法，從開發(fā)人員訪問和值得信賴的測試人員開始，表明了對部署自主AI系統(tǒng)所涉及的潛在風(fēng)險的認(rèn)識。

此次Gemini 2.0的發(fā)布正值谷歌面臨競爭對手日益增加的壓力和對AI安全的嚴(yán)格審查的關(guān)鍵時刻。微軟和OpenAI今年在AI開發(fā)方面取得了重大進(jìn)展，而Anthropic等其他公司也在企業(yè)客戶中獲得了吸引力。

谷歌Gemini API集團產(chǎn)品經(jīng)理Shrestha Basu Mallick在新聞發(fā)布會上強調(diào)：“我們堅信，構(gòu)建AI的唯一方法是從一開始就負(fù)責(zé)任。隨著我們推進(jìn)模型和代理，我們將繼續(xù)優(yōu)先考慮將安全和責(zé)任作為模型開發(fā)過程的關(guān)鍵要素。”

隨著這些系統(tǒng)在現(xiàn)實世界中采取行動的能力越來越強，它們可以從根本上重塑人們與技術(shù)的互動方式。Gemini 2.0的成功不僅可以決定谷歌在AI市場的地位，還可以決定隨著行業(yè)向更自主的系統(tǒng)發(fā)展，AI發(fā)展的更廣泛軌跡。

一年前，當(dāng)谷歌推出Gemini的第一個版本時，AI領(lǐng)域主要由聊天機器人(21.990, -0.01, -0.05%)主導(dǎo)，這些機器人可以進(jìn)行聰明的對話，但在現(xiàn)實世界的任務(wù)中卻舉步維艱�，F(xiàn)在，隨著AI代理開始朝著自主性邁出第一步，該行業(yè)正處于另一個轉(zhuǎn)折點。問題不再是AI是否能理解我們，而是我們是否準(zhǔn)備好讓AI代表我們行事。谷歌正在押注，而且賭注很大。

AI迎來轉(zhuǎn)折點：谷歌Gemini 2.0會成為自主AI的開始嗎？