5月14日上午消息,趕在Google I/O開(kāi)發(fā)者大會(huì)公布 AI 產(chǎn)品前夕,OpenAI又來(lái)?yè)岋L(fēng)頭了。
北京時(shí)間5月14日凌晨,OpenAI在一則簡(jiǎn)短的視頻介紹中發(fā)布了可實(shí)時(shí)進(jìn)行音頻、視覺(jué)和文本推理的新一代AI模型GPT-4o,并將推出PC桌面版ChatGPT。
據(jù)介紹,GPT-4o里的“o”是Omni的縮寫(xiě),也就是“全能”的意思。在API使用方面,相比去年11月發(fā)布的GPT-4-turbo,GPT-4o價(jià)格下降50%,速度提升200%,未來(lái)幾周內(nèi)GPT-4o語(yǔ)音和視頻輸入功能也將隨之推出。
此外,OpenAI還宣布,GPT4-o與ChatGPT Plus會(huì)員版所有的能力,包括視覺(jué)、聯(lián)網(wǎng)、記憶、執(zhí)行代碼、GPT Store等,將對(duì)所有用戶免費(fèi)開(kāi)放!
發(fā)布會(huì)上,OpenAI聯(lián)合創(chuàng)始人兼總裁格雷格·布羅克曼(Greg Brockman)還將舊版本只具備對(duì)話功能的ChatGPT,與基于GPT-4o發(fā)布的具備視覺(jué)能力的新版ChatGPT進(jìn)行了5分鐘的對(duì)話。
對(duì)話中,新版本ChatGPT不僅能通過(guò)視覺(jué)AI能力理解攝像頭中發(fā)生的事情,同時(shí)還能夠?qū)⒗斫獾膬?nèi)容通過(guò)語(yǔ)音與舊版本ChatGPT交互,進(jìn)行更加豐富有趣的互動(dòng)。同時(shí)還支持中途打斷和對(duì)話插入,且具備上下文記憶能力。
對(duì)于此次發(fā)布,OpenAI CEO薩姆·奧爾特曼(Sam Altman)發(fā)實(shí)時(shí)推文表示,“新的GPT-4o模型是OpenAI有史以來(lái)最好的模型,它很智能,速度很快,是原生多模態(tài),并且可供所有ChatGPT用戶使用,無(wú)論是免費(fèi)版本還是付費(fèi)GPT-4版!
“這對(duì)我們的使命很重要,我們希望將出色的AI工具交到每個(gè)人手中!彼_姆·奧爾特曼表示。
對(duì)于此次發(fā)布會(huì),此前外媒傳言O(shè)penAI會(huì)發(fā)布會(huì)新的智能搜索能力,但隨后出現(xiàn)反轉(zhuǎn)——稱“散布發(fā)布搜索產(chǎn)品系抓捕公司內(nèi)部泄密者”。此次發(fā)布會(huì),OpenAI沒(méi)有帶來(lái)新的AI搜索產(chǎn)品,而是在虛晃一槍后發(fā)布了升級(jí)后的GPT-4o。但除了新模型的性能提升外,OpenAI此次發(fā)布,在有了更多產(chǎn)品性能改進(jìn)之時(shí),也出現(xiàn)了一些問(wèn)題。
OpeanAI發(fā)布會(huì)后,便有業(yè)內(nèi)專家表示,“GPT-4o的多模態(tài)能力只是看起來(lái)很好,實(shí)際上OpenAI并未展示對(duì)于視覺(jué)多模態(tài)來(lái)說(shuō)真正算是突破的功能!贝送,在實(shí)時(shí)音頻交互方面,目前國(guó)內(nèi)諸如豆包、文心一言等產(chǎn)品也已具備類似通話功能。