2024 Google I/O大會(huì)回顧|反擊OpenAI!谷歌用力過(guò)猛,AI支配人類時(shí)刻已至?

編者按:OpenAI確實(shí)帶來(lái)了人工智能的“iPhone時(shí)刻”,而如今谷歌在AI時(shí)代,仍是“iPhone時(shí)刻”之后跟隨的Android……

在前一天晚上被OpenAI狠狠“截胡”的谷歌,在2024 I/O大會(huì)上,終于給出了有力的“回?fù)簟薄?/strong>

美國(guó)當(dāng)?shù)貢r(shí)間5月14日上午10點(diǎn)(北京時(shí)間5月15日凌晨1點(diǎn)),2024 Google I/O大會(huì)正式召開,本次大會(huì)的主題演講將圍繞人工智能展開,谷歌公布了Gemini AI的最新進(jìn)展,并圍繞谷歌核心業(yè)務(wù)和生成式人工智能的融合展開分享。不僅帶來(lái)了“進(jìn)階版”的Gemini Pro 1.5,還帶來(lái)了全面對(duì)標(biāo)Sora文生視頻大模型的Veo。

谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)在活動(dòng)現(xiàn)場(chǎng)表示,目前有超過(guò)1500萬(wàn)開發(fā)者在使用Gemini做開發(fā)。而Gemini最近三個(gè)月時(shí)間達(dá)到了100萬(wàn)訂閱用戶。

全新的Gemini大模型產(chǎn)品矩陣

首先,在本屆I/O大會(huì)上,谷歌宣布了多項(xiàng)技術(shù)能力的升級(jí)。

“進(jìn)階版”Gemini 1.5 Pro

I/O大會(huì)上,Gemini 1.5 Pro進(jìn)階版開放給開發(fā)者,進(jìn)階后,最大支持上下文窗口從100萬(wàn)Tokens升級(jí)到200萬(wàn),同時(shí)支持35種語(yǔ)言?,F(xiàn)在可以分析比以前更長(zhǎng)的文檔、代碼庫(kù)、視頻和音頻錄音。此外,Gemini 1.5 Pro還能夠?qū)崿F(xiàn)處理更加復(fù)雜和細(xì)微的指示,包括指定產(chǎn)品級(jí)行為的指示,如角色、格式和風(fēng)格等。

更高效率、更低時(shí)延Gemini 1.5 Flash

于此同時(shí),為了滿足用戶對(duì)低延遲和低成本的需求,谷歌首先帶來(lái)輕量化模型Gemini 1.5 Flash。它基于“蒸餾”技術(shù),專為大規(guī)模服務(wù)設(shè)計(jì),速度更快、成本低至0.35美元/百萬(wàn)Tokens。

Gemini 1.5 Flash依舊支持100萬(wàn)和200萬(wàn)Tokens兩個(gè)版本,適用于摘要、聊天應(yīng)用、圖像和視頻字幕、長(zhǎng)文檔和表格的數(shù)據(jù)提取等需要快速處理的任務(wù)。

為了反擊OpenAI,谷歌也在今日發(fā)布了多款多模態(tài)大模型,包括圖像大模型Image 3、視頻大模型Veo等。

Gemma大模型升級(jí),開源大模型陣營(yíng)再迎猛將

谷歌旗下開源大模型Gemma也在活動(dòng)中迎來(lái)了重大升級(jí)。谷歌表示,即將于6月上線的Gemma 2中引入一個(gè)全新的、擁有270億參數(shù)的模型。這是Gemma模型的下一代升級(jí),這個(gè)龐大的模型尺寸已經(jīng)由Nvidia進(jìn)行了優(yōu)化,確保它能夠在最新的GPU上順暢運(yùn)行,并且同樣在單個(gè)TPU主機(jī)和vertex AI平臺(tái)上表現(xiàn)出色。除了這一巨大的270億參數(shù)模型外,谷歌還計(jì)劃推出PaliGemma視覺語(yǔ)言開放模型,這將進(jìn)一步擴(kuò)展Gemma 2的功能和應(yīng)用范圍。

文生圖大模型Imagen 3

Imagen 3作為谷歌最新推出的文生圖大模型,進(jìn)一步增強(qiáng)了文本生成圖片的技術(shù)能力,與其前身Imagen 2相比,Imagen 3能夠更準(zhǔn)確地理解了它翻譯成圖像的文本提示,使得模型產(chǎn)生的“干擾性工件”和錯(cuò)誤更少,并且在生成方面更“富有創(chuàng)造性和細(xì)致”。谷歌還計(jì)劃很快將Imagen 3模型提供給使用谷歌企業(yè)生成式人工智能開發(fā)平臺(tái)Vertex AI的開發(fā)人員和企業(yè)客戶,以滿足更廣泛的用戶需求。

文生視頻大模型Veo

Veo是谷歌最新的視頻生成模型,正式對(duì)標(biāo)Sora。Veo集成了谷歌旗下大量視覺模型的特性,具備高級(jí)的自然語(yǔ)言和視覺語(yǔ)義理解能力,可以生成長(zhǎng)度超過(guò)1分鐘,分辨率最高1080P的“高質(zhì)量”視頻,并具有多種視覺和電影風(fēng)格。

教育模型LearnLM

針對(duì)于學(xué)習(xí)領(lǐng)域,谷歌還推出了LearnLM,這是一系列全新的用于學(xué)習(xí)領(lǐng)域的生成式AI模型。此舉不僅標(biāo)志著Google在AI教育領(lǐng)域的重大突破,同時(shí)也是對(duì)OpenAI近日針對(duì)教學(xué)輔導(dǎo)場(chǎng)景所展示能力的有力“回應(yīng)”。

LearnLM的誕生是Google DeepMind AI研究部門與谷歌研究部門深入合作的結(jié)晶。谷歌表示,LearnLM模型旨在通過(guò)“對(duì)話式”的方式,為學(xué)生提供個(gè)性化的學(xué)習(xí)指導(dǎo),幫助他們深入理解并掌握各種主題。這不僅將提升學(xué)生的學(xué)習(xí)效率,也將為他們帶來(lái)更加豐富和有趣的學(xué)習(xí)體驗(yàn)。

大模型賦能的產(chǎn)品與場(chǎng)景

大模型對(duì)話產(chǎn)品Gemini Live

在I/O大會(huì)上,谷歌發(fā)布了基于Gemini的對(duì)話式體驗(yàn)產(chǎn)品——Gemini Live,它允許用戶在智能手機(jī)上與Gemini進(jìn)行“深入”的語(yǔ)音聊天,用來(lái)反擊OpenAI日前的大模型對(duì)話演示。用戶可以在聊天機(jī)器人說(shuō)話時(shí)打斷Gemini提出澄清問(wèn)題,它將實(shí)時(shí)適應(yīng)用戶的語(yǔ)音模式。此外,Gemini還可以通過(guò)智能手機(jī)攝像頭捕捉的照片或視頻看到并回應(yīng)用戶的周圍環(huán)境。

在某種程度上,Gemini Live 是 Google Lens 和 Google Assistant 的演變,前者是谷歌長(zhǎng)期以來(lái)的計(jì)算機(jī)視覺平臺(tái),用于分析圖像和視頻,而后者是谷歌的人工智能驅(qū)動(dòng)的語(yǔ)音生成和識(shí)別虛擬助手,可在手機(jī)、智能音箱和電視上使用。

值得一題的是,Live 將專屬于 Gemini Advanced,其背后是谷歌One AI進(jìn)階計(jì)劃,價(jià)格為20美元/月。

首個(gè)AI Agent產(chǎn)品——Project Astra

作為谷歌首個(gè)AI Agent產(chǎn)品,也是推動(dòng)Gemini Live技術(shù)的創(chuàng)新部分,Project Astra旨在創(chuàng)建用于實(shí)時(shí)、多模態(tài)理解的人工智能應(yīng)用程序和智能體。

在多模態(tài)方面,基于全新的音頻概述功能,基于Gemini大模型打造的AI智能體,把多種內(nèi)容改造成互動(dòng)性的內(nèi)容。例如進(jìn)行沉浸式教育、智能填寫購(gòu)物表單、生成旅游規(guī)劃等。

有別于Gemini和其他特定任務(wù)模型,Astra通過(guò)持續(xù)編碼視頻幀、將視頻和語(yǔ)音輸入結(jié)合到事件時(shí)間線上,并緩存信息以便高效回憶,從而實(shí)現(xiàn)了對(duì)信息的快速處理。

現(xiàn)場(chǎng),谷歌不僅演示了基于手機(jī)攝像頭的實(shí)時(shí)交互技術(shù),同時(shí)還演示了利用類似于智能眼鏡的語(yǔ)音交互,為谷歌未來(lái)的空間計(jì)算交互打下基礎(chǔ)。

全新升級(jí)的AI搜索

谷歌正通過(guò)將Gemini大模型與其搜索引擎深度集成,預(yù)示著搜索正逐漸從用完即走的工具服務(wù),轉(zhuǎn)變?yōu)锳I智能體的入口?,F(xiàn)場(chǎng),谷歌演示了通過(guò)AI搜索定制個(gè)人計(jì)劃,例如“創(chuàng)建一個(gè)易于準(zhǔn)備的3天的健康食譜”,提升了搜索的實(shí)用性和便捷性。這些改動(dòng)不僅改變了搜索的呈現(xiàn)方式和服務(wù)體驗(yàn),還影響了廣告方式,用來(lái)應(yīng)對(duì)大模型技術(shù),對(duì)于搜索流量格局的影響。

基于同樣的技術(shù)底座,全新推出的Ask Photo應(yīng)用,結(jié)合谷歌Gemini,Google Photo能夠識(shí)別用戶對(duì)照片的深度問(wèn)題,并且智能匹配基于深度理解的圖片,讓照片搜索體驗(yàn)更智能、更簡(jiǎn)單。

深度融合大模型的Android 15

谷歌也在積極將AI技術(shù)融入安卓系統(tǒng),通過(guò)集成Gemini Nano這一Google生成式AI的最小版本,該功能將在未來(lái)版本的安卓系統(tǒng)中實(shí)現(xiàn)全面升級(jí)。Gemini Nano完全可在設(shè)備上運(yùn)行,實(shí)時(shí)監(jiān)聽“與詐騙常見的對(duì)話模式”。現(xiàn)場(chǎng)還演示了當(dāng)用戶收到不明詐騙電話時(shí),AI系統(tǒng)將自動(dòng)發(fā)出警報(bào),保障用戶免受詐騙風(fēng)險(xiǎn)??傊?,Gemini正在通過(guò)其強(qiáng)大的AI技術(shù),為安卓用戶帶來(lái)更加智能、便捷的使用體驗(yàn)。

同時(shí),谷歌還在安卓平臺(tái)上推出了一系列全新AI功能,如“Circle to Search”,它不僅能實(shí)現(xiàn)跨應(yīng)用搜索,還能解答數(shù)學(xué)題、圖表等復(fù)雜問(wèn)題。甚至可以在用戶的郵件App中進(jìn)行郵件總結(jié)、智能回復(fù)等操作。

此外,Gemini還具備多模態(tài)能力,用戶在與朋友的信息對(duì)話中可隨時(shí)召喚它生成圖片,或針對(duì)YouTube教程視頻、PDF文檔等提出特定問(wèn)題,Gemini將在數(shù)秒內(nèi)給出解答。

更強(qiáng)大的AI開發(fā)工具

Project IDX

Project IDX是谷歌新一代以 AI 為中心的基于瀏覽器的開發(fā)環(huán)境,并已正式公測(cè)。隨著這一更新,IDE將與谷歌地圖平臺(tái)集成,幫助為其應(yīng)用添加地理定位功能,并與Chrome Dev Tools和Lighthouse集成,幫助調(diào)試應(yīng)用程序。谷歌還將實(shí)現(xiàn)將應(yīng)用程序部署到Cloud Run,這是Google Cloud的無(wú)服務(wù)器平臺(tái),用于運(yùn)行前端和后端服務(wù)。

Firebase Genkit

作為這是 Firebase 平臺(tái)的一個(gè)新成員,旨在使開發(fā)人員更輕松地在 JavaScript/TypeScript 中構(gòu)建AI原生應(yīng)用程序,作為一個(gè)開源框架,采用Apache 2.0許可證,使開發(fā)人員能夠快速將AI集成到新應(yīng)用和現(xiàn)有應(yīng)用中。

性能提升4.7倍,第六代TPU——Trillium

除了AI軟件方面的升級(jí),谷歌還在本屆I/O大會(huì)上發(fā)布了第六代TPU——Trillium。據(jù)介紹Trillium TPU峰值計(jì)算性能較v5e高出4.7倍,同時(shí)實(shí)現(xiàn)了高帶寬內(nèi)存(HBM)和芯片間互連(ICI)帶寬的翻倍。這一突破性的技術(shù)配備第三代SparseCore加速器,可加速基礎(chǔ)模型的訓(xùn)練過(guò)程,同時(shí)降低延遲和成本。

在擴(kuò)展性方面,Trillium TPU支持單個(gè)集群擴(kuò)展到256個(gè)TPU,并可通過(guò)多切片技術(shù)和Titanium IPU進(jìn)一步擴(kuò)展至數(shù)百個(gè)集群。Trillium將優(yōu)先開放給云客戶用戶,以幫助他們實(shí)現(xiàn)AI超算效能的兩倍提升。

此外,谷歌還在大會(huì)上預(yù)告,將在2025年將提供英偉達(dá)Blackwell產(chǎn)品,為客戶提供更多選擇。

大模型之家觀點(diǎn)

在大模型之家看來(lái),OpenAI在人工智能領(lǐng)域的突破,無(wú)疑引領(lǐng)了一個(gè)全新的時(shí)代,堪稱人工智能的“iPhone時(shí)刻”。他們不僅推動(dòng)了技術(shù)的飛躍,更在用戶體驗(yàn)和產(chǎn)品設(shè)計(jì)上實(shí)現(xiàn)了革命性的創(chuàng)新。正如iPhone在智能手機(jī)領(lǐng)域開啟了全新的篇章,一直以來(lái)都以其精湛的工藝和前沿的設(shè)計(jì)理念,將科技與創(chuàng)新完美結(jié)合,改變了人們的生活方式。而在這一點(diǎn)上,OpenAI同樣表現(xiàn)出色,甚至可以說(shuō)在某些方面超越了谷歌。

與此同時(shí),谷歌雖然在科技領(lǐng)域擁有舉足輕重的地位,但在人工智能這一領(lǐng)域的“iPhone時(shí)刻”上,卻似乎略顯滯后。谷歌更像是“iPhone時(shí)刻”之后跟隨的Android,憑借其強(qiáng)大的技術(shù)實(shí)力和廣泛的生態(tài)系統(tǒng),為用戶提供了多樣化的選擇。然而,在引領(lǐng)行業(yè)變革和塑造用戶體驗(yàn)方面,谷歌似乎還需向OpenAI這樣的企業(yè)學(xué)習(xí)。

谷歌全面升級(jí)的大模型、AI應(yīng)用、以及開發(fā)工具中,AI搜索已經(jīng)從簡(jiǎn)單的回答進(jìn)化到能夠?yàn)橛脩糁贫ㄓ?jì)劃、滿足個(gè)性化需求、組織信息,乃至進(jìn)行視頻搜索,為用戶提供了前所未有的全面解決方案。用戶只需簡(jiǎn)單地提問(wèn),AI便能接手處理后續(xù)工作,實(shí)現(xiàn)了中間過(guò)程的極大簡(jiǎn)化。

然而,這一技術(shù)的飛躍也不免引起人們對(duì)“AI支配人類”的擔(dān)憂。當(dāng)AI在代辦過(guò)程中接觸到用戶的客戶資料、郵件、通訊錄等敏感信息時(shí),無(wú)疑對(duì)用戶的隱私安全構(gòu)成了潛在威脅。若AI的總結(jié)或代辦未能準(zhǔn)確反映郵件的真實(shí)訴求,甚至有意誤導(dǎo)用戶的決策,那么對(duì)實(shí)際的運(yùn)營(yíng)結(jié)果將產(chǎn)生嚴(yán)重后果。

雖然谷歌等服務(wù)提供商可能會(huì)建議用戶重新核實(shí)郵件等信息內(nèi)容,但頻繁地反復(fù)確認(rèn)不僅耗時(shí)耗力,而且與AI技術(shù)追求的高效便捷原則背道而馳。更令人擔(dān)憂的是,一些服務(wù)商在用戶協(xié)議中巧妙地規(guī)避了責(zé)任,使得用戶在遭遇AI誤導(dǎo)時(shí)往往難以追究責(zé)任。

因此,盡管谷歌的AI產(chǎn)品看似功能強(qiáng)大,但用戶在使用時(shí)仍需保持警惕,避免被AI所“支配”。在享受AI帶來(lái)的便利的同時(shí),我們也需要學(xué)會(huì)如何與AI共存,確保自身權(quán)益不受損害。最終,在AI時(shí)代,我們?nèi)孕枰3知?dú)立思考和判斷能力,以應(yīng)對(duì)可能出現(xiàn)的風(fēng)險(xiǎn)和挑戰(zhàn)。

(0)
上一篇 2024年5月14日 18:43
下一篇 2024年5月15日 10:12