2024 Google I/O大會(huì )回顧|反擊OpenAI!谷歌用力過(guò)猛,AI支配人類(lèi)時(shí)刻已至?

編者按:OpenAI確實(shí)帶來(lái)了人工智能的“iPhone時(shí)刻”,而如今谷歌在A(yíng)I時(shí)代,仍是“iPhone時(shí)刻”之后跟隨的Android……

在前一天晚上被OpenAI狠狠“截胡”的谷歌,在2024 I/O大會(huì )上,終于給出了有力的“回擊”。

美國當地時(shí)間5月14日上午10點(diǎn)(北京時(shí)間5月15日凌晨1點(diǎn)),2024 Google I/O大會(huì )正式召開(kāi),本次大會(huì )的主題演講將圍繞人工智能展開(kāi),谷歌公布了Gemini AI的最新進(jìn)展,并圍繞谷歌核心業(yè)務(wù)和生成式人工智能的融合展開(kāi)分享。不僅帶來(lái)了“進(jìn)階版”的Gemini Pro 1.5,還帶來(lái)了全面對標Sora文生視頻大模型的Veo。

谷歌CEO桑達爾·皮查伊(Sundar Pichai)在活動(dòng)現場(chǎng)表示,目前有超過(guò)1500萬(wàn)開(kāi)發(fā)者在使用Gemini做開(kāi)發(fā)。而Gemini最近三個(gè)月時(shí)間達到了100萬(wàn)訂閱用戶(hù)。

全新的Gemini大模型產(chǎn)品矩陣

首先,在本屆I/O大會(huì )上,谷歌宣布了多項技術(shù)能力的升級。

“進(jìn)階版”Gemini 1.5 Pro

I/O大會(huì )上,Gemini 1.5 Pro進(jìn)階版開(kāi)放給開(kāi)發(fā)者,進(jìn)階后,最大支持上下文窗口從100萬(wàn)Tokens升級到200萬(wàn),同時(shí)支持35種語(yǔ)言?,F在可以分析比以前更長(cháng)的文檔、代碼庫、視頻和音頻錄音。此外,Gemini 1.5 Pro還能夠實(shí)現處理更加復雜和細微的指示,包括指定產(chǎn)品級行為的指示,如角色、格式和風(fēng)格等。

更高效率、更低時(shí)延Gemini 1.5 Flash

于此同時(shí),為了滿(mǎn)足用戶(hù)對低延遲和低成本的需求,谷歌首先帶來(lái)輕量化模型Gemini 1.5 Flash。它基于“蒸餾”技術(shù),專(zhuān)為大規模服務(wù)設計,速度更快、成本低至0.35美元/百萬(wàn)Tokens。

Gemini 1.5 Flash依舊支持100萬(wàn)和200萬(wàn)Tokens兩個(gè)版本,適用于摘要、聊天應用、圖像和視頻字幕、長(cháng)文檔和表格的數據提取等需要快速處理的任務(wù)。

為了反擊OpenAI,谷歌也在今日發(fā)布了多款多模態(tài)大模型,包括圖像大模型Image 3、視頻大模型Veo等。

Gemma大模型升級,開(kāi)源大模型陣營(yíng)再迎猛將

谷歌旗下開(kāi)源大模型Gemma也在活動(dòng)中迎來(lái)了重大升級。谷歌表示,即將于6月上線(xiàn)的Gemma 2中引入一個(gè)全新的、擁有270億參數的模型。這是Gemma模型的下一代升級,這個(gè)龐大的模型尺寸已經(jīng)由Nvidia進(jìn)行了優(yōu)化,確保它能夠在最新的GPU上順暢運行,并且同樣在單個(gè)TPU主機和vertex AI平臺上表現出色。除了這一巨大的270億參數模型外,谷歌還計劃推出PaliGemma視覺(jué)語(yǔ)言開(kāi)放模型,這將進(jìn)一步擴展Gemma 2的功能和應用范圍。

文生圖大模型Imagen 3

Imagen 3作為谷歌最新推出的文生圖大模型,進(jìn)一步增強了文本生成圖片的技術(shù)能力,與其前身Imagen 2相比,Imagen 3能夠更準確地理解了它翻譯成圖像的文本提示,使得模型產(chǎn)生的“干擾性工件”和錯誤更少,并且在生成方面更“富有創(chuàng )造性和細致”。谷歌還計劃很快將Imagen 3模型提供給使用谷歌企業(yè)生成式人工智能開(kāi)發(fā)平臺Vertex AI的開(kāi)發(fā)人員和企業(yè)客戶(hù),以滿(mǎn)足更廣泛的用戶(hù)需求。

文生視頻大模型Veo

Veo是谷歌最新的視頻生成模型,正式對標Sora。Veo集成了谷歌旗下大量視覺(jué)模型的特性,具備高級的自然語(yǔ)言和視覺(jué)語(yǔ)義理解能力,可以生成長(cháng)度超過(guò)1分鐘,分辨率最高1080P的“高質(zhì)量”視頻,并具有多種視覺(jué)和電影風(fēng)格。

教育模型LearnLM

針對于學(xué)習領(lǐng)域,谷歌還推出了LearnLM,這是一系列全新的用于學(xué)習領(lǐng)域的生成式AI模型。此舉不僅標志著(zhù)Google在A(yíng)I教育領(lǐng)域的重大突破,同時(shí)也是對OpenAI近日針對教學(xué)輔導場(chǎng)景所展示能力的有力“回應”。

LearnLM的誕生是Google DeepMind AI研究部門(mén)與谷歌研究部門(mén)深入合作的結晶。谷歌表示,LearnLM模型旨在通過(guò)“對話(huà)式”的方式,為學(xué)生提供個(gè)性化的學(xué)習指導,幫助他們深入理解并掌握各種主題。這不僅將提升學(xué)生的學(xué)習效率,也將為他們帶來(lái)更加豐富和有趣的學(xué)習體驗。

大模型賦能的產(chǎn)品與場(chǎng)景

大模型對話(huà)產(chǎn)品Gemini Live

在I/O大會(huì )上,谷歌發(fā)布了基于Gemini的對話(huà)式體驗產(chǎn)品——Gemini Live,它允許用戶(hù)在智能手機上與Gemini進(jìn)行“深入”的語(yǔ)音聊天,用來(lái)反擊OpenAI日前的大模型對話(huà)演示。用戶(hù)可以在聊天機器人說(shuō)話(huà)時(shí)打斷Gemini提出澄清問(wèn)題,它將實(shí)時(shí)適應用戶(hù)的語(yǔ)音模式。此外,Gemini還可以通過(guò)智能手機攝像頭捕捉的照片或視頻看到并回應用戶(hù)的周?chē)h(huán)境。

在某種程度上,Gemini Live 是 Google Lens 和 Google Assistant 的演變,前者是谷歌長(cháng)期以來(lái)的計算機視覺(jué)平臺,用于分析圖像和視頻,而后者是谷歌的人工智能驅動(dòng)的語(yǔ)音生成和識別虛擬助手,可在手機、智能音箱和電視上使用。

值得一題的是,Live 將專(zhuān)屬于 Gemini Advanced,其背后是谷歌One AI進(jìn)階計劃,價(jià)格為20美元/月。

首個(gè)AI Agent產(chǎn)品——Project Astra

作為谷歌首個(gè)AI Agent產(chǎn)品,也是推動(dòng)Gemini Live技術(shù)的創(chuàng )新部分,Project Astra旨在創(chuàng )建用于實(shí)時(shí)、多模態(tài)理解的人工智能應用程序和智能體。

在多模態(tài)方面,基于全新的音頻概述功能,基于Gemini大模型打造的AI智能體,把多種內容改造成互動(dòng)性的內容。例如進(jìn)行沉浸式教育、智能填寫(xiě)購物表單、生成旅游規劃等。

有別于Gemini和其他特定任務(wù)模型,Astra通過(guò)持續編碼視頻幀、將視頻和語(yǔ)音輸入結合到事件時(shí)間線(xiàn)上,并緩存信息以便高效回憶,從而實(shí)現了對信息的快速處理。

現場(chǎng),谷歌不僅演示了基于手機攝像頭的實(shí)時(shí)交互技術(shù),同時(shí)還演示了利用類(lèi)似于智能眼鏡的語(yǔ)音交互,為谷歌未來(lái)的空間計算交互打下基礎。

全新升級的AI搜索

谷歌正通過(guò)將Gemini大模型與其搜索引擎深度集成,預示著(zhù)搜索正逐漸從用完即走的工具服務(wù),轉變?yōu)锳I智能體的入口?,F場(chǎng),谷歌演示了通過(guò)AI搜索定制個(gè)人計劃,例如“創(chuàng )建一個(gè)易于準備的3天的健康食譜”,提升了搜索的實(shí)用性和便捷性。這些改動(dòng)不僅改變了搜索的呈現方式和服務(wù)體驗,還影響了廣告方式,用來(lái)應對大模型技術(shù),對于搜索流量格局的影響。

基于同樣的技術(shù)底座,全新推出的Ask Photo應用,結合谷歌Gemini,Google Photo能夠識別用戶(hù)對照片的深度問(wèn)題,并且智能匹配基于深度理解的圖片,讓照片搜索體驗更智能、更簡(jiǎn)單。

深度融合大模型的Android 15

谷歌也在積極將AI技術(shù)融入安卓系統,通過(guò)集成Gemini Nano這一Google生成式AI的最小版本,該功能將在未來(lái)版本的安卓系統中實(shí)現全面升級。Gemini Nano完全可在設備上運行,實(shí)時(shí)監聽(tīng)“與詐騙常見(jiàn)的對話(huà)模式”?,F場(chǎng)還演示了當用戶(hù)收到不明詐騙電話(huà)時(shí),AI系統將自動(dòng)發(fā)出警報,保障用戶(hù)免受詐騙風(fēng)險??傊?,Gemini正在通過(guò)其強大的AI技術(shù),為安卓用戶(hù)帶來(lái)更加智能、便捷的使用體驗。

同時(shí),谷歌還在安卓平臺上推出了一系列全新AI功能,如“Circle to Search”,它不僅能實(shí)現跨應用搜索,還能解答數學(xué)題、圖表等復雜問(wèn)題。甚至可以在用戶(hù)的郵件App中進(jìn)行郵件總結、智能回復等操作。

此外,Gemini還具備多模態(tài)能力,用戶(hù)在與朋友的信息對話(huà)中可隨時(shí)召喚它生成圖片,或針對YouTube教程視頻、PDF文檔等提出特定問(wèn)題,Gemini將在數秒內給出解答。

更強大的AI開(kāi)發(fā)工具

Project IDX

Project IDX是谷歌新一代以 AI 為中心的基于瀏覽器的開(kāi)發(fā)環(huán)境,并已正式公測。隨著(zhù)這一更新,IDE將與谷歌地圖平臺集成,幫助為其應用添加地理定位功能,并與Chrome Dev Tools和Lighthouse集成,幫助調試應用程序。谷歌還將實(shí)現將應用程序部署到Cloud Run,這是Google Cloud的無(wú)服務(wù)器平臺,用于運行前端和后端服務(wù)。

Firebase Genkit

作為這是 Firebase 平臺的一個(gè)新成員,旨在使開(kāi)發(fā)人員更輕松地在 JavaScript/TypeScript 中構建AI原生應用程序,作為一個(gè)開(kāi)源框架,采用Apache 2.0許可證,使開(kāi)發(fā)人員能夠快速將AI集成到新應用和現有應用中。

性能提升4.7倍,第六代TPU——Trillium

除了AI軟件方面的升級,谷歌還在本屆I/O大會(huì )上發(fā)布了第六代TPU——Trillium。據介紹Trillium TPU峰值計算性能較v5e高出4.7倍,同時(shí)實(shí)現了高帶寬內存(HBM)和芯片間互連(ICI)帶寬的翻倍。這一突破性的技術(shù)配備第三代SparseCore加速器,可加速基礎模型的訓練過(guò)程,同時(shí)降低延遲和成本。

在擴展性方面,Trillium TPU支持單個(gè)集群擴展到256個(gè)TPU,并可通過(guò)多切片技術(shù)和Titanium IPU進(jìn)一步擴展至數百個(gè)集群。Trillium將優(yōu)先開(kāi)放給云客戶(hù)用戶(hù),以幫助他們實(shí)現AI超算效能的兩倍提升。

此外,谷歌還在大會(huì )上預告,將在2025年將提供英偉達Blackwell產(chǎn)品,為客戶(hù)提供更多選擇。

大模型之家觀(guān)點(diǎn)

在大模型之家看來(lái),OpenAI在人工智能領(lǐng)域的突破,無(wú)疑引領(lǐng)了一個(gè)全新的時(shí)代,堪稱(chēng)人工智能的“iPhone時(shí)刻”。他們不僅推動(dòng)了技術(shù)的飛躍,更在用戶(hù)體驗和產(chǎn)品設計上實(shí)現了革命性的創(chuàng )新。正如iPhone在智能手機領(lǐng)域開(kāi)啟了全新的篇章,一直以來(lái)都以其精湛的工藝和前沿的設計理念,將科技與創(chuàng )新完美結合,改變了人們的生活方式。而在這一點(diǎn)上,OpenAI同樣表現出色,甚至可以說(shuō)在某些方面超越了谷歌。

與此同時(shí),谷歌雖然在科技領(lǐng)域擁有舉足輕重的地位,但在人工智能這一領(lǐng)域的“iPhone時(shí)刻”上,卻似乎略顯滯后。谷歌更像是“iPhone時(shí)刻”之后跟隨的Android,憑借其強大的技術(shù)實(shí)力和廣泛的生態(tài)系統,為用戶(hù)提供了多樣化的選擇。然而,在引領(lǐng)行業(yè)變革和塑造用戶(hù)體驗方面,谷歌似乎還需向OpenAI這樣的企業(yè)學(xué)習。

谷歌全面升級的大模型、AI應用、以及開(kāi)發(fā)工具中,AI搜索已經(jīng)從簡(jiǎn)單的回答進(jìn)化到能夠為用戶(hù)制定計劃、滿(mǎn)足個(gè)性化需求、組織信息,乃至進(jìn)行視頻搜索,為用戶(hù)提供了前所未有的全面解決方案。用戶(hù)只需簡(jiǎn)單地提問(wèn),AI便能接手處理后續工作,實(shí)現了中間過(guò)程的極大簡(jiǎn)化。

然而,這一技術(shù)的飛躍也不免引起人們對“AI支配人類(lèi)”的擔憂(yōu)。當AI在代辦過(guò)程中接觸到用戶(hù)的客戶(hù)資料、郵件、通訊錄等敏感信息時(shí),無(wú)疑對用戶(hù)的隱私安全構成了潛在威脅。若AI的總結或代辦未能準確反映郵件的真實(shí)訴求,甚至有意誤導用戶(hù)的決策,那么對實(shí)際的運營(yíng)結果將產(chǎn)生嚴重后果。

雖然谷歌等服務(wù)提供商可能會(huì )建議用戶(hù)重新核實(shí)郵件等信息內容,但頻繁地反復確認不僅耗時(shí)耗力,而且與AI技術(shù)追求的高效便捷原則背道而馳。更令人擔憂(yōu)的是,一些服務(wù)商在用戶(hù)協(xié)議中巧妙地規避了責任,使得用戶(hù)在遭遇AI誤導時(shí)往往難以追究責任。

因此,盡管谷歌的AI產(chǎn)品看似功能強大,但用戶(hù)在使用時(shí)仍需保持警惕,避免被AI所“支配”。在享受AI帶來(lái)的便利的同時(shí),我們也需要學(xué)會(huì )如何與AI共存,確保自身權益不受損害。最終,在A(yíng)I時(shí)代,我們仍需要保持獨立思考和判斷能力,以應對可能出現的風(fēng)險和挑戰。

(0)
上一篇 2024年5月14日 18:43
下一篇 2024年5月15日 10:12