【新智元導讀】被 OpenAI 提前截胡的谷歌,昨天不甘示弱地開啟反擊!大殺器 Project Astra 效果不輸 GPT-4o,文生視頻模型 Veo 硬剛 Sora,用 AI 徹底顛覆谷歌搜索,Gemini 1.5 Pro 達到 200 萬 token 上下文…… 谷歌轟出一連串武器,對 OpenAI 貼臉開大。
谷歌 I / O 2024 如期來了,眼花繚亂地發布了一堆更新。
跟 OpenAI 半小時的「小而美」發布會相比,谷歌顯然準備得更加充分,當然,時間也相當之長……
準備好,谷歌要開始轟炸了。
首先,Gemini 1.5 Pro,上下文長度將達到驚人的 200 萬 token。然后,面對昨天 OpenAI GPT-4o 的挑釁,谷歌直接甩出大殺器 Project Astra,視覺識別和語音交互效果,跟 GPT-4o 不相上下。
接著,谷歌祭出文生視頻模型 Veo 硬剛 Sora,效果酷炫,時長超過 1 分鐘,打破 Sora 紀錄。
最后來了一個重磅消息:谷歌搜索將被 Gemini 重塑,形態從此徹底改變!我們不再需要自己點進搜索結果,而是由多步驟推理的 AI Overview 來代辦一切。
發布會結束后,劈柴甚至還用 Gemini 算了一下,整個發布會共提了 121 次 AI。
CEO 劈柴上來就無視了 GPT 和 Llama 的存在,這樣總結道:「我們完全處于 Gemini 時代」。并且給出數據:如今全世界使用 Gemini 的開發者,一共有 150 萬人。
萬眾矚目的 Gemini 更新如期而至。
Gemini 1.5 Pro 最強特性之一,就是超長的上下文窗口,達到了 100 萬 tokens 的級別,超過了目前所有的大語言模型,而且開放給個人用戶使用。
今天,劈柴宣布:它的上下文 token 數將會達到 2000K(200 萬)!相比之下,GPT-4 Turbo 只有 128K,Claude 3 也只有 200K。
而這也意味著 —— 你可以給模型輸入 2 小時視頻、22 小時音頻、超過 6 萬行代碼或者 140 多萬單詞。
這個上下文長度,已經超過了目前所有大模型。
但是,這并不是終點,谷歌的目標是 —— 無限長上下文,不過,這就是后話了。
用籃球講解牛頓運動定律在這樣的 Gemini 加持下,我們可以實現許多迅捷的功能。
比如,作為父母需要了解孩子在學校的情況,就可以在 Gmail 中要求 Gemini 識別所有關于學校的電子郵件,然后幫你總結出要點。
如果你錯過了公司會議,但可以拿到一小時時長的會議錄音,Gemini 就能立刻幫你總結出會議要點。
為了幫助學生和教師,在 NotebookLM 中,谷歌設計了一個「音頻概述」的功能。
把左邊的所有材料作為輸入,Notebook 就可以把它們整合成一個個性化的科學討論了。
對于聽覺學習型學生,這種形式就非常生動。
演示這個 demo 的 Josh 表示,自己的兒子第一次看到這個功能時,直接驚掉下巴。
他第一次感覺到,學習不再是死板的,牛頓力學定律居然以通過籃球來學習!
支持多模態的 Gemini 可以處理你上傳的任何格式的信息,理解內容后將其改造成適合你的形式,與你對話互動了!
Agent:幫你申請退貨接下來,劈柴展示了 Agent 的一些例子。
買了一雙鞋子,不合適想退回怎么辦?
拍一張照片給 Agent,它就可以從你的郵箱中搜出訂單后,幫你填寫退貨單了。
再比如,你剛搬到某個城市,Agent 就能幫你探索你在這個城市所需的服務了,比如干洗店、幫忙遛狗的人等等。
如果靠我們自己搜索,可是要搜十幾個網站,但 Gemini 可以發揮自己的「多步推理」能力包攬這些任務,把你需要的信息一次性提供給你!
搜索和整合信息的功能非常強大,輸入新家的地址后,它甚至可以代替軟件問你外賣應該放哪個位置。
總的來說,谷歌的理念就是:利用 Gemini 的多模態、超長上下文和智能體能力,把世界上的所有信息組織起來,讓它們對每個人都可觸達、可利用。
而最終目標,就是讓 AI 對每一個人都有用。
之前 OpenAI 一直有意無意放出煙霧彈,聲稱要發布全新的搜索產品,等于是把刀架在谷歌脖子上了。
果然,谷歌這次不甘示弱,放出了個大的。從今天開始,在 Gemini 的加持下,谷歌搜索會徹底變樣。
在搜索框下,會出現一個為你量身定做的 AI 總結。注意,它并不簡單地將所有內容拼湊在一起,而是幫你把活都干了!
你的問題是什么樣,它就會幫你做規劃,展示出若干個卡片,讓搜索信息以鮮明的方式被呈現出來。
這次 AI Overview 即將發布的另一個重磅功能,就是多步驟推理。
它能將用戶輸入的一個復雜問題分解成多部分,確定需要解決哪些問題,以及用什么順序解決。
因此,以前可能要花幾分鐘甚至幾個小時的研究,現在幾秒鐘內就可以完成!因為它將十個問題合而為一。
比如,如果想找到波士頓最好的瑜伽或普拉提工作室,它會直接搜出來結果,然后幫你整理好情況介紹和工作時間。
只要一次搜索,所有需要的信息就自動呈現出來。
在下面這個例子中,你可以要求谷歌提供一個三天的膳食計劃。
這些食譜被從整個網絡整合出來,清晰又全面。
而且,我們還可以用視頻去搜索了!
比如,該怎么修這個唱片機?
以前,我們需要進行一堆搜索,確定它的牌子、型號。現在,直接拍一個視頻丟給谷歌,然后直接開口問:它的這個毛病是什么原因?
谷歌用 AI Overview,給出了最全面的信息。
從此,在谷歌搜索中,你需要做的,就是簡單的「張嘴問」。
對標 GPT-4o,Project Astra 打造通用 AI 智能體我們已經看到,新模型 GPT-4o 賦予了 ChatGPT 強大的實時對話能力,讓 Her 走進現實。
全新 AI 語音助手,是通往 AGI 的下一個未來。
對標 OpenAI,谷歌 DeepMind 今天首次對外公布了「通用 AI 智能體」新項目 ——Astra。
其實,昨天谷歌放出了一個 demo,已經讓所有人對 Astra 項目有了初步的了解。
而今天,現場的演示更加炸裂。網友稱,這是谷歌 I / O 大會中,自己最喜歡的 part。
不僅有 Astra 強大的對答如流的能力,還首次展示了「谷歌 AR 原型眼鏡」配上 AI 的震撼演示。
召喚 Gemini 之后,測試者提出問題,「當你看到會發出聲音的東西時,告訴我」。
它回答道,「我看到一個揚聲器,它可能會發聲」。
接下來,測試者用紅色剪頭指向揚聲器的頂部,再次問道,「這個揚聲器的部件叫什么」?
Gemini 準確理解指令,并答出「這是高音揚聲器,能產生高頻的聲音」。
然后,對著桌上一桶彩色蠟筆,讓 Gemini 就展示的物體,給出了「押頭韻」的創意 ——
「Creative crayons color cheerfully. They certainly craft colorful creations.」
Gemini 以「c」音重復開頭,生動形象地描繪了用蠟筆歡快涂色,可以創作出許多絢麗多彩作品的場景。
而更讓你意想不到的是,它還可以讀懂代碼。
甚至都不是截屏,而是用攝像頭懟著電腦屏幕拍,然后問 Gemini「這部分代碼是做什么的」?
Gemini 看了一眼,就立即給出回答:「此段代碼定義了加密和解密函數。它似乎使用 AES CBC 加密,根據密鑰和初始化向量對數據進行編碼和解碼」。
再將鏡頭移向窗外,「我在哪個街區」?
Gemini 便回答道,「這似乎是倫敦國王十字區,這里以火車站和交通樞紐而聞名」。
眼鏡找不到了?直接可以問 Gemini,「你記得在哪里見過我的眼鏡」?
它立刻回想剛剛見到的場景,「是的,我記得。你的眼鏡就在桌子上,旁邊有一個紅蘋果」。
要知道,剛剛這個問題并沒有向它提過,Astra 完全是憑自己的視覺記憶回答出來的,簡直成精了。
而 Astra 的這番表現,直接讓全場倒吸一口涼氣,發出驚呼。
谷歌原型 AR 眼鏡首現身接下來的演示,更炫酷了。
剛剛找到的眼鏡,竟是谷歌的原型 AR 眼鏡!配合上強大的 Gemini 模型,即將開辟全新的應用。
測試者走到白板前,看向一個「服務器」的構建示意圖,然后問道,「我應該怎樣做能使這個系統更快」?
Gemini 表示,「在服務器和數據庫之間,添加緩存可以提高速度」。
再比如,「看到如下圖,會讓你想起什么」?
—— 薛定諤的貓!
「在幫我給這對家伙,起一個二重唱樂隊名字」。
——Golden Stripes
大會上,Hassabis 稱,「一直以來,谷歌希望構建一個能在日常生活中真正有所幫助的通用 AI 智能體。如今,這一愿景成為現實,可以追溯到很多年前。這也是谷歌從頭開始打造多模態 Gemini 的主要原因」。
真正的通用 AI 智能體,必須像人類一樣,對復雜、動態的世界做出理解和響應。
它需要接受和記住所看到的內容,以便理解上下文采取行動,并且具備主動性和個性化。甚至,你可以與其如真人般絲滑交流,沒有任何滯后或延遲。
為了打造這款全能 AI 智能體,谷歌 DeepMind 克服了很困難的工程挑戰 —— 將 AI 響應時間降低至對話水平。
具體來說,谷歌團隊在 Gemini 的基礎上,開發了能夠持續編碼視頻幀的智能體。
然后,將視頻和語音多模態輸入,整合到事件時間軸中并緩存,以便實現 AI 智能體高效召回,更快處理信息。
此外,谷歌還使用廣泛的語調變化,增強了語音輸出效果。
基于這些努力,Astra 能夠更好理解上下文,在交談中可以快速做出反應,讓互動的節奏和質量感覺更加自然。
有網友稱,「谷歌的這個 Astra 項目絕對是游戲規則的改變者,我們現在生活在一個由個人 AI 助手組成的世界,聊天機器人現在已經過時了。它可以實時地看、說、聽,幾乎沒有延遲」
當然,這次演示中,谷歌偷偷推出的 AR 硬件,也成為網友們的關注點。
谷歌科學家剛剛放出了,用 Astra 看谷歌 I / O 大會的演示,可以自己感受下。
圖像、音樂、視頻,面面俱到與此同時,谷歌大會上再次推出了一系列關于「生成式媒體工具」的最新進展。
其中,包括圖像、音樂,以及視頻模型。
首先,AI 文本到圖像生成模型 Imagen 3 迎來重磅升級。
比起上一代,Imagen 3 能生成更多細節、光影豐富,且干擾偽影更少的圖像。新模型對提示的理解能力,得到顯著提升,可以從較長的提示中,捕獲細節。
如下圖中,對狼的特征,背景顏色,畫質質量等要求,Imagen 3 一致地呈現了出來。
另外,Imagen 3 可以生成視覺豐富、高質量的圖像,有良好光照和構圖。它可以準確地渲染小細節,比如人手上的細微皺紋,以及復雜的紋理。
下圖中,毛絨大象清晰的編織紋理,還有光照,效果鮮明。
Imagen 3 還可以在更長的提示中,加入一些微小的細節,比如「野花」、「藍色的小鳥」...
谷歌還極大地改進了 Imagen 3 的文本渲染能力。
如下圖片提示,「由各種顏色的羽毛組成的「光」字,黑色背景」,然后 Imagen 3 生成了漂亮的字體。
以下是官方給出的更多演示 demo:
這次谷歌發布的視頻模型 Veo,可以看作是對 OpenAI Sora 的正面迎戰了。
可以看出,Veo 生成的視頻不僅真實,而且在光線、構圖等方面具有驚人的電影感。
Veo 的推出建立在 DeepMind 過去一年各種開創性成果的基礎上,包括 GQN、Phenaki、Walt、VideoPoet、Lumiere 等等。
谷歌結合了這些成果中最好的架構和技術,提高了一致性、質量和分辨率。
Veo 具備 1080p 的高質量,用戶提示可以是文本、圖像、視頻等各種格式,還能捕捉到其中關于視覺效果和影像風格的各種細節描述。
通過點擊「擴展」按鈕,用戶就可以持續增加視頻的時長,最終,它的時長已經超過 Sora 達到了 1 分 10 秒。
可以看到,在下面這個視頻中,汽車的形狀與周圍環境始終保持一致。
有這種專業級的生成效果,電影制作人可以直接用 Veo 來協助創作了。
從此,每個人都可以成為導演,也應該成為導演。
好消息是,Veo 已經開始在官網開放試用了。此外,團隊還開發了實驗性工具 VideoFX 搭載 Veo 模型。
申請入口:https://aitestkitchen.withgoogle.com/tools/video-fx
在谷歌官博中,給出了 Veo 更多演示,還特別強調了均是 AI 生成,未經過修改:
在音樂方面,谷歌和 Youtube 一起構建了 Music AI Sandbox。
輸入一段旋律,它就可以進行風格遷移,幫助藝術家們快速實現自己的想法和創意。為此,谷歌還特意邀請了許多音樂家、詞曲作者和制作人來測試。
他們驚喜地發現,使用這個新的 AI 音樂工具,他們居然做出了自己從未想到的音樂!
Demis Hassabis:我在思考智能的本質谷歌 DeepMind 負責人 Hassabis 表示,自己從小玩國際象棋時,就一直在思考智能的本質是什么。
他深信,如果我們能以負責任的方式建造 AGI,影響將是深刻的。
谷歌 DeepMind 自去年成立以來成績斐然。而最近的大成就,就是幾乎可以預測所有生命分子結構和相互作用的 AlphaFold 3 了。
谷歌還打造出了一款 Gemini 原生多模態應用,可以同時文本、音頻、視頻內容。
一直以來,谷歌希望能夠打造一個有用的個人 AI 助理。Gemini App,正重新定義我們的交互方式。
為了讓我們與 Gemini 交互更自然,谷歌發布了 Gemini Live。
有了它,你可以在給朋友發消息的同一個程序中,還能與 Gemini 聊天。
你甚至可以控制自己的說話節奏,或者隨時打斷 Gemini 回答,如同與真人交流一樣。
比如,你正在為一場面試做準備,只需要進入 Live,讓 Gemini 陪你一起做準備。
Gemini 可以與你進行模擬面試排練,甚至在與潛在雇主交談時應該突出哪些技能,還能提供建議。
谷歌表示,今年晚些時候,會推出攝像頭模式,可以以周圍環境與 Gemini 實現對話。
與此同時,谷歌還推出了根據個人需求自定義的 Gemini 專家 ——Gems。它可以是你的健身教練、瑜伽伙伴,也可以是你的寫作創意導師、編程伙伴等等。
接下來,谷歌還展示了通過規劃,讓我們如何離 AI 助手更近一步。
比如,一次旅行的規劃,需要涉及地理、時間、天氣等諸多因素,需要 AI 能夠做出優先順序和決策的能力。
Gemini Advanced 的全新旅行規劃,可以將模型推理和智慧融為一體,為人類更好服務。
在 Gemini 的加持下,谷歌還會推出 Ask Photos 的新功能。
比如,如果付停車費時忘了自己的車牌號,就可以直接詢問自己的車牌照片是哪個,不需要翻閱手機里的大量照片了。
在比如,你可以問它女兒是什么時候學會游泳的?她的游泳是怎么進步的?
Gemini 會識別眾多照片中的不同場景,將所有相關內容匯總。
根據某些 Gemini 1.5 Pro 用戶的反饋,一些程序需要更低的延遲和服務成本。針對這一點,谷歌發布了 Gemini 1.5 Flash。
跟 Pro 比,Flash 是一個更輕量級的模型,專為那些對響應速度要求極高的特定或頻繁任務優化。
并且,它同樣具有多模態、1M tokens 長上下文的特點,只不過實現了輕量化、低延遲、高效推理,每百萬個 token 的價格僅是 Pro 版的二十分之一。
今天起,Gemini 1.5 Flash 在 Google AI Studio 和 Vertex AI 中就可用了,開發者可以注冊申請兩百萬 token 的內測版。
此外,為了方便開發者,谷歌還對 Gemini 的 API 功能進行了三項優化 —— 視頻幀提取、并行函數調用和上下文緩存。
在背后給這些技術進步提供基礎設施的,就是谷歌的 TPU。
簡單來說,相較于 TPU v5e,第六代 Trillium TPU 在性能上實現了高達 4.7 倍的提升,并在能效上提升了超過 67%。
為了實現這一飛躍,谷歌增大了矩陣乘法單元(MXUs)的規模并提升了時鐘速度。
并為 Trillium 配備了第三代 SparseCore—— 專門用于處理高級排序和推薦工作負載中常見的超大嵌入的加速器。
在這里,SparseCores 可以通過從 TensorCores 策略性地卸載隨機和細粒度訪問,有效加速了重嵌入型工作負載。
與此同時,谷歌還將高帶寬存儲器(HBM)的容量和帶寬翻倍,并將芯片間互連(ICI)的帶寬提升了一倍。
由此,Trillium 可以支持更加復雜的模型,擁有更多的權重和更大的鍵值緩存,并大幅縮短了大模型的訓練時間和響應延遲。
在一個高帶寬、低延遲的 Pod 中,Trillium 可以擴展至 256 個 TPU。
而通過多切片技術和 Titanium 智能處理單元(IPU),Trillium 還可以進一步擴展 —— 通過數百個 Pod,連接數以萬計的芯片,并在一個多千兆位每秒的數據中心網絡支持下,組成一個超大規模的超級計算機。
最后,谷歌還發布了自家首個視覺-語言開源模型 ——PaliGemma,專門針對圖像標注、視覺問答及其他圖像標簽化任務進行了優化。
不僅如此,谷歌還將在 6 月推出規模更大的開源模型 ——Gemma 2 27B。
在性能方面,全新的 Gemma 27B 不僅超越了規模大了 2 倍還多的模型,而且還能在 GPU 或單個 TPU 主機上高效運行。
參考資料:
https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/
https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus?e=48754805
https://www.youtube.com/watch?v=XEzRZ35urlk
2024 谷歌 I/O 開發者大會專題
本文鏈接:http://www.tebozhan.com/showinfo-45-4300-0.html谷歌 2 小時復仇硬剛 GPT-4o:Gemini 顛覆搜索,視頻 AI 對抗 Sora
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com