12月9日消息,谷歌近日在一次采訪中向媒體透露,他們之前發布的大型語言模型Gemini的演示視頻實際上并非實時錄制。這一消息引發了業界的關注,因為視頻看起來極其先進,顯示了Gemini模型在處理各種任務時的能力。
視頻中展示了一系列引人注目的場景,例如Gemini模型能夠在一個塑料杯中發現藏著的紙團,甚至能夠識別出一幅“點線相連”的圖畫中描繪的是一只螃蟹。然而,據谷歌發言人向外媒透露,這些都是通過鏡頭捕捉的靜止圖像幀和文本提示來“拼湊”而成的。換句話說,Gemini模型只能對輸入的提示和靜態圖像做出反應,而非實時處理。同樣,視頻中展示的用戶與Gemini之間的語音互動實際上也是后期配音完成的。
據ITBEAR科技資訊了解,視頻中的其他元素,比如人物的對話、繪畫、展示物品,甚至魔術表演,似乎都是為了制作這段演示視頻而特別安排的。谷歌在其官方YouTube頻道上的視頻描述中也提到,為了演示的目的,視頻中的延遲已經被減少,而Gemini的輸出也被縮短,以使內容更加簡潔。這暗示了在現實應用中,Gemini模型響應用戶輸入的時間可能會比演示視頻中看起來的要長。
谷歌DeepMind的研究副總裁兼深度學習負責人OriolVinyals對視頻的目的做了進一步闡述。他指出,視頻展示了使用Gemini模型構建的多模態用戶體驗可能的樣子,并旨在激發開發者的創新思維。Vinyals強調,視頻中的所有用戶提示和輸出都是真實的,但為了簡潔起見,進行了縮短處理。此外,他還提到,視頻中展示的是更高級的GeminiUltra模型。
此前有報道稱,谷歌宣稱GeminiUltra在32個廣泛使用的學術基準測試中,在30個測試中都展現了超越當代的領先表現。這些基準測試被認為是大型語言模型領域最常用、最廣泛的測試之一。其中,GeminiUltra在大規模多任務語言理解(MMLU)測試中以90.0%的高分超越了人類專家。這一測試涵蓋了包括數學、物理、歷史、法律、醫學和倫理等多達57個學科。
除此之外,GeminiUltra還在新的MMMU基準測試中展示出了59.4%的領先水平。MMMU基準測試覆蓋了一系列需要深入思考的多模態任務,涵蓋了多個不同的領域。這一表現再次證明了GeminiUltra在大型語言模型領域的先進性和多功能性。
谷歌還計劃在明年初推出全新升級的 Bard Advanced,這將使用戶能夠更好地體驗到Gemini Ultra的最佳模型和功能。
本文鏈接:http://www.tebozhan.com/showinfo-45-2838-0.html谷歌發言人確認:Gemini AI視頻展示并非實時完成
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com