4 月 9 日消息,谷歌之前在 Google Next 大會上宣布將首次通過其 AI 應用平臺 Vertex AI 向公眾開放 Gemini1.5 Pro。
谷歌現已推出 Gemini 1.5 Pro 公共預覽版,并借此為其賦予了“耳朵”,從而幫助用戶處理音頻內容,例如可以直接上傳一份音頻文件讓它來分析,或者上傳一份財報電話會議錄音或視頻來讓它總結。
據稱,這個 Gemini系列中定位“中量級”模型的版本在性能上已經超越了自家更大的模型 ——GeminiUltra。谷歌稱,Gemini1.5 Pro 可以理解復雜的指令,并且無需對模型進行微調。
當然,Gemini1.5 Pro 目前僅限于 Vertex AI 用戶體驗,而 GeminiUltra 則因為Gemini聊天機器人的原因為所有 Pro 用戶提供服務。不過,盡管 GeminiUltra 功能更多并且能夠理解長指令,但處理速度不如 Gemini1.5 Pro。
實際上,Gemini1.5 Pro 并非唯一獲得更新的谷歌大模型,輔助 Gemini生成圖像的文生圖模型 Imagen 2 也將加入圖片修復和擴充功能,使用戶可以添加或移除圖像元素。
注意到,谷歌還為 Imagen 模型的所有圖片提供了數字水印功能“SynthID”。簡單來說,SynthID 在圖像中添加了一個用戶不可見的防偽標識,但可以通過檢測工具來確認其來源。
值得注意的是,Imagen 的許多新功能,例如圖片修復和擴充,已經出現在其他文生圖模型中,例如 Stability AI 的 Stable Diffusion 和 Getty 公司的 Generative AI by iStock 上,更不用說最新款三星 Galaxy 手機還有類似的功能。
谷歌表示,他們還將在公開預覽中嘗試將 AI 響應與谷歌搜索結果結合,以便利用最新情報進行解答。
參考資料:
《Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context》
本文鏈接:http://www.tebozhan.com/showinfo-45-3952-0.html谷歌推出 Gemini 1.5 Pro 公共預覽版,現已支持處理音頻
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com