10 月 12 日消息,由快手科技、北京大學和北京郵電大學聯合組建的研究團隊推出 Pyramid Flow 文生視頻模型,用戶在輸入文本之后,即可生成最長 10 秒、分辨率高達 1280x768、幀率 24fps 的高質量視頻。
Pyramid Flow 文生視頻模型主要面向開發者、藝術家和創作者等,提供更高效、更靈活的視頻生成解決方案,目前已經在 Hugging Face 平臺上線,并完全開源。
查詢官方介紹,附上 Pyramid Flow 的核心特點如下:
高效生成:Pyramid Flow 采用新技術,通過統一 AI 模型分階段生成視頻,大多數階段為低分辨率,只有最后階段為全分辨率。這種“金字塔流匹配”方法保持了視頻的高視覺質量前提下,大幅降低了計算成本,tokens 數量是傳統 diffusion 模型的四分之一。
快速推理:在推理過程中,該模型可以在 56 秒內生成一個 5 秒、384p 的視頻,速度媲美許多全序列 diffusion 模型,甚至更快。
開源和商業使用:Pyramid-Flow 在 MIT 許可證下發布,允許廣泛的使用,包括商業應用、修改和再分發,吸引了希望將模型集成到專有系統中的開發者和公司。
附上參考地址
Pyramidal Flow Matching for Efficient Video Generative Modeling
New high quality AI video generator Pyramid Flow launches — and it’s fully open source!
Hugging Face
Github
Pyramidal Flow Matching for Efficient Video Generative Modeling
本文鏈接:http://www.tebozhan.com/showinfo-45-9072-0.html快手聯合推出 Pyramid Flow 開源文生視頻 AI 模型:最高 10 秒 768P@24fps,創新金字塔流匹配讓推理 tokens 降至 1 4
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com