當前位置：首頁 > 元宇宙 > AI

字節跳動發布豆包視頻生成模型，這效果讓我分不清 AI 與現實

來源：責編：時間：2024-10-01 17:06:13 88觀看

導讀 9 月 24 日，火山引擎 AI 創新巡展在深圳舉辦，帶來了豆包大模型的最新進展。豆包大模型家族迎來了新成員。具體來說，火山引擎全新推出了豆包?視頻生成模型，以及豆包音樂模型、同聲傳譯模型，同時還升級了通用語言模

9 月 24 日，火山引擎 AI 創新巡展在深圳舉辦，帶來了豆包大模型的最新進展。豆包大模型家族迎來了新成員。

具體來說，火山引擎全新推出了豆包?視頻生成模型，以及豆包音樂模型、同聲傳譯模型，同時還升級了通用語言模型、文生圖模型、語音模型，不斷增強各類模態以及規模化的調用量，讓豆包大模型“更強模型、更低價格、更易落地”的優勢持續凸顯。此外，多家行業客戶也在會上分享了大模型應用的實踐經驗。

本次豆包帶來的一系列大模型進展中，最引人關注的，莫過于全新豆包視頻生成模型，它能夠帶來影視級視覺感受的視頻生成效果，全面推動豆包大模型 AIGC 應用創新的步伐。

在豆包視頻生成模型正式推出之前，可能不少同學已經使用過市面上一些 AI 生成視頻的產品。小編此前也做過體驗，總體來說這些大模型生成的視頻往往有比較明顯的“AI 痕跡”，無論是視頻的內容邏輯、畫面自然度等方面，都有待提升，而且對語義指令的理解也存在問題，經常會生成一些不符合指令要求的視頻。

而這些問題在豆包視頻生成模型中，都得到了針對性的解決，同時也成為其不可忽視的產品亮點。

首先，豆包視頻生成模型擁有精準的語義理解能力，支持多動作多主體交互的內容生成。相比大部分視頻生成模型只能完成簡單指令單一動作，豆包視頻生成模型可以遵從更復雜的 prompt，解鎖時序性多拍動作指令與多個主體間的交互能力，指哪兒打哪兒，為你打開想象力的大門。

比如下面這則視頻，兩位主角的動作、表情都非常自然，包括馬兒看起來也很真實。

還有下面這段視頻，首先女主的表情十分細膩自然，當男主入畫時，女主緩緩戴上墨鏡，和男主的動作交互也非常真實，看起來似乎是有些抗拒，將復雜細膩的微動作都呈現了出來，從而讓視頻呈現出強烈的“故事感”。

其次，豆包視頻生成模型支持強大動態與炫酷運鏡，讓 AI 生成視頻告別 PPT 動畫質感。針對高動態的復雜場景視頻、多樣化表達的文本指令，豆包視頻生成模型基于高效的 DiT 融合計算單元，更充分地壓縮編碼視頻與文本，使生成視頻的動作更靈動，鏡頭更多樣，表情更豐富，細節更豐滿。

并且生成的視頻可同時存在主體的大動態與鏡頭的炫酷切換。支持變焦、環繞、平搖、縮放，目標跟隨等超多鏡頭語言，靈活控制視角。

例如下面這則視頻，畫面中兩位主角前后景的變焦切換非常自然，感覺就像是真實的攝影師在水中拍攝的畫面，而不像以往 AI 生成視頻那樣呆板生硬。

在內容邏輯方面，豆包視頻生成模型還支持一致性多鏡頭生成，能夠 10 秒講一個完整的故事。它采用全新設計的擴散模型訓練方法，成功攻克了多鏡頭切換時難以保持一致性的困擾，在一個 prompt 的多個鏡頭切換時，保持主體、風格、氛圍和邏輯的一致性，實現導演自由。

例如下面這則動畫視頻，三個鏡頭組成了一個簡短易懂的場景故事，看起來就像是一個正常的動畫電影中截取的片段。

再比如下面這則視頻，講述一個乘坐火箭的人沖撞大樓引發爆炸的場景故事，三段鏡頭的剪輯呈現出流暢的故事邏輯，還給了主人公緊張的表情特寫，調動觀眾的情緒，讓人感嘆 AI 這是覺醒了“創作意識”？

此外，豆包視頻生成模型還能保證視頻高保真和高美感，可生成影視級畫面，細節層次豐富，逼真度極高，擁有專業級色彩調和和光影布局，大幅提升畫面視覺審美。

比如下面這一則，整個畫面的打光、色調、場景、角色的表情都非常精致、細膩，很有電影大片的質感，不說的話誰能想到這是 AI 生成的視頻？

同時其深度優化的 Transformer 結構，大幅提升了視頻生成的泛化能力，支持包括黑白、3D 動畫、2D 動畫、國畫、厚涂等多種風格，包含 1:1、3:4、4:3、16:9、9:16、21:9 比例，帶你領略更自由的世界。

可以看到，豆包視頻生成模型的表現確實是相當驚艷的，無論是語義理解能力、多個主體運動的復雜交互畫面，還是多鏡頭切換的內容一致性等方面，都可以做到接近專業人類視頻工作者的水平，如果不說是 AI 生成的，可能大家都很難發現。

而能做到這一點，對于字節跳動以及火山引擎來說，其實完全在意料之中。

首先在“視頻”能力方面，本就是字節跳動的優勢賽道。火山引擎不僅是抖音計算服務的提供方，更是國內眾多視頻、直播等業務背后的可靠支撐，在長年應對視頻業務流量、時延、穩定性等各種嚴苛的挑戰中，沉淀下來獨樹一幟的技術能力。

而在 AI 方面，即大模型的能力，有火山引擎的支撐，字節跳動豆包大模型無論在算力、算法以及數據、場景等方面都有非常充沛的資源。具體到本次豆包視頻生成模型上，我們也能看到字節跳動在視頻大模型技術研發的不斷投入和創新。比如他們采用了高效的 DiT 融合計算單元，還全新設計了擴散模型的訓練方法，來實現一致性多鏡頭的生成。此外他們還深度優化了 Transfomer 結構，大幅提升了視頻生成的泛化能力。

豆包大模型自去年 5 月正式發布以來，就展現出很強的市場競爭力。這次在深圳的火山引擎 AI 創新巡展，火山引擎總裁譚待也透露了豆包大模型最新的使用情況：

“截至到 9 月，豆包大模型的日均 tokens 使用量已經超過 1.3 萬億，4 個月的時間里 tokens 整體增長超過了 10 倍。在多模態方面，豆包?文生圖模型日均生成圖片 5,000 萬張，此外，豆包目前日均處理語音 85 萬小時。”

火山引擎總裁譚待

如此巨大的使用量，顯然代表著市場對于豆包大模型使用體驗和效果的認可。同時也得益于字節大模型一貫的發展路徑和邏輯：先 toC 打磨產品，模型能力具備競爭優勢后再 toB 拓展市場。

比如豆包語言大模型其實早在去年就在字節跳動內部完成了上線，也是首批通過大模型服務安全備案的大模型之一。字節跳動內部 50 多個業務已經大量使用豆包大模型進行 AI 創新，包括抖音、頭條等數億 DAU 產品。經過近一年的打磨后才在今年 5 月正式發布。

而這次豆包視頻生成模型也是如此，其早期版本在今年 2 月就在即夢（Dreamina）上應用，持續迭代優化后才在這次正式推向企業市場。

而未來，豆包視頻生成模型也可以為眾多企業場景帶來創新，例如在電商營銷場景，豆包視頻生成模型不僅快速把商品變成 3D 動態多角度展示，還能配合中秋、七夕、春節等節點替換背景和風格，生成不同尺寸快速上架；在動畫教育場景，豆包?視頻生成模型可以大幅降低動畫的制作成本，生動的呈現童話故事情節。

此外，還有城市文旅、音樂 MV、微電影、短劇等應用場景，都可以通過豆包?視頻生成模型實現降本提效和創意合規。

總之，豆包視頻生成模型的推出，將為創作者乃至各行各業的工作者帶來探索未來世界的有力工具，為所有人提供有趣、快樂和自由的創作體驗，用更廣闊的創作空間和靈感啟發，幫大家打開連接現實和想象世界的大門。

本文鏈接：http://www.tebozhan.com/showinfo-45-8014-0.html字節跳動發布豆包視頻生成模型，這效果讓我分不清 AI 與現實

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：中國移動“算網大腦”規模商用，推動算力像水電一樣即取即用

下一篇：研究發現：AI 越聰明就越有可能“胡編亂造”

標簽：

熱門焦點

元宇宙將會如何塑造未來的工作方式？

科幻小說家尼爾·斯蒂芬森 (Neal Stephenson) 在1992年就創造了“元宇宙”一詞，但事實上，在Facebook將其更名為Meta以反映其將這一科幻愿景變為現實的戰略重點之
國內涌現70余家數字藏品平臺：合規、流量與利潤在博弈

作者：楊鄭君2月16日，迅雷鏈企業數字藏品服務平臺正式上線，繼阿里、騰訊、京東、百度、網易等之后，又一家互聯網企業正式加入到火熱的數字藏品平臺的競爭中。除互聯
傳統互聯網與區塊鏈場景下數據權利法律分析

數據權益的復雜性在于數據涉及多環節多主體、內容不同質且與不同場景緊密聯系、對軟硬件技術環節緊密相關等方面的復雜性。在傳統互聯網與區塊鏈模式下，數據處
費城藝術家使用區塊鏈，在數字藝術中狠狠撈一筆

?你也想賺錢發財走上人生巔峰嗎？老雅痞給你指條路，現在也許是時候創建或購買或出售 NFT的好時機。費城地區的許多企業家都在這樣做。但投資需謹慎，入行有風險，在
就業年齡歧視如何解決？來Web3看看

上周，我突然想到我的第一份工作實際上是在為一家失敗的航空公司制定破產退出計劃，那年我們的協議實習生剛出生。在一陣恐慌后，我又花了一點時間反思我這個擁有近1
以太坊面臨來自Fantom的巨大挑戰

眾所周知，區塊鏈和加密貨幣項目經常因其對環境的影響而受到批評。但是有一個非營利性的加密貨幣和區塊鏈項目說它比其他的更環保。今天老雅痞就給大家聊一聊加
趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

作者：五火球教主前不久，趙長鵬在《財富》雜志印度版塊刊登評論。他表示：“DeFi 在 2021 年出現了快速創新，我們可能會在 2022 年看到蓬勃發展的興趣和創新，其中 Soc
超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

在2021年《福布斯》區塊鏈50強榜單中，29家企業使用Hyperledger超級賬本技術，占比近60%。同年，研究機構Blockdata發布了的調查報告顯示，訪問Top100上市公司中，有 81
TX加入的NFT數字收藏品，元宇宙的破圈之路?

3月7日，澳大利亞 NFT 初創公司 Immutable 在新加坡淡馬錫牽頭的R資中以估值 25 億美元完成2億美元R資，騰訊參投。想必國人最熟知的應該就是TX，作為國內四大互聯網

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

字節跳動發布豆包視頻生成模型，這效果讓我分不清 AI 與現實

元宇宙將會如何塑造未來的工作方式？

國內涌現70余家數字藏品平臺：合規、流量與利潤在博弈

傳統互聯網與區塊鏈場景下數據權利法律分析

費城藝術家使用區塊鏈，在數字藝術中狠狠撈一筆

就業年齡歧視如何解決？來Web3看看

以太坊面臨來自Fantom的巨大挑戰

趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

TX加入的NFT數字收藏品，元宇宙的破圈之路?

最新推薦

中國虛擬數字人如何橫向拓展市場需求，探索發展場景?

從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

從虛擬餐廳到虛擬時裝秀，行業巨頭掀起元宇宙商標注冊潮

虛擬數字人：元宇宙的主角破圈而來

NFT世界的藝術家名單

虛擬人的3大紀律和6種品牌孵化模式

猜你喜歡

熱門推薦

相關資訊