快科技2月18日消息,階躍星辰、吉利汽車集團(tuán)聯(lián)合宣布,雙方合作的階躍兩款Step系列多模態(tài)大模型,正式向全球開發(fā)者開源,即日起可在躍問(wèn)APP內(nèi)體驗(yàn)。
其中,階躍Step-Video-T2V是目前全球范圍內(nèi)參數(shù)量大、性能好的開源視頻生成模型,階躍Step-Audio則是行業(yè)內(nèi)首款產(chǎn)品級(jí)的開源語(yǔ)音交互大模型,堪稱懂中國(guó)話。
階躍星辰(StepFun)是吉利汽車集團(tuán)的科技生態(tài)戰(zhàn)略合作伙伴,公司成立于2023年4月,總部位于上海,由微軟前全球副總裁姜大昕擔(dān)任CEO,致力于實(shí)現(xiàn)AGI(通用人工智能),2024年下半年其多模態(tài)API的調(diào)用量增長(zhǎng)超45倍。
階躍Step-Video-T2V的參數(shù)量達(dá)到300億,可以直接生成204幀、540p分辨率的高質(zhì)量視頻。
在復(fù)雜運(yùn)動(dòng)、美感人物、視覺(jué)想象力、基礎(chǔ)文字生成、原生中英雙語(yǔ)輸入、鏡頭語(yǔ)言等方面,它都具備強(qiáng)大的生成能力,而且語(yǔ)義理解和指令遵循能力突出。
網(wǎng)頁(yè)端體驗(yàn)鏈接:https://yuewen.cn/videos
同時(shí),階躍星辰還發(fā)布并開源了針對(duì)文生視頻質(zhì)量評(píng)測(cè)的新基準(zhǔn)數(shù)據(jù)集Step-Video-T2V-Eval,包含128條源于真實(shí)用戶的中文評(píng)測(cè)問(wèn)題,可評(píng)估生成視頻在運(yùn)動(dòng)、風(fēng)景、動(dòng)物、組合概念、超現(xiàn)實(shí)、人物、3D動(dòng)畫、電影攝影等11個(gè)內(nèi)容類別上質(zhì)量。
評(píng)測(cè)結(jié)果顯示,階躍Step-Video-T2V的模型性能在指令遵循、運(yùn)動(dòng)平滑性、物理合理性、美感度等方面的表現(xiàn),均顯著超過(guò)市面上既有的效果佳的開源視頻模型。
階躍Step-Audio能夠根據(jù)不同的場(chǎng)景需求,生成情緒、方言、語(yǔ)種、歌聲和個(gè)性化風(fēng)格的表達(dá),能夠和用戶自然地高質(zhì)量對(duì)話。
模型生成的語(yǔ)音具有超自然、高情商等特征,同時(shí)也能實(shí)現(xiàn)高質(zhì)量的音色復(fù)刻并進(jìn)行角色扮演,滿足影視娛樂(lè)、社交、游戲等行業(yè)場(chǎng)景下應(yīng)用需求。
在LlaMA Question、Web Questions等五大主流公開測(cè)試集中,階躍Step-Audio的行均超過(guò)了行業(yè)內(nèi)同類型開源模型,位列第一。
尤其是在HSK-6(漢語(yǔ)水平考試六級(jí))評(píng)測(cè)中的表現(xiàn)尤為突出,堪稱懂中國(guó)話的開源語(yǔ)音交互大模型。
階躍星辰還自建并開源了多維度評(píng)估體系StepEval-Audio-360基準(zhǔn)測(cè)試,從角色扮演、邏輯推理、生成控制、文字游戲、創(chuàng)作能力、指令控制等9項(xiàng)基礎(chǔ)能力的維度,對(duì)開源語(yǔ)音模型進(jìn)行評(píng)測(cè)。
人工橫評(píng)結(jié)果顯示,階躍Step-Audio的模型能力十分均衡,且在各個(gè)維度上均超過(guò)了此前市面上效果佳的開源語(yǔ)音模型。
值得一提的是,Hugging Face聯(lián)合創(chuàng)始人、CEO Clement Delangue也對(duì)階躍星辰的大模型稱贊不已,認(rèn)為他將是下一個(gè)DeepSeek。
本文鏈接:http://www.tebozhan.com/showinfo-17-131192-0.html階躍星辰、吉利汽車聯(lián)合開源兩款大模型:一個(gè)參數(shù)大、一個(gè)懂中國(guó)話!
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com