快科技3月25日消息,今晚,DeepSeek官宣,DeepSeek V3模型已完成小版本升級(jí)。
目前版本號(hào)為DeepSeek-V3-0324,用戶(hù)登錄官方網(wǎng)頁(yè)、App、小程序進(jìn)入對(duì)話界面后,關(guān)閉深度思考即可體驗(yàn),API 接口和使用方式保持不變。
雖然是小版本更新,但從反饋來(lái)看,這次升級(jí)帶來(lái)的性能提升卻相當(dāng)顯著,特別是在前端開(kāi)發(fā)、數(shù)學(xué)推理和上下文理解方面有了明顯進(jìn)步。
據(jù)了解,新版V3模型借鑒DeepSeek-R1模型訓(xùn)練過(guò)程中所使用的強(qiáng)化學(xué)習(xí)技術(shù),大幅提高了在推理類(lèi)任務(wù)上的表現(xiàn)水平,在數(shù)學(xué)、代碼類(lèi)相關(guān)評(píng)測(cè)集上取得了超過(guò)GPT-4.5的得分成績(jī)。
同時(shí),在HTML等代碼前端任務(wù)上,新版V3模型生成的代碼可用性更高,視覺(jué)效果也更加美觀、富有設(shè)計(jì)感。
在中文寫(xiě)作任務(wù)方面,新版V3模型基于R1的寫(xiě)作水平進(jìn)行進(jìn)一步優(yōu)化,同時(shí)特別提升了中長(zhǎng)篇文本創(chuàng)作的內(nèi)容質(zhì)量。
此外,新版V3模型可以在聯(lián)網(wǎng)搜索場(chǎng)景下,對(duì)于報(bào)告生成類(lèi)指令輸出內(nèi)容更為詳實(shí)準(zhǔn)確、排版更加清晰美觀的結(jié)果。
其他方面,該模型在工具調(diào)用、角色扮演、問(wèn)答閑聊等方面也得到了一定幅度的能力提升。
據(jù)DeepSeek介紹,DeepSeek-V3-0324與之前的DeepSeek-V3使用同樣的base模型,僅改進(jìn)了后訓(xùn)練方法。
私有化部署時(shí)只需更新checkpoint和tokenizer_config.json(tool calls 相關(guān)變動(dòng))。
模型參數(shù)約660B,開(kāi)源版本上下文長(zhǎng)度為128K(網(wǎng)頁(yè)端、App和API提供64K上下文)。
與DeepSeek-R1保持一致,此次DeepSeek開(kāi)源倉(cāng)庫(kù)(包括模型權(quán)重)統(tǒng)一采用MIT License,并允許用戶(hù)利用模型輸出、通過(guò)模型蒸餾等方式訓(xùn)練其他模型。
本文鏈接:http://www.tebozhan.com/showinfo-17-138744-0.htmlDeepSeek V3小版本大升級(jí):推理、前端開(kāi)發(fā)加強(qiáng) 這些能力超越GPT-4.5
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com