當前位置：首頁 > 科技 > 資訊

大模型套殼往事

來源：責編：時間：2025-07-15 12:13:17 27觀看

導讀華為盤古大模型涉嫌套殼阿里云Qwen大模型的風波，再次將模型“原研”與“套殼”的討論擺上了臺面?；厮萑昵埃贑hatGPT剛剛開啟大模型航海時代時，那時候的套殼還停留在小作坊山寨ChatGPT的階段。調用ChatGPT的API，接口再

華為盤古大模型涉嫌套殼阿里云Qwen大模型的風波，再次將模型“原研”與“套殼”的討論擺上了臺面。

回溯三年前，在ChatGPT剛剛開啟大模型航海時代時，那時候的套殼還停留在小作坊山寨ChatGPT的階段。調用ChatGPT的API，接口再包上一層“中文UI”，就能在微信群里按調用次數賣會員。那一年，套殼成了很多人通往AI財富故事的第一張船票。

同時，開始自主研發大模型的公司里，也不乏對ChatGPT的借力。這些企業雖然有著自研的模型架構，但在微調階段或多或少利用了ChatGPT或GPT-4等對話模型生成的數據來做微調。這些合成語料，既保證了數據的多樣性，又是經過OpenAI對齊后的高質量數據。借力ChatGPT可以說是行業內公開的秘密。

從2023年開始，大模型賽道進入開源時代，借助開源框架進行模型訓練，成為了很多創業團隊的選擇。越來越多的團隊公開自己的研究成果，推動技術的交流與迭代，也讓套殼開發成為了更普遍的行為。隨意之而的，爭議性的套殼事件也逐漸增多，各種涉嫌套殼的事件屢次沖上熱搜，隨后又被相關方解釋澄清。

國內大模型行業也在“套”與“被套”中，輪番向前發展著。

GPT火爆的那一年：山寨API和造數據

回顧AI的進化史，今天我們看到各類大模型都源自同一個鼻祖——2017年Google Brain團隊發布的Transformer神經網絡架構。Transformer的原始架構和核心包括編碼器（Encoder）與解碼器（Decoder），其中，編碼器負責理解輸入文本，解碼器負責生成輸出文本。

如今，在大型語言模型領域依然采用三大主流Transformer架構：Decoderonly（如GPT系列）、EncoderDecoder（如T5）和Encoderonly（如BERT）。不過，最受關注和應用最廣泛的，是以Decoderonly為核心的GPT式架構，并不斷衍生出各種變體。

2022年11月，基于GPT3.5，OpenAI推出ChatGPT，發布后短時間內獲取數千萬用戶，讓LLM正式登上公眾舞臺，也將GPT架構推為主流AI架構。隨著ChatGPT打響大模型時代第一槍，各大廠商紛紛涌入大模型研發賽道。由于ChatGPT無法直接接入國內用戶，一些小作坊也看到了套殼的牟利前景。

2022年底開始，許多山寨ChatGPT在互聯網上涌現，此時的套殼基本不涉及任何二次開發，很多開發者直接包裝一下API就拿出來賣錢。

2022年底至2023年，國內涌現數百個ChatGPT鏡像站，包括名噪一時的“ChatGPT在線”公眾號，運營者拿到OpenAI API，再在前端加價售賣。這種低劣的套殼手段很快就被監管部門發現，“ChatGPT在線”背后的上海熵云網絡科技有限公司，就因涉嫌仿冒ChatGPT被罰6萬元，成為首例“ChatGPT套殼”行政處罰。

另一方面，在同期發布的其他模型中，時常出現一些“GPT味”的回復，這些模型背后的企業也遭受了套殼質疑。

2023年5月，曾有網友發現，訊飛星火大模型在有些問答中會出現“我是由OpenAI開發的”等內容，由此一則關于“訊飛星火大模型被質疑‘套殼ChatGPT’”的消息傳播開來。

這種情況并非個例，甚至2024年發布的DeepSeek V3也曾暴雷，有用戶反映其在測試中出現異常，模型自稱是OpenAI的ChatGPT。相關企業對這類情況的解釋為，這可能是由于訓練數據中混入了大量ChatGPT生成的內容，導致模型“身份混淆”。

互聯網公開信息中AI內容日漸增多造成的數據污染，確實是可能造成這些“GPT味”對話的原因。但另一種可能是，模型研發團隊在微調訓練過程中，主動使用了通過ChatGPT等OpenAI旗下模型構造的數據集，也就是所謂的“數據蒸餾”。

數據蒸餾是大模型訓練中一種高效低成本的知識遷移方式，這里的邏輯就像是用一個強大的“老師模型”（如GPT-4）生成大量高質量問答數據，而后將這些數據喂給一個“學生模型”去學習。

事實上，在GPT -3之后，OpenAI就徹底轉向了閉源，所以對于想要自研大模型的競爭對手而言，并無法在基礎架構層面套殼OpenAI的產品。這些企業或多或少也在模型技術上有一定積累，在架構層面紛紛推出自家的研究成果，但如果想要保證訓練質量，從更強的模型產品那里以借力的方式獲取數據無疑是一種捷徑。

雖然借力ChatGPT/GPT-4生成訓練數據是業內公開的秘密，但一直以來鮮有被披露的案例，直到那起著名的“字節抄作業”事件。2023年12月，外媒The Verge報道稱，字節跳動利用微軟的OpenAI API賬戶生成數據來訓練自己的人工智能模型，這種行為實際上已經違反了微軟和OpenAI的使用條款。在此消息被披露不久，據傳OpenAI暫停了字節跳動的賬戶。

字節跳動方面隨后表示，這一事件是技術團隊在進行早期模型探索時，有部分工程師將GPT的API服務應用于實驗性項目研究中。該模型僅為測試，沒有計劃上線，也從未對外使用。按照字節跳動的說法，其對于OpenAI模型的使用是在使用條例發布之前。

對此，來自國內某頭部AI企業算法部門的葉知秋向（ID：faceaibangg）表示，業內的普遍認知是，數據蒸餾不應該被認為是套殼?！皵祿麴s只是一個手段，通過一個能力足夠強的模型產出數據，對于垂直領域（的另一個模型）去做加訓。”

加訓（Continual Training）是一種常見的提升模型性能的方法。通過在新數據上繼續訓練模型，可以使其更好地適應新的任務和領域。“如果利用數據蒸餾做加訓算套殼，那這個技術就不該被允許?！比~知秋解釋道。

2025年的今天，大模型開發市場日漸成熟，直接調用API“山寨套殼”的模型產品已逐漸消失。在應用層面，隨著AI Agent領域的快速迭代，調用API落地的AI工具已經成為常態，如Manus這類通用AI Agent逐步進入市場，AI應用層面的套殼已經成為了一種常見的技術手段。

而在大模型開發領域，隨著開源時代的到來，模型開發領域的套殼，又陷入了新一輪的爭論。

開源大模型時代：你用我用大家用

進入2023年，許多廠商選擇開源方式公布模型方案，用以刺激開發者群體對模型/模型應用的迭代。隨著meta在2023年7月開源LLaMA 2，標志著AI行業也進入開源時代。在這之后，先后有十余款國產模型通過微調LLaMA 2完成上線。同時，利用開源模型架構進行二次開發，也成為了新的套殼爭議點。

2023年7月，百川智能CEO王小川回應了外界對旗下開源模型Baichuan-7B套殼LLaMA的質疑。他提到，LLaMA 2技術報告里大概有9個技術創新點，其中有6個在百川智能正在研發的模型里已經做到?！霸诟鶯LaMA 2對比的時候，我們在技術的思考里不是簡單的抄襲借鑒，我們是有自己的思考的?！?span style="display:none">iML28資訊網——每日最新資訊28at.com

就在幾個月后，國內AI圈迎來了另一場更洶涌的套殼風波。2023年11月，原阿里技術副總裁、深度學習框架Caffe發明者賈揚清在朋友圈中稱，某家套殼模型的做法是“把代碼里面的名字從LLaMA改成了他們的名字，然后換了幾個變量名。”事后證實，該信息直指零一萬物旗下的Yi-34B模型，開源時代的套殼爭議被搬到臺面上。

一時間，關于零一萬物是否違反了LLaMA的開源協議，在各大技術社區引發了激烈的爭論。隨后，Hugging Face工程師Arthur Zucker下場對這一事件發表了看法。他認為，LLaMA的開源協議主要限制了模型權重，而不是模型架構，所以零一萬物的Yi-34B并未違反開源協議。

事實上，利用開源模型架構只是打造新模型的第一步，零一萬物在對Yi-34B訓練過程的說明中也作出了解釋：模型訓練過程好比做菜，架構只是決定了做菜的原材料和大致步驟……其投注了大部分精力在訓練方法、數據配比、數據工程、細節參數、baby sitting（訓練過程監測）技巧等方面的調整。

對于AI行業而言，推動技術開源化的意義之一是停止“重復造輪子”。從零研發一款全新的模型架構，并跑通預訓練流程需要耗費大量成本，頭部企業開源可以減少資源浪費，新入局的團隊通過套殼得以快速投入到模型技術迭代和應用場景中。百度CEO李彥宏就曾表示：“重新做一個ChatGPT沒有多大意義?；谡Z言大模型開發應用機會很大，但沒有必要再重新發明一遍輪子?！?span style="display:none">iML28資訊網——每日最新資訊28at.com

2023–2024年，AI行業掀起一場“百模大戰”，其中的國產大模型大約10%的模型是基座模型，90%的模型是在開源模型基礎上加入特定數據集做微調的行業模型、垂直模型。套殼幫助大量中小團隊站在巨人的肩膀上，專注于特定領域的工程化和應用探索。

如今，在Hugging Face上按“熱度”排序檢索，以文本模型為例，DeepSeek R1/V3、LLaMA3.2/3.3、Qwen2.5以及來自法國的Mistral系列模型均位居前列，這些開源模型的下載量在幾十萬到上百萬不等。這表明開源極大地促進了行業的進化。目前，Hugging Face平臺上共有超過150萬個模型，其中絕大多數是用戶基于開源架構的衍生產物——sft微調版本、LoRA微調版本等。

另一方面，隨著LoRA與QLoRA等輕量化微調方案面世，定向微調模型的成本也在不斷下降，為中小型團隊進行模型開發提供了有利基礎。麥肯錫在今年5月的一份調查顯示，92%的企業借助對開源大模型的微調提高了24%–37%的業務效率。

2023年以來，模型開發門檻因開源不斷降低，在迎來百模齊放的良好生態之余，也浮現出一些渾水摸魚的惡劣套殼行為。

2024年5月，斯坦福大學的一個研究團隊發布了一個名為LLaMA3V的模型，號稱只要500美元（約人民幣3650元）就能訓練出一個SOTA多模態模型，效果比肩GPT-4V。

但隨后有網友發現，LLaMA3V與中國企業面壁智能在當月發布的8B多模態開源小模型MiniCPM-LLaMA3-V 2.59（面壁小鋼炮）高度重合。在實錘套殼抄襲后，該團隊隨后刪庫跑路。該事件一方面反映出，國產模型憑借其優異性能也成為了被套殼的對象；同時，也再一次引發了業界對開源時代套殼合規邊界的思考。

對于AI行業而言，廠商通過開源以協作的方式可以對模型進行完善與優化，加速推動問題解決與技術創新。由于協作的工作模式和開放的源代碼，開源大模型的代碼具有更高的透明度，并且在社區的監督下，公開透明的代碼能更容易進行勘誤。

“透明度”是促進開源社區交流進步的關鍵，而這需要二次開發的團隊和所有從業者共同維系。在LLaMA3V的案例中，斯坦福方面的研究團隊只是對MiniCPM-LLaMA3-V 2.59進行了一些重新格式化，并把圖像切片、分詞器、重采樣器等變量重命名。

原封不動地拿過來，并且作為自己的學術成果發布，相比起套殼，這更像是徹頭徹尾的抄襲。

所以，套殼的道德邊界，究竟是什么呢？

“套殼”和“自研”的矛盾體

“如果一個團隊沒有以原生模型的名義發表，就不能叫套殼，應該叫模型的再應用?！闭劶疤讱さ亩x，葉知秋這樣說道。在加入大廠項目之前，葉知秋曾參與過一些創業公司的開源項目。他判斷，業內有實力造基礎模型的企業只會越來越少，加速利用開源技術是行業發展的必然，“畢竟核心技術上，只有那幾家公司有?！?span style="display:none">iML28資訊網——每日最新資訊28at.com

葉知秋口中的“核心技術”，指的是從零研發模型基礎架構，并落實預訓練流程的能力。相關報道顯示，國內目前有完整自研預訓練框架的大模型公司數量較少，僅有 5家左右。能“造輪”的企業屈指可數，對此葉知秋的解釋是：“一些企業也有實力投入基礎模型研究，但他們要考慮做這件事的收益。”

“演化和加訓，嚴格來說和套殼是兩碼事?！比~知秋表示，像LLaMA這樣開源架構已經為業內熟知且熟用，很多成果都是在這一架構的基礎上演化而來的。但同時他也強調，套殼合規與否在于冠名問題，利用開源技術就需要在技術文檔中做出明確說明，“如果你是在一個已經開源的模型上進行加訓，那就要在冠名和文檔中體現這一點?！?span style="display:none">iML28資訊網——每日最新資訊28at.com

對于如何理解大模型非法套殼，知識產權法領域的法律界人士秦朝向分享了他的看法。他表示，一些惡劣的“套殼”行為雖然在社會輿論上引發很多反響，在法律視角上卻是另一回事。如何區分套殼和抄襲的界限、如何證明因為套殼行為導致了不當獲利、如何證明具體的獲利額度，這些問題都存在著一定的舉證難度。“目前來說，這一類事情還處于一個灰色地帶。”

秦朝進一步解釋，所謂“借鑒”就是很難區分性質的套殼，一些開發者可能“借鑒”了不止一家企業，然后宣稱是自研產品。除非是簡單粗暴的純套殼，不然很難去界定這一行為的惡劣程度?！岸掖竽Ｐ唾惖腊l展速度極快，走法律流程下來可能要兩三年，到那時技術都更新換代了。”

在技術圈語境下，自研是套殼的反義詞。在葉知秋看來，如果一個模型團隊宣稱自己是全程端到端自研，勢必會吸引業內同行審視的目光，未公開的套殼行為很難真正被掩蓋?！耙粋€開源的模型，其實一切信息都有跡可循，就是看業內人去不去挖掘而已?！?span style="display:none">iML28資訊網——每日最新資訊28at.com

葉知秋進一步解釋道，模型原研廠商都會在大模型組件中留下一些“標簽”，當研發團隊在發布論文時，這些“標簽”就會被用以證明其采用了創新技術。因為一旦團隊宣稱這款模型是自研，那就需要說明，這款新的模型基于傳統模型有什么不一樣的地方?！叭绻麤]有，那大家必然會問，你的模型的架構是從哪來的？”

對于一些企業而言，套殼和自研的取舍，也往往伴隨著成果產出的壓力。另一位資深算法從業者向表示，借鑒架構/方案在業內并不稀奇，因為很多團隊需要盡快解決0到1的問題?！霸诒Ａ艏夹g底線基礎上，能有成果產出是最重要的?！?span style="display:none">iML28資訊網——每日最新資訊28at.com

針對這一現象，葉知秋表示，一些頭部企業雖然在其他領域實力雄厚，但在模型領域，可能在底層的訓練邏輯上缺少經驗和積累。對這些企業而言，充分利用開源技術套殼，可以更快完成從數據層面到模型層面的積淀?！跋褚恍┢髽I在某一領域的‘垂類’大模型，其實都有‘套殼’的成分在?！?span style="display:none">iML28資訊網——每日最新資訊28at.com

“通過‘套殼’去做自己的開發，還是非常低成本高價值的?！弊鳛閺臉I者，葉知秋十分肯定開源為行業帶來的積極影響。他認為，長期來看，單一企業很難在模型能力上建立壁壘，開源有助于整個行業的進步，實現更高的效率、更低的成本，去打造更多的模型能力。

關于開源時代的套殼爭議，葉知秋表示，這些爭議本質上還是跟企業的宣傳口徑有關，“用開源技術不丟人，前提是企業不要宣傳是自研。”

舉報 0收藏 0打賞 0評論 0 更多>同類資訊

宇樹科技獲得出版物零售許可：有效期至2030年07-15

停工停產后羅馬仕重啟天貓旗艦店07-15

保時捷：新款純電卡宴“將塑造電動駕駛的未來”07-15

鴻蒙智行首款旅行車享界S9T無偽裝實車圖曝光07-15

英偉達黃仁勛否認頻繁使用AI會導致認知能力下降07-15

安卓迎來大變化：ChromeOS將跟安卓合并07-15

小馬智行第七代自動駕駛Robotaxi在深圳啟動路測07-15

全面屏新突破，國產屏下3D人臉識別被曝實驗室進版測試07-15

江淮汽車預計上半年凈虧6.8億元07-15

現代汽車稱Ioniq 6 N不為賺錢07-15

比亞迪加大沙特市場擴張力度07-15

德國地方法院裁決Meta因違反GDPR需向原告賠償5000歐元07-15

消息稱三星將停更Galaxy S系列手機Plus版、FE版機型07-15

數碼博主曝光旗艦工程機鏡頭設計及傳感器信息07-15

知名學者劉姝威喜提SU7 曾稱雷軍和小米員工營銷能力超強07-15點擊查看更多 +全站最新

順豐把快遞點設在公交站：送包裹速度快了半小時

美國FCC批準T-Mobile收購UScellular無線業務扎克伯格豪言千億美元投資AI之際，水、電資源焦慮升溫

扎克伯格豪言千億美元投資AI之際，水、電資源焦慮升溫理想汽車有多“摳”：李想本人當車模在自己公司園區拍攝

理想汽車有多“摳”：李想本人當車模在自己公司園區拍攝

消息稱字節跳動Pico正開發MR眼鏡：重量僅127克

奔馳發布首款電動旅行車CLA Shooting Brake熱門內容

大瓜！宗慶后冒出三個私生子女，越扒越心涼！
吉祥航空HO1860航班發動機故障，起飛中斷致歉乘客并安排補償
充電寶巨頭羅馬仕風波：大規模召回，業務暫停，監管上門
無3C認證及召回型號充電寶能帶上火車嗎？12306客服回應
周鴻祎趣談不買黃金理由：重量成考量，投資需謹慎
微軟中國區裁員方案曝光：服務年限定賠償，最高可獲N+7補償
25歲刮膩子女網紅“小桃子吖”去世
索尼確認已啟動PS6游戲機開發工作有望2028年前后發布
AI聊天軟件亂象叢生，央視曝光筑夢島App低俗內容危害未成年人
比亞迪全球研發中心：星際之環初現，未來科技與中國底蘊融合之地
充電寶新規！民航局禁帶無3C標識或安全隱患充電寶登機
淘寶推薦大模型RecGPT上線，“猜你喜歡”精準度大幅提升
深航客機起飛后半小時備降南京，客服：航司原因已更換飛機繼續飛行
賈躍亭和仨兒女在美國團聚前妻甘薇給他準備了桃酥
大疆無人機美國缺貨引猜測，官方：正解決海關誤會

本欄最新

MiniMax即將完成近3億美元新融資，此前已傳赴港股上市

理想汽車新建算力資源部，由龍開文管理蘋果iPhone 17的靈動島或進行重大升級最快9月初發布

蘋果iPhone 17的靈動島或進行重大升級最快9月初發布

新國標要求電子產品應內置一鍵信息清除功能

零跑VLM/VLA大模型有望明年上車

特斯拉擴大奧斯汀Robotaxi服務區域，地圖形似生殖器

本文鏈接：http://www.tebozhan.com/showinfo-16-169402-0.html大模型套殼往事

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：天舟九號貨運飛船發射升空

下一篇：宇樹科技獲得出版物零售許可：有效期至2030年

標簽：

熱門焦點

線程通訊的三種方法！通俗易懂

線程通信是指多個線程之間通過某種機制進行協調和交互，例如，線程等待和通知機制就是線程通訊的主要手段之一。在 Java 中，線程等待和通知的實現手段有以下幾種方式：Object 類下
JVM優化：實戰OutOfMemoryError異常

一、Java堆溢出堆內存中主要存放對象、數組等，只要不斷地創建這些對象，并且保證 GC Roots 到對象之間有可達路徑來避免垃圾收集回收機制清除這些對象，當這些對象所占空間超過
小米MIX Fold 3配置細節曝光：搭載領先版驍龍8 Gen2+罕見5倍長焦

這段時間以來，包括三星、一加、榮耀等等有不少品牌旗下的最新折疊屏旗艦都得到了不少爆料，而小米新一代折疊屏旗艦——小米MIX Fold 3此前也屢屢被傳
網傳小米汽車開始篩選交付中心建筑面積不低于3000平方米

7月7日消息，近日有微博網友@長三角行健者爆料稱，據經銷商集團反饋，小米汽車目前已經開始了交付中心的篩選工作，要求候選場地至少有120個車位，建筑不能低
郭明錤稱華為和江淮汽車合作開發問界MPV，定價100萬左右、計劃明年量產

8 月 1 日消息，郭明錤今天在 Medium 平臺發布博文，稱華為正在和江淮汽車合作，開發售價在 100 萬元的問界 MPV，預計在 2024 年第 2 季度量產，銷量目標為
三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

據官方此前宣布，三星將于7月26日也就是今天在韓國首爾舉辦Unpacked活動，屆時將帶來帶來包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
iQOO Neo8 Pro即將開售：到手價3099元起安卓性能最強旗艦

5月23日，iQOO如期舉行了新品發布會，全新的iQOO Neo8系列也正式與大家見面，包含iQOO Neo8和iQOO Neo8 Pro兩個版本，其中標準版搭載高通驍龍8+，而Pro版更
iQOO Neo8系列或定檔5月23日：首發天璣9200+ 安卓跑分王者

去年10月，iQOO推出了iQOO Neo7系列機型，不僅搭載了天璣9000+，而且是同價位唯一一款天璣9000+直屏旗艦，一經上市便受到了用戶的廣泛關注。在時隔半年后，
榮耀Magic4 至臻版首創智慧隱私通話強勁影音系統

2022年第一季度臨近尾聲，在該季度內，許多品牌陸續發布自己的最新產品，讓大家從全新的角度來了解當今的手機技術。手機是電子設備中，更新迭代十分迅速的一款產品，基

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

大模型套殼往事

線程通訊的三種方法！通俗易懂

JVM優化：實戰OutOfMemoryError異常

小米MIX Fold 3配置細節曝光：搭載領先版驍龍8 Gen2+罕見5倍長焦

網傳小米汽車開始篩選交付中心建筑面積不低于3000平方米

郭明錤稱華為和江淮汽車合作開發問界MPV，定價100萬左右、計劃明年量產

三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

iQOO Neo8 Pro即將開售：到手價3099元起安卓性能最強旗艦

iQOO Neo8系列或定檔5月23日：首發天璣9200+ 安卓跑分王者

榮耀Magic4 至臻版首創智慧隱私通話強勁影音系統

最新推薦

猜你喜歡

熱門推薦

相關資訊