【新智元導讀】谷歌的 Gemma 2 剛剛發布,清華和北航的兩名博士生就已經成功推出了指令微調版本,顯著增強了 Gemma 2 9B / 27B 模型的中文通用對話、角色扮演、數學、工具使用等能力。
眾所周知,很多國外 LLM 一直存在非英語歧視問題,英語和其他語言在 LLM 中存在的性能差距有時可以用懸殊來形容。
之前就有網友發現,GPT-4o 分詞器語料庫中,中文數據污染非常嚴重,賭博色情網站是一個也不少,嚴重影響了我們用中文和 AI 機器人好好聊天。
最近發布的 Gemma 2 模型雖然既開源又強悍,但比較遺憾的是,其中文水平相較英文水平還有一定的距離。
不過,我們可以用微調來解決,Fine-tune it!
7 月 1 日,Gemma 2 剛發布 4 天,清華大學的一名人工智能博士生王慎執就在 X 上隆重推出了一款微調模型 Gemma-2-9B-Chinese-Chat。
Gemma-2-9B-Chinese-Chat 是第一個為中文和英文用戶量身定制的 Gemma-2 模型,針對超過 100K 的偏好對進行了微調!
我們的模型在中文提示方面表現出色,并顯示出更好的邏輯、編碼、數學和寫作技能。
關于項目的更多信息,可以在 Huggingface 上查閱。
項目地址:https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat
更讓人驚喜的是,1 天之后,27B 的微調版本也上線了。根據 HuggingFace 主頁信息,模型的下載量已經超過了 3.4 萬。
項目地址:https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-Chat
項目介紹顯示,采用的微調算法是 ORPO,ORPO 將監督微調(SFT)和 RLHF 或 DPO 等偏好對齊方法合二為一,是一種非常聰明的算法。
與原來的 9B Gemma 2 模型相比,微調的 Gemma-2-9B-Chinese-Chat 模型大大減少了「中文問題英文回答」和「中英文混雜回答」的問題,在角色扮演、工具使用和數學方面的表現都有所提高。
就連應對「最佳中文訓練數據」弱智吧的問題,都有非常出色的表現。
示例微調模型貢獻者給出了一些示例,包括角色扮演、函數調用、數學、弱智吧、安全、寫作、編碼等。
而且還給出了一個在線 demo,嘿嘿,這下有得玩了。
角色扮演首先讓 LLM 扮演周杰倫唱 rap:
再扮演魯智深試試呢?給出的示例是下面這樣似兒的 ——
但小編用在線 demo 親自嘗試了一下,發現這位魯智深「粗魯」不起來,目前還沒有很好的連續性。
年齡問題、雞兔同籠問題,Gemma-2-9B-Chinese-Chat 都輕松應對。
弱智吧的各種文字游戲,是 NLP 程序員最討厭的,但微調模型在處理弱智吧的一些言論時,似乎表現還不錯。
用戶輸入:
Hereisalistoftoolsthatyouhaveavailabletoyou:```pythondefinternet_search(query:str):"""ReturnsalistofrelevantdocumentsnippetsforatextualqueryretrievedfromtheinternetArgs:query(str):Querytosearchtheinternetwith"""pass``````pythondefdirectly_answer():"""Callsastandard(un-augmented)AIchatbottogeneratearesponsegiventheconversationhistory"""pass```Write'Action:'followedbyalistofactionsinJSONthatyouwanttocall,e.g.Action:```json[{"tool_name":"toolname(oneof[internet_search,directly_answer])","parameters":"theinputtothetool"}]微調模型輸出:
[{"tool_name":"internet_search","parameters":{"query":"biggestpenguinintheworld"}}]安全讓模型「寫一段關于人工智能的綜述」,你將會得到 ——
人工智能(AI)是計算機科學的一個分支,它專注于創造能夠執行復雜任務的智能機器。AI 的目的是創建能夠學習、解決問題和理解自然語言的系統。人工智能的應用非常廣泛,包括圖像識別、語音助手、推薦系統、自動駕駛汽車和預測性維護等。
AI 技術可以分為幾個不同的類別,包括機器學習、深度學習和自然語言處理。機器學習是人工智能的一個分支,它專注于創建能夠從數據中學習和做出預測的算法。深度學習是機器學習的一個子集,它使用人工神經網絡來模擬人類大腦的功能。
AI 在醫療保健、金融、運輸和零售等多個行業都有廣泛的應用。在醫療保健領域,AI 正在幫助醫生診斷疾病、預測患者護理需求以及個性化治療計劃。在金融服務行業,AI 正在用于欺詐檢測、風險管理和個性化投資建議。
AI 在提高效率、減少成本并推動創新方面有著巨大的潛力。然而,AI 也帶來了挑戰,包括就業的流失、隱私問題以及倫理考慮。隨著 AI 技術的快速發展,各國政府和組織正在制定新的法律和法規來應對這些挑戰。
總之,人工智能是當今世界最激動人心的創新之一。隨著 AI 技術的不斷進步,它有潛力徹底改變我們的工作方式、生活方式和社會結構。然而,AI 也提出了新的倫理和社會問題,這些問題需要我們仔細考慮。
編碼用戶輸入:
用 python 寫一個函數實現快速排序算法,要求輸入為一個列表,列表里的元素都是 float 類型,返回一個排好序后的列表。記住要給代碼加中文注釋。
微調模型輸出:
defquick_sort(nums):#快速排序的遞歸函數#如果列表長度小于等于1,則直接返回,因為列表已經是排序好的iflen(nums)<=1:returnnums#選擇基準值,這里選擇列表的第一個元素pivot=nums[0]#分隔列表,將小于基準值的元素放在左側,大于基準值的元素放在右側left=[numfornuminnums[1:]ifnum<pivot]right=[numfornuminnums[1:]ifnum>=pivot]#遞歸地對左側和右側進行快速排序left=quick_sort(left)right=quick_sort(right)#將左側、基準值、右側合并成一個排序后的列表returnleft+[pivot]+right作者信息Gemma-2-9B-Chinese-Chat 和 Gemma-2-27B-Chinese-Chat 微調模型的貢獻者是王慎執和鄭耀威。
王慎執同學是清華大學自動化系 LEAP 實驗室的三年級博士生,導師是宋士吉教授和黃高副教授。
在此之前,他在北京航空航天大學沈元榮譽學院計算機科學與技術專業以優異成績獲得工學學士學位。
王慎執
王同學是開源項目的積極倡導者,幾個流行的微調 LLM 都是他發布的,如 Llama3-8B-Chinese-Chat、Llama3-70B-Chinese-Chat 和 Mistral-7B-v0.3-Chinese-Chat。
業余時間,他還會在知乎上寫一些中文科技博客,目前有 10k + 粉絲。
鄭耀威是王慎執在本科期間的同學,他們此前就曾多次合作。
鄭耀威
鄭耀威目前仍在北航讀博,他曾以第一作者在 CVPR、AAAI、WWW 等頂會發表多篇論文,并擔任 AAAI、EMNLP、Neural Computation 等會議和期刊審稿人。
他也是大模型微調框架 LLaMA Factory 的發起人和主要開發者,GitHub 開源項目獲得超過 2 萬星標。
在這些優秀的貢獻者的不斷努力之下,開源模型之路會越走越寬廣,模型的中文能力也會逐漸增強。
參考資料:
https://x.com/ShenzhiWang_THU/status/1807640624402923779
https://huggingface.co/shenzhi-wang/Gemma-2-9B-Chinese-Chat
https://huggingface.co/shenzhi-wang/Gemma-2-27B-Chinese-Chat
本文來自微信公眾號:新智元(ID:AI_era)
本文鏈接:http://www.tebozhan.com/showinfo-45-5050-0.html清華北航博士生「強迫」Gemma-2 說中文!弱智吧、角色扮演、數學問題表現驚喜
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com