移動 AI 普及背后的故事 —— 來自三星電子中國研究院的人們與創新
在三星不斷創新,持續引領卓越移動 AI 體驗的背景下,我們拜訪了位于世界各地的三星電子研究院,力求探究 Galaxy AI 是如何助力用戶釋放無限潛能的。如今,Galaxy AI 憑借已支持的 16 種語言,可以服務更多不同語種的用戶,即便是在離線狀態下,用戶也能利用基于端側 AI 的通話實時翻譯、翻譯助手、筆記助手和瀏覽助手等功能,跨越語言壁壘。那么,關于 Galaxy AI 語言翻譯的研發,又有哪些背后的故事呢?上一期,我們拜訪了位于越南的三星電子研究院,了解了用于 AI 模型訓練的數據是如何收集的。這一期,我們將走近中國團隊,看他們是如何為中國用戶們提供獨特的 Galaxy AI 體驗的。
在全球范圍內,基于大語言模型(LLM)的 AI 工具正在飛速發展,中國也不例外。隨著百度 ERNIE Bot 和美圖 Miracle Vision 的發展普及,三星電子中國研究院也選擇了與這兩家公司深入合作,共同打造屬于中國市場的 Galaxy AI 功能。
攜手不同 AI 合作伙伴,使得 Galaxy AI 在后端乃至底層技術的整合面臨了巨大的挑戰,但三星電子中國研究院的北京和廣州團隊必須在規定的時間內,讓中國用戶獲得與全球其他用戶相同的 Galaxy AI 體驗。因此,他們利用第三方合作伙伴提供的中國方言專用資源,為中國用戶打造了獨一無二的 Galaxy AI 解決方案。
三星電子廣州研究院軟件創新團隊負責人張海榕表示:“我們的優勢在于能夠將全球最好的實踐經驗與中國本土的實踐經驗相融合,并通過與中國用戶的日常交流了解用戶的需求,不斷改進提升,開發新功能。我們的團隊憑借在 Galaxy S24 項目中積累的豐富開發經驗,與百度、美圖等中國本土人工智能公司攜手合作,帶來了真正贏得用戶共鳴的解決方案,對此我深感自豪。”
一開始,各團隊都需要適應彼此的工作方式,并解決項目初期信息不對等的問題。對此,三星電子中國研究院院長張代君成立了一個特別工作組,以確保項目能夠按照研發規劃快速地推進并完成目標。
憑借北京團隊在大模型生成方面的豐富經驗,以及與第三方合作伙伴的成功合作,所有的生成式 AI 功能最終在中國成功問世,為中國用戶帶來了更為本土化的具備特定市場功能(如“觸摸搜索”)的解決方案。
基于中文開發粵語方言模型
早在 2024 年 1 月 Galaxy S24 上市之際,Galaxy AI 便已支持了普通話,但對于三星電子中國研究院而言,工作仍未結束。在此之后,中國團隊投入到了支持粵語的 AI 模型研發工作中。該項研究將在普通話語言模型的基礎上,進一步解決粵語語言特征所帶來一系列新問題。
在粵語 AI 語言模型的開發過程中,研發團隊面臨的主要難題就是文化方面的差異。首先,香港的書寫和口語是兩套不同的系統。香港用戶在書寫時使用類似普通話的語法和表達方式,而在日常交流時則采用完全不同的口語語法。此外,粵語發音有九個聲調,而普通話則有四個。
另一個文化差異則是粵語方言本身也在與時俱進,并且很多時候人們經常會在對話中將粵語和英語混在一起用,因此,創建測試用例、驗證語言包的復雜程度不言而喻。
"粵語是一種非常獨特的方言,在不同的粵語地區會有不同的說法," 負責粵語 AI 解決方案測試工作的李靖表示,"一些俚語、短語、詞匯甚至音調在不同地方都不盡相同。因此,我們對大量香港的詳細數據進行了核對,并校對了數以萬計的相關測試案例。"
考慮到這些復雜性,三星電子中國研究院的北京和廣州團隊合作實現了在粵語和英語的混合語音識別中支持深層代碼混合、在機器翻譯中支持書面和口語表達、在語音合成中使用當前的發音。
溝通中的文化影響
當 Galaxy AI 的粵語語言包可供使用時,消費者的反饋很好地表明了三星研發團隊的辛勤工作都是值得的。
三星 Galaxy AI 的項目經驗表明,不管是在中國大陸還是中國香港地區,一個全球品牌不僅應擁有專業的當地團隊和相關的當地知識,還要具備與當地第三方合作伙伴開展開放合作的能力。在中國香港地區,粵語是構建當地居民文化特性的重要部分。為此,當地團隊必須研發正確的人工智能語言模型。
三星電子中國香港地區負責人 Henry Wat 表示:“在任何地方、任何行業中,語言以及溝通交流都非常重要。無論是來自哪里的語言,任何能幫助人們溝通交流的工具都是非常可貴的,我堅信我們的工作很有意義。”
在下一期《學習曲線》中,我們將前往巴西,了解一個團隊如何跨越文化和國界,讓更多人體驗到 Galaxy AI。
本文鏈接:http://www.tebozhan.com/showinfo-26-92329-0.html學習曲線 4:更精進的 AI 模型與不斷演進的語言
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com