7 月 22 日消息,微軟在巴黎公布了兩項重大舉措,旨在保護歐洲語言和文化遺產,并進一步鞏固歐洲在人工智能時代的競爭地位。這兩項計劃是對微軟此前“歐洲數字承諾”的延續和升級,該承諾圍繞擴展人工智能與云基礎設施、強化數據隱私、提升網絡韌性,以及支持歐洲整體數字競爭力四大方向展開。新舉措的核心目標,是讓歐洲語言和文化資產在互聯網上更易獲取,并在大語言模型(LLMs)中得到更好的體現。
歐洲擁有 200 多種語言,承載著跨越千年的文化積淀,長期以來為創意表達、商業活動、科技創新和跨境貿易提供支撐。然而,隨著網絡內容越來越以英語為主導,且大多呈現美式視角,歐洲的商業與文化在這種訓練數據失衡的背景下面臨被邊緣化的風險。微軟副董事長兼總裁布拉德?史密斯(Brad Smith)指出:“如果人工智能無法理解歐洲的語言、歷史與價值觀,它就無法真正服務于歐洲的人民、企業和未來。”
據了解,失衡的數據現狀在模型評測中有直觀體現。以開源模型 Llama 3.1 為例,其在希臘語上的得分比英語低 15 分以上,在拉脫維亞語上更是低 25 分以上,呈現出典型的“英語頂尖、希臘語中等、拉脫維亞語墊底”的分層現象,這一模式在主流大語言模型基準測試中都有出現。
為扭轉這一局面,微軟將在法國斯特拉斯堡的創新中心集中專業力量,依托 Microsoft Azure 平臺開發和整理多語言數據集。來自微軟開放創新中心(MOIC)與 AI for Good Lab 的團隊,將與全歐洲的文化機構、學術伙伴及技術企業協作,重點擴充 10 種使用人數較少的歐洲語言的訓練數據,包括愛沙尼亞語、阿爾薩斯語、斯洛伐克語、希臘語和馬耳他語等。
與此同時,微軟面向公眾發布提案征集令,尋找可用于人工智能開發的數字文本、轉錄稿及其他資料。所有獲選項目將獲得 Azure 積分,以及工程與技術支援。申請通道將于 2025 年 9 月 1 日在 AI for Good Lab 官網正式上線。
在文化數字化方面,微軟宣布今秋將擴展“Culture AI”項目,攜手法國文化部與專業遺產數字化機構 Iconem,為擁有 862 年歷史的巴黎圣母院打造高精度數字孿生。此前的 Culture AI 已成功完成希臘古奧林匹亞、法國圣米歇爾山、羅馬圣彼得大教堂以及諾曼底盟軍登陸海灘的數字化保存。
微軟表示,這些新舉措建立在該公司 40 余年的本地化經驗之上:目前 Windows 已支持 90 多種語言,涵蓋歐盟所有官方語言以及巴斯克語、加泰羅尼亞語、加利西亞語、盧森堡語和瓦倫西亞語等地區語言;Microsoft 365 的 Office 界面也提供 30 多種歐洲語言版本。通過把歐洲語言和文化資產深度融入 AI 與云平臺,微軟既希望守護歐洲大陸的珍貴遺產,也致力于為歐洲企業與公民在數字時代賦能。
微軟方面強調,上述行動均以“支持性”角色展開:輸出開放數據、工具與專業知識,而非任何專有資產。
本文鏈接:http://www.tebozhan.com/showinfo-45-14879-0.html給 AI“補補課”:微軟砸資源搶救歐洲小語種
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com