AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 軟件

頂會卷到中學:人大附中吳悠上榜 NeurIPS,入選高中賽道 Spotlight

來源: 責編: 時間:2024-09-29 16:09:49 180觀看
導讀 NeurIPS 2024 放榜,人大附中有高中生一作入選。今年,NeurIPS 率先把 AI 頂會卷到了高中里,正式面向高中生征集論文,還為此專門設置了高中生賽道(High School Projects Track)。現在結果終于出爐,北京大學計算機學院

NeurIPS 2024 放榜,人大附中有高中生一作入選。3Ed28資訊網——每日最新資訊28at.com

今年,NeurIPS 率先把 AI 頂會卷到了高中里,正式面向高中生征集論文,還為此專門設置了高中生賽道(High School Projects Track)。3Ed28資訊網——每日最新資訊28at.com

現在結果終于出爐,北京大學計算機學院的張銘教授分享了一則入圍消息:3Ed28資訊網——每日最新資訊28at.com

人大附中吳悠,有一篇一作論文入選該賽道,還被選為了 Spotlight Project。3Ed28資訊網——每日最新資訊28at.com

3Ed28資訊網——每日最新資訊28at.com

論文題為《Vision-Braille:An End-to-End Tool for Chinese Braille Image-to-Text Translation》,提出了一種中文盲文圖像到文本的端到端翻譯工具。3Ed28資訊網——每日最新資訊28at.com

據張銘教授介紹,吳悠在 2022 年高一加入她的課題組時,就提出了這個項目的想法。3Ed28資訊網——每日最新資訊28at.com

3Ed28資訊網——每日最新資訊28at.com

端到端中文盲文圖像到文本翻譯工具

具體來說,該項目基于谷歌的 mT5 模型,采用 Curriculum Learning(課程學習)方法微調出了一個盲文翻譯模型。3Ed28資訊網——每日最新資訊28at.com

3Ed28資訊網——每日最新資訊28at.com

其中的難點主要包括幾個方面:3Ed28資訊網——每日最新資訊28at.com

缺少數據集:中文盲文翻譯數據集非常稀缺,數據的采集也比較困難,需要耗費大量人力。3Ed28資訊網——每日最新資訊28at.com

盲文數據的特殊性:盲文通過最多三個單元格來表示每個漢字的發音,即聲母、韻母和音調。但在實際使用中,盲文使用者通常會省略大部分聲調符號,這給盲文翻譯帶來了挑戰。3Ed28資訊網——每日最新資訊28at.com

同音字混淆:中文中存在大量同音字,并且由于聲調符號經常被省略,同音字的區分變得更加困難。3Ed28資訊網——每日最新資訊28at.com

為此,論文作者們首先構建了一組中文-盲文數據集,包括 Chinese-Braille-Full-Tone、Chinese-Braille-No-Tone 和 Chinese-Braille-10per-Tone。3Ed28資訊網——每日最新資訊28at.com

作者從萊比錫數據集中收集了 100 萬個不同的中文句子,使用中文盲文在線平臺提供的工具,將收集到的中文句子轉換為“全音”盲文。3Ed28資訊網——每日最新資訊28at.com

而后,為了模擬真實世界中盲文使用者省略聲調的情況,作者識別出這些盲文中代表聲調的部分,并隨機去除了其中 90% 的聲調,創建 Chinese-Braille-10per-Tone 以反映現實世界中中文盲文的使用情況。3Ed28資訊網——每日最新資訊28at.com

數據按照 8:1:1 的比例被劃分為訓練集、驗證集和測試集。3Ed28資訊網——每日最新資訊28at.com

3Ed28資訊網——每日最新資訊28at.com

訓練方法方面,作者使用 RetinaNet 來執行盲文 OCR 任務,將盲文圖像轉換為數字盲文字符。3Ed28資訊網——每日最新資訊28at.com

接著,采用課程學習策略 —— 即從簡單到復雜地安排訓練任務,分三個階段微調了多語言 Transformer 模型 mT5:3Ed28資訊網——每日最新資訊28at.com

第一階段:使用 Chinese-Braille-Full-Tone 數據集作為訓練的簡單部分,讓模型學習基本的翻譯規則。這個數據集中的盲文包含完整的聲調信息。3Ed28資訊網——每日最新資訊28at.com

第二階段:使用 Chinese-Braille-No-Tone 數據集,讓模型在沒有聲調信息的情況下,學會根據上下文猜測正確的中文字符。3Ed28資訊網——每日最新資訊28at.com

第三階段:使用 Chinese-Braille-10per-Tone 數據集,讓模型更好地適應實際應用場景。3Ed28資訊網——每日最新資訊28at.com

實驗結果顯示,在驗證集和測試集上,該模型的 BLEU 得分分別達到了 62.4 和 62.3,顯著提高了盲文翻譯的準確度。3Ed28資訊網——每日最新資訊28at.com

論文作者已經放出了項目 Demo,效果是醬嬸的,感興趣的小伙伴們可以戳文末鏈接自行測試:3Ed28資訊網——每日最新資訊28at.com

3Ed28資訊網——每日最新資訊28at.com

(正確答案:不過,對于自己外向的性格,埃托奧說,“這就是真實的我,我不會為此改變”。)

該項目是在吳悠高三時完成。張銘教授透露,他目前已進入康奈爾大學就讀計算機和生物醫藥工程專業。3Ed28資訊網——每日最新資訊28at.com

論文致謝中提到,吳悠主要是在張銘教授博士生、論文第二作者袁野的指導下完成了這項研究。3Ed28資訊網——每日最新資訊28at.com

張銘,北京大學計算機學院教授,博士生導師,研究領域包括文本挖掘、知識圖譜、圖神經網絡和計算機教育研究等。她合作發表的科研學術論文曾獲 ICML 2014 最佳論文、ICDM 2022 最佳論文提名等榮譽。Google Scholar 顯示,她的論文引用量接近 2 萬,h 指數為 48。3Ed28資訊網——每日最新資訊28at.com

NeurIPS 高中生賽道

NeurIPS 是今年剛設的“高中生賽道”,主要征集“機器學習的社會影響”方向的論文。3Ed28資訊網——每日最新資訊28at.com

3Ed28資訊網——每日最新資訊28at.com

公告是這樣寫的:3Ed28資訊網——每日最新資訊28at.com

提交項目必須說明完全由高中生作者獨立完成的工作。希望每個提交的項目都能突出顯示積極的社會影響,或者使用機器學習產生積極社會影響的潛力。3Ed28資訊網——每日最新資訊28at.com

詳細來說,就是允許高中生們找外部導師來合作完成項目,但必須把導師以及合作者的貢獻,和高中生作者的貢獻區分開來。3Ed28資訊網——每日最新資訊28at.com

公告中還規定了,作者需要提交高中在讀證明,所有補充材料均應完全由作者完成,包括視頻、Demo、海報、網站或源代碼。3Ed28資訊網——每日最新資訊28at.com

值得一提的是,其他頂會也有積極接觸和影響高中生的趨勢。3Ed28資訊網——每日最新資訊28at.com

比如,CVPR 的做法是和高中合作,開展 CV 領域的專業講座等課外活動。3Ed28資訊網——每日最新資訊28at.com

3Ed28資訊網——每日最新資訊28at.com

論文地址:https://arxiv.org/abs/2407.060483Ed28資訊網——每日最新資訊28at.com

Demo 地址:https://vision-braille.com/3Ed28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:魚羊,原標題《人大附高中生中 NeurIPS,入選高中賽道 Spotlight,頂會真卷到中學了》3Ed28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-26-116896-0.html頂會卷到中學:人大附中吳悠上榜 NeurIPS,入選高中賽道 Spotlight

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 甲骨文現持有 Ampere 半導體公司 29% 股份,有望 2027 年完全掌控

下一篇: 寧德時代曾毓群:新的電池護照標準不久后發布,明年將全部實現“零碳工廠”

標簽:
  • 熱門焦點
Top