11 月 13 日,“數聚未來 —— 鳳凰大模型數據研討沙龍” 成功在京舉行,鳳凰衛視執行總裁兼運營總裁李奇,新浪移動 CEO、新浪 AI 媒體研究院院長王巍,華為云EI產品部部長尤鵬,智譜 AI副總裁劉佳,MiniMax副總編輯蘇彤等多位行業代表出席本次論壇,共同探討高質量數據構建與基于數據驅動的大模型訓練優化。
期間,鳳凰衛視正式推出 “鳳凰智媒 AI 數據業務”,并發布首批 “中文訪談對話數據集” 和 “正向價值對齊數據集”。鳳凰數據的核心目標是推動 AI 數據領域華語數據的豐富與共享,同時為中華文化的傳承與傳播提供AI時代的探索思路和解決方案,讓 AI與中華文化認知對齊更簡單。
數據產業的發展需要AI領域各方同仁共同參與
鳳凰衛視執行總裁兼運營總裁李奇在致辭中表示,數據仍然是目前人工智能發展的短板之一。數據就像是人工智能時代的石油資源,它的開發和應用都將是一個系統工程,需要產業界無數企業共同參與。鳳凰衛視作為一個立足香港、背靠內地、面向全球發展的國際媒體,也將是人工智能時代的積極參與者,期望發揮鳳凰的媒體平臺優勢,為產業界建立一個共建共享的數據平臺,共同推進人工智能的快速發展。
新浪移動 CEO、新浪 AI 媒體研究院院長王巍在主旨演講《數據賦能:微博探索AIGC多場景應用》中提出,圍繞大模型,目前已經形成由基礎設施層、模型層、應用層共同構成的AIGC生態體系。對于媒體而言,AIGC將帶來內容生產方式的變革,AIGC 時代的內容質量、效率及產量都將迎來高速發展。在未來,AI將創造出一種新型的“人機共存消費模式”。
智譜 AI 副總裁劉佳帶來《ChatGLM3: 模型、平臺與應用 》的主旨演講。劉佳表示,隨著 2020 年 ChatGPT 的問世,生成式 AI 步入 “第一階段”。而在當前,市場已進入 “第二階段”,生成式 AI 開始在千行百業落地。劉佳形容說,之前我們找到了錘子,現在我們要發現更多的釘子,讓大模型的能力應用落地。
華為云 EI 產品部部長尤鵬帶來《盤古大模型的數據之道》的主旨演講。尤鵬表示,華為希望和鳳凰衛視一起共建數據黑土地,共同探索產業界自下而上的數據合作路徑和商業模式,共同構建大模型的“數據-算力-商業”飛輪,推動數據產業發展。
中國科學院信息工程研究所研究員張瀟丹介紹了 “正向價值” 對于大模型的重要性。她表示,雖然大模型正處在蓬勃發展的時代,但也存在諸多風險因素,比如虛假信息的生成、語言偏見等,這些風險源自于訓練數據的偏頗、模型自身邏輯缺陷及缺乏糾錯能力等,因此亟需建立大模型的正向價值體系。
MiniMax 副總編輯蘇彤分享了《大模型應用落地與安全管理探索》的主旨演講。百度、京東、螞蟻、360、知乎、曠視、中科聞歌、蜜度、面壁智能等業界廠商代表也出席了此次論壇活動。
行業專家共同探討大模型未來挑戰與機會
除主旨演講外,香港科技大學 (廣州) 協理副校長熊輝,視覺中國創始人、總裁柴繼軍,商湯科技數字文娛總經理欒青,中科聞歌創始合伙人兼 CTO 曹家參加了《“與未來對話” 大模型下一階段的落點挑戰與機會》圓桌論壇,各位來賓就自身領域發表了精彩見解,磐霖資本風險合伙人、獨到科技聯合創始?兼 CTO 陳利人擔任主持人。
香港科技大學 (廣州) 協理副校長熊輝指出,雖然算力是行業公認的中國大模型面臨的挑戰之一,但在他看來,真正的挑戰是數據。雖然國內大模型在中文數據上占有優勢,但整體的中文數據在整個人類知識的數據體系中僅占很小一部分,中國大模型如何能夠真正做到跨語言體系、跨文化體系,構建起高價值、高質量、全方位的數據集,仍然面臨較大挑戰。
視覺中國創始人、總裁柴繼軍表示,AIGC 將會對傳統的版權生態形成極大挑戰。在他看來,人類創作與機器創作能否真正做到人機協同尚無明確答案,如何更好地保護版權,讓內容源頭的創作者分享人工智能再創作的價值,也仍然充滿挑戰。
商湯科技數字文娛總經理欒青指出,當前市場對于大模型的未來發展及應用暫時處在探索階段,需要各方力量共同努力。作為發展大模型公司之一的商湯科技,她表示,鳳凰衛視此次推出的數據平臺令人振奮,期望行業中有更多的媒體、企業能參與其中,推出更多具備結構化、更豐富的數據資源。
中科聞歌創始合伙人兼 CTO 曹家認為,我們需要正視本土大模型與國外以 OpenAI 為首的大模型產品的差距,但本土大模型在中文能力仍具有一定優勢。他表示,大模型的訓練數據首先規模要足夠大,其次需要平衡數據之間的內容配比,同時要保證數據的高質量,清洗掉數據中的冗余、劣質信息。
鳳凰數據:為 AI 時代中華文化傳播提供支撐
作為本次大模型數據研討沙龍的重磅環節,鳳凰衛視正式推出旗下面向 AI 時代的全新業務 ——“鳳凰智媒 AI 數據業務”,并發布首批 “中文訪談對話數據集” 和 “正向價值對齊數據集”。
鳳凰衛視融媒體研發副總經理馮偉表示,高質量的數據語料庫是 AI 時代承載中華文化的新載體,鳳凰數據的核心目標是為 AI 時代的中華文化傳播奠定堅實基礎,讓 AI 與中華文化認知對齊更簡單。
其中, “中文訪談對話數據集” 基于鳳凰衛視訪談類節目生成,規模達百萬輪次,連續對話的平均輪次超 30 輪次。“正向價值對齊數據集” 的構建則以權威學術團隊的研究成果為指導,由鳳凰衛視專業內容團隊人工撰寫而成,規模達十萬個問答對。
除上述兩個數據集外,鳳凰數據還有多個數據集正在加工生成中,包括面向財經領域的評論數據集、面向視頻內容理解領域的視頻問答數據集、面向數字人領域的談話動作數據集和語音合成數據集等。同時,鳳凰數據也在同相關數據伙伴共同構建具有高價值和稀缺性的高質量數據集,包括華語圖文對數據集、華語書籍數據集和網絡流行語數據集。
除了高質量數據集產品外,鳳凰數據還將推出以數據為中心的一站式 AI 訓練平臺,計劃于近期開放內測。平臺將與高質量數據集市實現互聯互通,確保數據在平臺內的安全使用。平臺也將提供一系列以數據為中心的服務,包括豐富的數據處理工具、可視化模型訓練和微調套件、全面的數據和模型評估框架和多云異構的算力資源。
據悉,2024 年,鳳凰數據計劃分三批發布更多高質量數據集,并正式上線 AI 訓練平臺。同時,鳳凰數據還將舉行 “Link + 科技峰會” 和 “AI 數據挑戰賽” 等系列活動,連接各界,解決行業痛點,共同推進 AI 與華語文化的認知進程。
面向高校及科研院所,鳳凰衛視發布了 “鳳凰智媒 AI 筑巢計劃”,提供部分數據集的免費授權,以助力學術研究和創新。鳳凰AI數據官網(https://www.feng-data.com)于發布會當天正式上線,為行業客戶提供數據集試用下載服務。
本文鏈接:http://www.tebozhan.com/showinfo-16-24641-0.html鳳凰大模型數據研討沙龍在京舉辦,鳳凰衛視推出全新AI數據業務
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com