AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 軟件

淺析數據工程

來源: 責編: 時間:2023-08-09 23:04:02 270觀看
導讀目前數字化轉型對于市場來說并不是一個新鮮事物,從技術視角來看,盡管大模型的涌現帶來人們的更多關注,但人工智能與大數據相關技術仍處于創新階段,各行業正在尋找和探索價值場景與新興技術融合的平衡點,希望在新興技術的加

目前數字化轉型對于市場來說并不是一個新鮮事物,從技術視角來看,盡管大模型的涌現帶來人們的更多關注,但人工智能與大數據相關技術仍處于創新階段,各行業正在尋找和探索價值場景與新興技術融合的平衡點,希望在新興技術的加持下能夠在激烈的競爭中占據有利位置。Xu528資訊網——每日最新資訊28at.com

數據,數據

數據是新一代技術革命下的生產要素,掌握了生產要素與生產要素的加工方式就是掌握了數字經濟下的價值密碼,這已經是業界的基本共識。Xu528資訊網——每日最新資訊28at.com

企業想要更好地管理數據并利用數據,就必須了解數據在現代企業中的產生源頭、組織形態等。企業數字化轉型一般分為三個階段:Xu528資訊網——每日最新資訊28at.com

圖片圖片Xu528資訊網——每日最新資訊28at.com

從數據產生到數據價值落地的過程中,數據的信息密度越來越高,其中蘊含的知識也越來越豐富。通過分析企業數據全流程,企業可以抓住重點環節,因地制宜制定落地規劃,數據 全流程分析是每個企業在進行數據工程落地的前提。Xu528資訊網——每日最新資訊28at.com

數據工程

從軟件開發出現到軟件開發逐步規模化的過程中, IT 從業者 們一點點積累下關于需求、設計、實現、測試、運維等方面的工作最佳實踐。數據在企業內部流轉會經歷多個階段,而每個階段之間還存在著各種各樣的問題。Xu528資訊網——每日最新資訊28at.com

圖片圖片Xu528資訊網——每日最新資訊28at.com

數據工程則是幫助企業高效地挖掘數據價值,持續地賦能業務增長, 加速數據到資產的升華過程的最佳實踐。Xu528資訊網——每日最新資訊28at.com

數據工程包含了需求、設計、構建、測試、維護演進等階段,涵蓋了項目管理、開發過程管理、工程工具與方 法、構建管理、質量管理, 是一套為了應對規模化生產和使用數據、為業務提供數據支撐, 最終產生價值的體系。Xu528資訊網——每日最新資訊28at.com

  • 數據工程是一套體系
  • 數據工程是用來加速數據到價值過程的規模化最佳實踐
  • 數據工程是軟件工程的一部分
  • 數據工程不是傳統軟件工程在數據領域的簡單重現

對于企業來說,數據工程包括三個戰略環節:數據愿景對齊、數據工程落地實施、數據持續運營。Xu528資訊網——每日最新資訊28at.com

圖片圖片Xu528資訊網——每日最新資訊28at.com

愿景對齊的第一步是通過定義、統一業務價值度量框架來識別業務價值場景。探索出的業務價值場景需要包含場景的背景、價值點、 所涉及的用戶、需要什么樣的能力、用戶旅程、所涉及的實體、風險等信息。Xu528資訊網——每日最新資訊28at.com

落地過程就如同孕育新生命一般,其中數據梳理規 劃藍圖,數據架構設計規劃骨架,數據模型設計構成器官,數據接入則賦予信息感知能力,數據處理構成中樞 大腦, 測試、安全部分負責為新生兒提供保護, 每個步驟相互依賴, 缺一不可,通過數據梳理、數據架構設計、數據接入、數據處理、數據測試、數據安全和能力復用與保障七個步驟來實現數據工程落地。Xu528資訊網——每日最新資訊28at.com

數據運營的目的是要形成企業看數據、用數據、將數據作為溝通語言和工具的“數 據文化”,數據只有容易被發現,才有產生價值的可能性。Xu528資訊網——每日最新資訊28at.com

數據工程人員的能力模型

數據工程的落地,歸根結底還是需要由人來完成。構建企業自身的人員能力培養機制、 搭建企業人員數據能力提升通道是數據工程能力持續迭代的重要保障。Xu528資訊網——每日最新資訊28at.com

數據工程師能力模型如下:Xu528資訊網——每日最新資訊28at.com

圖片圖片Xu528資訊網——每日最新資訊28at.com

數據產品經理的能力模型如下:Xu528資訊網——每日最新資訊28at.com

圖片圖片Xu528資訊網——每日最新資訊28at.com

數據分析師的能力模型如下:Xu528資訊網——每日最新資訊28at.com

圖片圖片Xu528資訊網——每日最新資訊28at.com

數據工程是數字經濟下確保數據價值轉化的重要保障,是加速數據轉化為價值的重要手段,需要應對未來數字經濟的大趨勢。為了處理數據領域的各種新問題, 各種新技術、新概念逐漸涌現, 現代數據倉庫、數據湖、湖倉一體、分布式數據架構、機器學習、數據云原生等逐一登上舞臺。Xu528資訊網——每日最新資訊28at.com

數據工程的工具圖譜

數據工程是咨詢公司Thoughtworks 給出的概念, 但仍然是新瓶裝舊酒, 個人可以認為,可以映射成傳統意義上的數據治理。對于數據治理而言,已經有相對成熟的體系, 下面是數據治理的工具全景圖:Xu528資訊網——每日最新資訊28at.com

圖片圖片Xu528資訊網——每日最新資訊28at.com

特別地, 對AI計算的能力支撐工具圖譜而言,如下圖所示:Xu528資訊網——每日最新資訊28at.com

圖片圖片Xu528資訊網——每日最新資訊28at.com

大模型與數據工程

人工智能發展的突破得益于高質量數據的發展,數據是大模型競爭的關鍵要素之一,大模型的訓練需要高質量、大規模、多樣性的數據集,而優質中文數據集是稀缺的。行業數據的價值很高,具有優質數據和一定大模型能力的公司或通過行業大模型賦能業務。Xu528資訊網——每日最新資訊28at.com

未來數據成本在大模型開發中的成本占比或將提升,主要包括數據采集, 清洗, 標注等成本。在模型相對固定的前提下,通過提升數據的質量和數量可以提升整個模型的訓練效果。以數據為中心的AI工作流如下圖所示:Xu528資訊網——每日最新資訊28at.com

圖片圖片Xu528資訊網——每日最新資訊28at.com

從 GPT- 1 到 LLaMA 的大語言模型數據集主要包含六類:維基百科、書籍、期刊、Reddit 鏈接、 Common Crawl 和其他數據集。多模態大模型需要更深層次的網絡和更大的數據集進行預訓練。過 去數年中, 多模態大模性參數量及數據量持續提升。例如, 2022 年 Stability AI 發布的 Stable Diffusion 數據集包含 58.4 億圖文對/圖像,是 2021 年 OpenAI 發布的 DALL-E 數據集的 23 倍。Xu528資訊網——每日最新資訊28at.com

國內各行業數據資源豐富,2021-2026 年數據量規模 CAGR 高于全球,數據主要來源于政 府/傳媒/服務/零售等行業。據 IDC ,2021-2026 年中國數據量規模將由 18.51ZB 增長至 56.16ZB ,CAGR 達到 24.9%,高于全球平均 CAGR。盡管國內數據資源豐富,但由于數據挖掘不足,數據無法自由在市場上流通等現狀,優質中文優質數據集仍然稀缺。Xu528資訊網——每日最新資訊28at.com

百度“文心”大模型訓練特有數據主要包括萬億級的網頁數據,數十億的搜索數據 和圖片數據等。阿里“通義”大模型的訓練數據主要來自阿里達摩院。騰訊“混元”大模 型特有的訓練數據主要來自微信公眾號,微信搜索等優質數據。華為“盤古”大模型的訓練數據公開數據外, 還有 B 端行業數據加持,包括氣象, 礦山, 鐵路等行業數據。商湯 “日日新”模型的訓練數據中包括了自行生成的 Omni Objects 3D 多模態數據集。Xu528資訊網——每日最新資訊28at.com

因此,在這個大模型的時代, 企業的數據工程中要融入面向大模型的數據架構,在數據產生時完成自行標注,同時輔之以數據服務商提供的數據,將大模型作為默認選項形成自己的領域模型。Xu528資訊網——每日最新資訊28at.com

拭目以待!Xu528資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-26-5203-0.html淺析數據工程

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: DDD 必備架構--六邊形架構

下一篇: 電腦軟件:分享五款高效的電腦寶藏軟件,值得收藏!

標簽:
  • 熱門焦點
Top