當前位置：首頁 > 科技 > 軟件

使用Python分析時序數據集中的缺失數據

來源：責編：時間：2023-10-10 18:31:46 253觀看

導讀簡介時間序列數據幾乎每秒都會從多種來源收集，因此經常會出現一些數據質量問題，其中之一是缺失數據。在序列數據的背景下，缺失信息可能由多種原因引起，包括采集系統的錯誤（例如傳感器故障）、傳輸過程中的錯誤（例如網絡連接的

簡介

時間序列數據幾乎每秒都會從多種來源收集，因此經常會出現一些數據質量問題，其中之一是缺失數據。

在序列數據的背景下，缺失信息可能由多種原因引起，包括采集系統的錯誤（例如傳感器故障）、傳輸過程中的錯誤（例如網絡連接的故障）或者數據收集過程中的錯誤（例如數據記錄過程中的人為錯誤）。這些情況經常會在數據集中產生零散和明確的缺失值，對應于采集數據流中的小缺口。

此外，缺失信息也可能由于領域本身的特性而自然產生，從而在數據中形成較大的缺口。例如，某個特征在一段時間內停止采集，從而產生非顯性的缺失數據。

無論底層原因如何，時間序列中存在缺失數據會對預測和預測模型產生嚴重的不利影響，并且可能對個人（例如誤導的風險評估）和業務結果（例如偏差的業務決策、收入和機會的損失）造成嚴重后果。

因此，在為建模方法準備數據時，一個重要的步驟是能夠識別這些未知信息的模式，因為它們將幫助我們決定處理數據的最佳方法，以提高數據的一致性和效率，可以通過某種形式的對齊校正、數據插值、數據填補，或者在某些情況下，進行逐案刪除（即，在特定分析中對具有缺失值的特征省略案例）。

因此，進行全面的探索性數據分析和數據剖析是不可或缺的，這不僅有助于理解數據特征，還能就如何為分析準備最佳數據做出明智決策。

在這個實踐教程中，我們將探索如何使用新版本ydata-profiling最近推出的功能來解決這些相關問題。本文將使用Kaggle上提供的美國污染數據集（許可證DbCL v1.0），該數據集詳細記錄了美國各州的NO2、O3、SO2和CO污染物的信息。

【ydata-profiling】：https://github.com/ydataai/ydata-profiling

【Kaggle上提供的美國污染數據集】：https://www.kaggle.com/datasets/sogun3/uspollution?resource=download

實踐教程：對美國污染數據集進行剖析

為了開始我們的教程，首先需要安裝最新版本的ydata-profiling：

pip install ydata-profiling==4.5.1

然后就可以加載數據，刪除不必要的特征，并專注于我們要研究的內容。為了本例的目的，我們將重點研究亞利桑那州馬里科帕縣斯科茨代爾站測量的空氣污染物的特定行為：

import pandas as pd data = pd.read_csv("data/pollution_us_2000_2016.csv")data = data.drop('Unnamed: 0', axis = 1) # 刪除不必要的索引 # 從亞利桑那州，馬里科帕縣，斯科茨代爾站（站點編號：3003）選擇數據data_scottsdale = data[data['Site Num'] == 3003].reset_index(drop=True)

現在，準備開始對數據集進行剖析！請記住，在使用時間序列剖析時，我們需要傳遞參數tsmode=True，以便ydata-profiling可以識別與時間相關的特征：

# 將'Date Local'改為日期時間格式data_scottsdale['Date Local'] = pd.to_datetime(data_scottsdale['Date Local']) # 創建概述報告profile_scottsdale = ProfileReport(data_scottsdale, tsmode=True, sortby="Date Local")profile_scottsdale.to_file('profile_scottsdale.html')

時間序列概述

輸出報告將與我們已經知道的內容一樣熟悉，但在體驗上有所改進，并新增了時間序列數據的匯總統計：

圖片

從概述中可以通過查看所提供的匯總統計數據，從而對該數據集有一個整體的了解：

它包含14個不同的時間序列，每個時間序列有8674個記錄值；
該數據集報告了2000年1月至2010年12月的10年數據；
時間序列的平均時間間隔為11小時零7分鐘左右。這意味著平均而言每11小時就進行一次測量。

還可以獲取數據中所有序列的概覽圖，可以選擇以原始值或縮放值顯示：可以很容易地把握序列的總體變化情況，以及正在測量的組分（二氧化氮、臭氧、二氧化硫、一氧化碳）和特征（平均值、第一最大值、第一最大小時、空氣質量指數）。

檢查缺失數據

在對數據有一個總體了解之后，我們可以關注每個時間序列的具體情況。

在最新版本的ydata-profiling中，分析報告在針對時間序列數據方面進行了大幅改進，即針對“時間序列”和“間隙分析”指標進行報告。這些新功能極大地方便了趨勢和缺失模式的識別，現在還提供了具體的匯總統計數據和詳細的可視化。

所有時間序列都會呈現不穩定模式，其中在連續測量之間似乎存在某種“跳躍”。這表明存在缺失數據（缺失信息的“間隙”），應該對其進行更仔細的研究。本文以S02 Mean為例來看一下。

圖片

在研究間隙分析所提供的細節時，可以獲得對于已識別間隙特征的信息描述。總體而言，時間序列中有25個間隙，最短間隔為4天，最長為32周，平均為10周。

從所呈現的可視化效果中，可以注意到較為“隨機”的細條紋代表的是較小的間隙，而較大的間隙似乎遵循著一種重復的模式。這表明我們的數據集中存在兩種不同的缺失數據模式。

較小的間隙對應于產生缺失數據的零星事件，很可能是由于采集過程中的錯誤而發生的，通常可以很容易地對數據進行插值或從數據集中刪除。反之，較大的間隙則更為復雜，需要進行更詳細的分析，因為它們可能揭示了需要更徹底解決的潛在模式。

在本文的例子中，如果我們調查較大的間隙，實際上會發現它們反映了一個季節性模式：

df = data_scottsdale.copy()for year in df["Date Local"].dt.year.unique():    for month in range(1,13):        if ((df["Date Local"].dt.year == year) & (df["Date Local"].dt.month ==month)).sum() == 0:            print(f'Year {year} is missing month {month}.')

# Year 2000 is missing month 4.# Year 2000 is missing month 5.# Year 2000 is missing month 6.# Year 2000 is missing month 7.# Year 2000 is missing month 8.# (...)# Year 2007 is missing month 5.# Year 2007 is missing month 6.# Year 2007 is missing month 7.# Year 2007 is missing month 8.# (...)# Year 2010 is missing month 5.# Year 2010 is missing month 6.# Year 2010 is missing month 7.# Year 2010 is missing month 8.

正如我們所猜測的那樣，時間序列中呈現出一些較大的信息間隙，它們似乎具有重復性，甚至是季節性的：在大多數年份中，從5月到8月（第5至8個月）之間未收集數據。出現這種情況可能是由于不可預測的原因，或者與業務決策有關，例如與削減成本有關的決定，或者僅僅是與天氣模式、溫度、濕度和大氣條件相關的污染物的季節性變化有關。

根據這些發現，我們可以進一步調查為什么會發生這種情況，是否應該采取措施防止今后出現這種情況，以及如何處理我們目前擁有的數據。

最后的思考：填補、刪除、重新對齊？

在本教程中，已經了解到理解時間序列中缺失數據模式的重要性，以及有效的分析方法如何揭示缺失信息的奧秘。無論是電信、醫療、能源還是金融等所有收集時間序列數據的行業，都會在某個時候面臨缺失數據的問題，并需要決定處理和從中提取所有可能知識的最佳方法。

通過全面的數據分析，我們可以根據手里擁有的數據特征做出明智而高效的決策：

信息間隙可能是由于采集、傳輸和收集過程中的零星事件導致的。我們可以通過修復問題以防止其再次發生，并根據間隙的長度進行插值或填補缺失數據。
信息間隙也可能表示季節性或重復性模式。我們可以選擇重構我們的流程，開始收集缺失的信息，或者用來自其他分布式系統的外部信息替代缺失的間隙。我們還可以確定檢索過程是否失敗（也許是在數據工程方面輸入錯誤的查詢）。

希望本教程能夠幫助你正確識別和描述時間序列數據中的缺失數據，期待你在間隙分析中的發現！

本文鏈接：http://www.tebozhan.com/showinfo-26-12731-0.html使用Python分析時序數據集中的缺失數據

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：如何校驗內存數據的一致性，DynamicExpresso 算是幫上大忙了

下一篇：構建容器化的電子簽名和文件加密系統：保護數據的完整性與隱私

標簽：

熱門焦點

K60至尊版狂暴引擎2.0加持：超177萬跑分斬獲性能第一

Redmi的后性能時代戰略發布會今天下午如期舉辦，在本次發布會上，Redmi公布了多項關于和聯發科的深度合作，以及新機K60 Ultra在軟件和硬件方面的特性，例如：“K60 至尊版，雙芯旗艦
5月iOS設備性能榜：M1 M2依舊是榜單前五

和上個月一樣，沒有新品發布的iOS設備性能榜的上榜設備并沒有什么更替，僅僅只有跑分變化而產生的排名變動，剛剛開始的蘋果WWDC2023，推出的產品也依舊是新款Mac Pro、新款Mac Stu
不容錯過的MSBuild技巧，必備用法詳解和實踐指南

一、MSBuild簡介MSBuild是一種基于XML的構建引擎，用于在.NET Framework和.NET Core應用程序中自動化構建過程。它是Visual Studio的構建引擎，可在命令行或其他構建工具中使用
微信語音大揭秘：為什么禁止轉發？

大家好，我是你們的小米。今天，我要和大家聊一個有趣的話題：為什么微信語音不可以轉發？這是一個我們經常在日常使用中遇到的問題，也是一個讓很多人好奇的問題。讓我們一起來揭開這
零售大模型“干中學”，攀爬數字化珠峰

文/侯煜編輯/cc來源/華爾街科技眼對于絕大多數登山愛好者而言，攀爬珠穆朗瑪峰可謂終極目標。攀登珠峰的商業路線有兩條，一是尼泊爾境內的南坡路線，一是中國境內的北坡路線。相
簽約井川里予、何丹彤，單視頻點贊近千萬，MCN黑馬永恒文希快速崛起！

來源：視聽觀察永恒文希傳媒作為一家MCN公司，說起它的名字來，可能大家會覺得有點兒陌生，但是說出來下面一串的名字之后，或許大家就會感到震驚，原來這么多網紅，都簽約這家公司了。根
年輕人的“職場羞恥感”，無處不在

作者：馮曉亭陶淘李欣張琳馬舒葉來源：燃次元“人在職場，應該選擇什么樣的著裝？”近日，在網絡上，一個與著裝相關的帖子引發關注，在該帖子里，一位在高級寫字樓亞洲金
iQOO Neo8 Pro真機諜照曝光：天璣9200+和V1+旗艦雙芯加持

去年10月，iQOO推出了iQOO Neo7系列機型，不僅搭載了天璣9000+，而且是同價位唯一一款天璣9000+直屏旗艦，一經上市便受到了用戶的廣泛關注。在時隔半年后，
利用職權私自解除被封帳號 Meta開除20多名員工

11月18日消息，據外媒援引知情人士表示，過去一年時間內，Facebook母公司Meta解雇或處罰了20多名員工以及合同工，指控這些人通過內部系統以不當方式重置用戶帳號，其

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

使用Python分析時序數據集中的缺失數據

簡介

實踐教程：對美國污染數據集進行剖析

時間序列概述

檢查缺失數據

最后的思考：填補、刪除、重新對齊？

K60至尊版狂暴引擎2.0加持：超177萬跑分斬獲性能第一

5月iOS設備性能榜：M1 M2依舊是榜單前五

不容錯過的MSBuild技巧，必備用法詳解和實踐指南

微信語音大揭秘：為什么禁止轉發？

零售大模型“干中學”，攀爬數字化珠峰

簽約井川里予、何丹彤，單視頻點贊近千萬，MCN黑馬永恒文希快速崛起！

年輕人的“職場羞恥感”，無處不在

iQOO Neo8 Pro真機諜照曝光：天璣9200+和V1+旗艦雙芯加持

利用職權私自解除被封帳號 Meta開除20多名員工

最新推薦

猜你喜歡

熱門推薦

相關資訊