當前位置：首頁 > 科技 > 軟件

極速數據可視化！七個Pandas繪圖函數助你事半功倍

來源：責編：時間：2024-01-04 09:33:41 454觀看

導讀一、簡介在使用Pandas分析數據時，會使用Pandas函數來過濾和轉換列，連接多個數據幀中的數據等操作。但是，生成圖表——將數據在數據幀中可視化——通常比僅僅查看數字更有幫助。Pandas具有幾個繪圖函數，可以使用它們快速輕

一、簡介

在使用Pandas分析數據時，會使用Pandas函數來過濾和轉換列，連接多個數據幀中的數據等操作。

但是，生成圖表——將數據在數據幀中可視化——通常比僅僅查看數字更有幫助。

Pandas具有幾個繪圖函數，可以使用它們快速輕松地實現數據可視化。我們將在本教程中介紹這些函數。

【示例代碼】：https://github.com/balapriyac/python-data-analysis/blob/main/pandas-plotting-fns/pandas_plotting_functions.ipynb

二、創建Pandas數據幀

首先創建一個用于分析的示例數據幀。我們將創建一個名為df_employees的數據幀，其中包含員工記錄。

我們將使用Faker和NumPy的隨機模塊來填充數據幀，生成200條記錄。

注意：如果你的開發環境中沒有安裝Faker，請使用pip安裝：pip install Faker。

運行以下代碼片段來創建df_employees，并向其中填充記錄：

import pandas as pdfrom faker import Fakerimport numpy as np# 實例化Faker對象fake = Faker()Faker.seed(27)# 為員工創建一個數據幀num_employees = 200departments = ['Engineering', 'Finance', 'HR', 'Marketing', 'Sales', 'IT']years_with_company = np.random.randint(1, 10, size=num_employees)salary = 40000 + 2000 * years_with_company * np.random.randn()employee_data = { 'EmployeeID': np.arange(1, num_employees + 1), 'FirstName': [fake.first_name() for _ in range(num_employees)], 'LastName': [fake.last_name() for _ in range(num_employees)], 'Age': np.random.randint(22, 60, size=num_employees), 'Department': [fake.random_element(departments) for _ in range(num_employees)], 'Salary': np.round(salary), 'YearsWithCompany': years_with_company}df_employees = pd.DataFrame(employee_data)# 顯示數據幀的頭部df_employees.head(10)

我們設置了種子以便重現結果。所以每次運行此代碼，都會得到相同的記錄。

以下是數據幀的前幾條記錄：

圖片

df_employees.head(10)的輸出結果

三、Pandas繪圖函數

1. 散點圖

散點圖通常用于了解數據集中任意兩個變量之間的關系。

對于df_employees數據幀，讓我們創建一個散點圖來可視化員工年齡和工資之間的關系。這將幫助我們了解員工年齡和工資之間是否存在一定的相關性。

要繪制散點圖，我們可以使用plot.scatter()，如下所示：

# 散點圖：年齡與工資df_employees.plot.scatter(x='Age', y='Salary', title='Scatter Plot: Age vs Salary', xlabel='Age', ylabel='Salary', grid=True)

對于此示例數據幀，我們并未看到員工年齡和工資之間的任何相關性。

2. 折線圖

折線圖適用于識別連續變量（通常是時間或類似刻度）上的趨勢和模式。

在創建df_employees數據幀時，我們已經定義了員工在公司工作年限與工資之間的線性關系。因此，讓我們看一下顯示工作年限與平均工資變化的折線圖。

我們先按工作年限分組找到平均工資，然后使用plot.line()繪制折線圖：

# 折線圖：平均工資隨工作年限的變化趨勢average_salary_by_experience = df_employees.groupby('YearsWithCompany')['Salary'].mean()df_employees['AverageSalaryByExperience'] = df_employees['YearsWithCompany'].map(average_salary_by_experience)df_employees.plot.line(x='YearsWithCompany', y='AverageSalaryByExperience', marker='o', linestyle='-', title='Average Salary Trend Over Years of Experience', xlabel='Years With Company', ylabel='Average Salary', legend=False, grid=True)

圖片

由于我們選擇使用員工在公司工作年限的線性關系來填充薪資字段，因此可以清晰地看到折線圖反映了這一點。

3. 直方圖

可以使用直方圖來可視化連續變量的分布情況，方法是將數值劃分成區間或分段，并顯示每個分段中的數據點數量。

讓我們使用plot.hist()繪制直方圖來了解員工年齡的分布情況，如下所示：

# 直方圖：年齡分布df_employees['Age'].plot.hist(title='Age Distribution', bins=15)

圖片

4. 箱形圖

箱形圖有助于了解變量的分布、擴散情況，并用于識別異常值。

讓我們創建一個箱形圖，比較不同部門間的工資分布情況，從而對組織部的工資分布情況進行高層次的比較。

箱形圖還有助于確定薪資范圍以及每個部門的有用信息，如中位數薪資和潛在的異常值等。

在這里，我們使用根據“部門（Department）”分組的“薪資（Salary）”列來繪制箱形圖：

# 箱形圖：按部門分列的薪金分布情況df_employees.boxplot(column='Salary', by='Department', grid=True, vert=False)

圖片

從箱線圖中，我們可以看到某些部門的薪資分布比其他部門更廣泛。

5. 條形圖

如果想要了解變量在出現頻率方面的分布情況，可以使用條形圖。

現在，讓我們使用plot.bar()繪制一個條形圖來可視化員工數量：

# 條形圖：按部門的員工數量df_employees['Department'].value_counts().plot.bar(title='Employee Count by Department')

圖片

6. 面積圖

面積圖通常用于可視化在連續軸或分類軸上的累積分布變量。

對于員工數據幀，我們可以繪制不同年齡組的累積薪資分布圖。為了將員工映射到基于年齡組的區間中，我們需要使用pd.cut()。

然后，我們通過“年齡組（AgeGroup）”對薪資進行累積求和。為了得到面積圖，我們使用plot.area()：

# 面積圖：不同年齡組的累積薪資分布df_employees['AgeGroup'] = pd.cut(df_employees['Age'], bins=[20, 30, 40, 50, 60], labels=['20-29', '30-39', '40-49', '50-59'])cumulative_salary_by_age_group = df_employees.groupby('AgeGroup')['Salary'].cumsum()df_employees['CumulativeSalaryByAgeGroup'] = cumulative_salary_by_age_groupdf_employees.plot.area(x='AgeGroup', y='CumulativeSalaryByAgeGroup', title='Cumulative Salary Distribution Over Age Groups', xlabel='Age Group', ylabel='Cumulative Salary', legend=False, grid=True)

7. 餅圖

餅圖有助于可視化各個部門在整體組織中的薪資分布比例。

對于我們的示例，創建一個餅圖來顯示組織中各個部門的薪資分布是很有意義的。

我們通過部門對員工的薪資進行分組，然后使用plot.pie()來繪制餅圖：

# 餅圖：按部門劃分的薪資分布df_employees.groupby('Department')['Salary'].sum().plot.pie(title='Department-wise Salary Distribution', autopct='%1.1f%%')

四、總結

以上就是7個用于快速數據可視化的Pandas繪圖函數。也可以嘗試使用matplotlib和seaborn生成更漂亮的圖表。但是對于快速數據可視化，上述這些函數非常方便。

本文鏈接：http://www.tebozhan.com/showinfo-26-57406-0.html極速數據可視化！七個Pandas繪圖函數助你事半功倍

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Go Lang Fiber介紹

下一篇：五個大幅提升開發效率的VS Code技巧

標簽：

熱門焦點

6月安卓手機性價比榜：Note 12 Turbo斷層式碾壓

6月份有一個618，雖然這是京東周年慶的日子，但別的電商也都不約而同的跟進了，反正促銷沒壞處，廠商和用戶都能滿意。618期間一些產品也出現了歷史低價，那么各個價位段的產品性價比
5月安卓手機好評榜：魅族20 Pro奪冠

性能榜和性價比榜之后，我們來看最后的安卓手機好評榜，數據來源安兔兔評測，收集時間2023年5月1日至5月31日，僅限國內市場。第一名：魅族20 Pro好評率：97.50%不得不感慨魅族老品牌還
使用Webdriver-manager解決瀏覽器與驅動不匹配所帶來自動化無法執行的問題

1、前言在我們使用 Selenium 進行 UI 自動化測試時，常常會因為瀏覽器驅動與瀏覽器版本不匹配，而導致自動化測試無法執行，需要手動去下載對應的驅動版本，并替換原有的驅動，可能還
“又被陳思誠騙了”

作者｜張思齊出品｜眾面（ID：ZhongMian_ZM）如今的國產懸疑電影，成了陳思誠的天下。最近大爆電影《消失的她》票房突破30億斷層奪魁暑期檔，陳思誠再度風頭無兩。你可以說陳思誠的
阿里瓴羊One推出背后，零售企業迎數字化新解

作者:劉曠近年來隨著數字經濟的高速發展，各式各樣的SaaS應用服務更是層出不窮，但本質上SaaS大多局限于單一業務流層面，對用戶核心關切的增長問題等則沒有提供更好的解法。在Saa
三星折疊屏手機去年銷售近1000萬臺今年目標定為1500萬

7月29日消息，三星率先發力可折疊手機市場，在全球市場已經取得了非常亮眼的成績，接下來會進一步鞏固和擴大這一優勢。三星在推出Galaxy Z Flip5和Galax
蘋果公司要求三星和LG Display生產「無邊框」OLED iPhone顯示屏

據 The Elec 報道，蘋果已要求其供應商為未來的 iPhone 型號開發「無邊框」OLED 顯示面板。蘋果顯然已要求三星和 LG Display 開發新的 OLED 顯示面
iQOO 11S評測：行業唯一的200W標準版旗艦

【Techweb評測】去年底，iQOO推出了“電競旗艦”iQOO 11系列，作為一款性能強機，該機不僅全球首發2K 144Hz E6全感屏，搭載了第二代驍龍8平臺及144Hz電競
iQOO 11S屏幕細節公布：首發三星2K E6全感屏安卓最好的直屏手機

日前iQOO手機官方宣布，新一代電競旗艦iQOO 11S將會在7月4日19:00正式與大家見面。隨著發布時間的日益臨近，官方關于該機的預熱也更加密集，截至目前已

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

極速數據可視化！七個Pandas繪圖函數助你事半功倍

一、簡介

二、創建Pandas數據幀

三、Pandas繪圖函數

1. 散點圖

2. 折線圖

3. 直方圖

4. 箱形圖

5. 條形圖

6. 面積圖

7. 餅圖

四、總結

6月安卓手機性價比榜：Note 12 Turbo斷層式碾壓

5月安卓手機好評榜：魅族20 Pro奪冠

使用Webdriver-manager解決瀏覽器與驅動不匹配所帶來自動化無法執行的問題

“又被陳思誠騙了”

阿里瓴羊One推出背后，零售企業迎數字化新解

三星折疊屏手機去年銷售近1000萬臺今年目標定為1500萬

蘋果公司要求三星和LG Display生產「無邊框」OLED iPhone顯示屏

iQOO 11S評測：行業唯一的200W標準版旗艦

iQOO 11S屏幕細節公布：首發三星2K E6全感屏安卓最好的直屏手機

最新推薦

猜你喜歡

熱門推薦

相關資訊