當(dāng)前位置：首頁 > 科技 > 軟件

說到Python處理大數(shù)據(jù)集，別說你會用Pandas

來源：責(zé)編：時間：2024-05-20 17:54:25 151觀看

導(dǎo)讀說到Python處理大數(shù)據(jù)集，可能會第一時間想到Numpy或者Pandas。這兩個庫使用場景有些不同，Numpy擅長于數(shù)值計算，因為它基于數(shù)組來運算的，數(shù)組在內(nèi)存中的布局非常緊湊，所以計算能力強(qiáng)。但Numpy不適合做數(shù)據(jù)處理和探索，缺少一

說到Python處理大數(shù)據(jù)集，可能會第一時間想到Numpy或者Pandas。

這兩個庫使用場景有些不同，Numpy擅長于數(shù)值計算，因為它基于數(shù)組來運算的，數(shù)組在內(nèi)存中的布局非常緊湊，所以計算能力強(qiáng)。但Numpy不適合做數(shù)據(jù)處理和探索，缺少一些現(xiàn)成的數(shù)據(jù)處理函數(shù)。

而Pandas的特點就是很適合做數(shù)據(jù)處理，比如讀寫、轉(zhuǎn)換、連接、去重、分組聚合、時間序列、可視化等等，但Pandas的特點是效率略低，不擅長數(shù)值計算。

你可以同時使用Pandas和Numpy分工協(xié)作，做數(shù)據(jù)處理時用Pandas，涉及到運算時用Numpy，它們的數(shù)據(jù)格式互轉(zhuǎn)也很方便。

目前前言，最多人使用的Python數(shù)據(jù)處理庫仍然是pandas，這里重點說說它讀取大數(shù)據(jù)的一般方式。

Pandas讀取大數(shù)據(jù)集可以采用chunking分塊讀取的方式，用多少讀取多少，不會太占用內(nèi)存。

import pandas as pd    # 設(shè)置分塊大小，例如每次讀取 10000 行  chunksize = 10000    # 使用 chunksize 參數(shù)分塊讀取 CSV 文件  for chunk in pd.read_csv('large_file.csv', chunksize=chunksize):      # 在這里處理每個 chunk，例如打印每行的信息      print(chunk.head())  # 或者其他你需要的操作        # 如果你需要保存或進(jìn)一步處理每個 chunk 的數(shù)據(jù)，可以在這里進(jìn)行      # 例如，你可以將每個 chunk 寫入不同的文件，或者對 chunk 進(jìn)行某種計算并保存結(jié)果

但使用分塊讀取時也要注意，不要在循環(huán)內(nèi)部進(jìn)行大量計算或內(nèi)存密集型的操作，否則可能會消耗過多的內(nèi)存或降低性能。

其次你可以考慮使用用Pandas讀取數(shù)據(jù)庫（如PostgreSQL、SQLite等）或外部存儲（如HDFS、Parquet等），這會大大降低內(nèi)存的壓力。

盡管如此，Pandas讀取大數(shù)據(jù)集能力也是有限的，取決于硬件的性能和內(nèi)存大小，你可以嘗試使用PySpark，它是Spark的python api接口。

PySpark提供了類似Pandas DataFrame的數(shù)據(jù)格式，你可以使用toPandas() 的方法，將 PySpark DataFrame 轉(zhuǎn)換為 pandas DataFrame，但需要注意的是，這可能會將所有數(shù)據(jù)加載到單個節(jié)點的內(nèi)存中，因此對于非常大的數(shù)據(jù)集可能不可行）。

相反，你也可以使用 createDataFrame() 方法從 pandas DataFrame 創(chuàng)建一個 PySpark DataFrame。

PySpark處理大數(shù)據(jù)的好處是它是一個分布式計算機(jī)系統(tǒng)，可以將數(shù)據(jù)和計算分布到多個節(jié)點上，能突破你的單機(jī)內(nèi)存限制。

其次，PySpark采用懶執(zhí)行方式，需要結(jié)果時才執(zhí)行計算，其他時候不執(zhí)行，這樣會大大提升大數(shù)據(jù)處理的效率。

from pyspark.sql import SparkSession    # 創(chuàng)建一個 SparkSession 對象  spark = SparkSession.builder /      .appName("Big Data Processing with PySpark") /      .getOrCreate()    # 讀取 CSV 文件  # 假設(shè) CSV 文件名為 data.csv，并且有一個名為 'header' 的表頭  # 你需要根據(jù)你的 CSV 文件的實際情況修改這些參數(shù)  df = spark.read.csv("path_to_your_csv_file/data.csv", header=True, inferSchema=True)    # 顯示數(shù)據(jù)集的前幾行  df.show(5)    # 對數(shù)據(jù)進(jìn)行一些轉(zhuǎn)換  # 例如，我們可以選擇某些列，并對它們應(yīng)用一些函數(shù)  # 假設(shè)我們有一個名為 'salary' 的列，并且我們想要增加它的值（僅作為示例）  df_transformed = df.withColumn("salary_increased", df["salary"] * 1.1)    # 顯示轉(zhuǎn)換后的數(shù)據(jù)集的前幾行  df_transformed.show(5)    # 將結(jié)果保存到新的 CSV 文件中  # 注意：Spark 默認(rèn)不會保存表頭到 CSV，你可能需要手動處理這個問題  df_transformed.write.csv("path_to_save_transformed_csv/transformed_data", header=True)    # 停止 SparkSession  spark.stop()

如果你不會使用PySpark，可以考慮Pandas的拓展庫，比如modin、dask、polars等，它們提供了類似pandas的數(shù)據(jù)類型和函數(shù)接口，但使用多進(jìn)程、分布式等方式來處理大數(shù)據(jù)集。

modin庫

import modin.pandas as pd    # 讀取 CSV 文件  df = pd.read_csv('path_to_your_csv_file.csv')    # 顯示前幾行  print(df.head())

Dask庫

import dask.dataframe as dd    # 讀取 CSV 文件  df = dd.read_csv('path_to_your_csv_file.csv')    # 觸發(fā)計算并顯示前幾行（注意這里使用的是 compute 方法）  print(df.head().compute())

Polars庫

import polars as pl  # 讀取 CSV 文件  df = pl.read_csv('path_to_your_csv_file.csv')    # 顯示前幾行print(df.head())

這幾個庫的好處是，使用成本很低，基本和pandas操作方式一樣，但又能很好的處理大數(shù)據(jù)。

所以說Pandas是完全能勝任處理大數(shù)據(jù)集的，它目前的周邊生態(tài)庫非常豐富。

本文鏈接：http://www.tebozhan.com/showinfo-26-89403-0.html說到Python處理大數(shù)據(jù)集，別說你會用Pandas

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：記一次 .NET 某酒店后臺服務(wù)卡死分析

下一篇：跨域詳解及Spring Boot 3中的跨域解決方案

標(biāo)簽：

熱門焦點

如何正確使用:Has和:Nth-Last-Child

我們可以用CSS檢查，以了解一組元素的數(shù)量是否小于或等于一個數(shù)字。例如，一個擁有三個或更多子項的grid。你可能會想，為什么需要這樣做呢？在某些情況下，一個組件或一個布局可能會
量化指標(biāo)是與非：挽救被量化指標(biāo)扼殺的技術(shù)團(tuán)隊

作者 | 劉新翠整理 | 徐杰承本文整理自快狗打車技術(shù)總監(jiān)劉新翠在WOT2023大會上的主題分享，更多精彩內(nèi)容及現(xiàn)場PPT，請關(guān)注51CTO技術(shù)棧公眾號，發(fā)消息【W(wǎng)OT2023PPT】即可直接領(lǐng)取
如何通過Python線程池實現(xiàn)異步編程？

線程池的概念和基本原理線程池是一種并發(fā)處理機(jī)制，它可以在程序啟動時創(chuàng)建一組線程，并將它們置于等待任務(wù)的狀態(tài)。當(dāng)任務(wù)到達(dá)時，線程池中的某個線程會被喚醒并執(zhí)行任務(wù)，執(zhí)行完任
這款新興工具平臺，讓你的電腦效率翻倍

隨著信息技術(shù)的發(fā)展,我們獲取信息的渠道越來越多,但是處理信息的效率卻成為一個瓶頸。于是各種工具應(yīng)運而生,都在爭相解決我們的工作效率問題。今天我要給大家介紹一款效率
小紅書1周漲粉49W+，我總結(jié)了小白可以用的N條漲粉筆記

作者：黃河懂運營一條性教育視頻，被54萬人“珍藏”是什么體驗？最近，情感博主@公主是用鮮花做的，火了！僅僅憑借一條視頻，光小紅書就有超過128萬人，為她瘋狂點贊！更瘋狂的是，這
造車兩年股價跌六成，小米的估值邏輯變了嗎？

如果從小米官宣造車后的首個交易日起持有小米集團(tuán)的股票，那么截至2023年上半年最后一個交易日，投資者將浮虧59.16%，同區(qū)間的恒生科技指數(shù)跌幅為52.78%
華為HarmonyOS 4升級計劃公布：首批34款機(jī)型今日開啟公測

8月4日消息，今天下午華為正式發(fā)布了HarmonyOS 4系統(tǒng)，在更流暢的前提下，還帶來了不少新功能，UI設(shè)計也有變化，會讓手機(jī)煥然一新。華為宣布，首批機(jī)型將會在
自研Exynos回歸！三星Galaxy S24系列將提供Exynos和驍龍雙版本

年初，全新的三星Galaxy S23系列發(fā)布，包含Galaxy S23、Galaxy S23+和Galaxy S23 Ultra三個版本，全系搭載超頻版驍龍8 Gen 2，雖同樣采用臺積電4nm工藝制
與兆芯合作聯(lián)想推出全新旗艦版筆記本電腦開天N7系列

聯(lián)想與兆芯合作推出全新聯(lián)想旗艦版筆記本電腦開天 N7系列。這個系列采用兆芯KX-6640MA處理器平臺，KX-6640MA 處理器是采用了陸家嘴架構(gòu)，16nm 工藝，4 核 4 線

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

說到Python處理大數(shù)據(jù)集，別說你會用Pandas

如何正確使用:Has和:Nth-Last-Child

量化指標(biāo)是與非：挽救被量化指標(biāo)扼殺的技術(shù)團(tuán)隊

如何通過Python線程池實現(xiàn)異步編程？

這款新興工具平臺，讓你的電腦效率翻倍

小紅書1周漲粉49W+，我總結(jié)了小白可以用的N條漲粉筆記

造車兩年股價跌六成，小米的估值邏輯變了嗎？

華為HarmonyOS 4升級計劃公布：首批34款機(jī)型今日開啟公測

自研Exynos回歸！三星Galaxy S24系列將提供Exynos和驍龍雙版本

與兆芯合作聯(lián)想推出全新旗艦版筆記本電腦開天N7系列

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊