當前位置：首頁 > 科技 > 軟件

向量化操作簡介和Pandas、Numpy示例

來源：責編：時間：2023-10-16 17:10:00 302觀看

導讀Pandas是一種流行的用于數據操作的Python庫，它提供了一種稱為“向量化”的強大技術可以有效地將操作應用于整個列或數據系列，從而消除了顯式循環的需要。在本文中，我們將探討什么是向量化，以及它如何簡化數據分析任務。什

Pandas是一種流行的用于數據操作的Python庫，它提供了一種稱為“向量化”的強大技術可以有效地將操作應用于整個列或數據系列，從而消除了顯式循環的需要。在本文中，我們將探討什么是向量化，以及它如何簡化數據分析任務。

什么是向量化?

向量化是將操作應用于整個數組或數據系列的過程，而不是逐個遍歷每個元素。在Pandas中可以對整個列或Series執行操作，而無需編寫顯式循環。這種高效的方法利用了底層優化的庫，使您的代碼更快、更簡潔。

向量化操作示例

1、基本算術運算

一個具有兩列的DataFrame， ' a '和' B '，我們希望以元素方式添加這兩列，并將結果存儲在新列' C '中。通過向量化，你可以在一行代碼中實現這一點:

import pandas as pd  data = {'A': [1, 2, 3], 'B': [4, 5, 6]} df = pd.DataFrame(data) # Using vectorization to add columns 'A' and 'B' df['C'] = df['A'] + df['B'] print(df['C'])  Output: 0   5 1   7 2   9

在本例中，加法運算df['A'] + df['B']同時應用于整個列'A'和'B'，結果存儲在列'C'中。

2、apply

向量化還允許對列應用自定義函數。假設你想計算一列中每個元素的平方:

import pandas as pd  data = {'A': [1, 2, 3]} df = pd.DataFrame(data) # Define a custom function def square(x):    return x ** 2  # Applying the 'square' function to the 'A' column df['A_squared'] = df['A'].apply(square) print(df['A_squared'])  Output: 0   1 1   4 2   9

使用.apply()將平方函數應用于整個'A'列。不需要顯式循環。

3、條件操作

也將矢量化用于條件操作，比如基于列a中的條件創建一個新的列D:

import pandas as pd  data = {'A': [1, 2, 3]} df = pd.DataFrame(data)  # Creating a new column 'D' based on a condition in column 'A' df['D'] = df['A'].apply(lambda x: 'Even' if x % 2 == 0 else 'Odd')  print(df)  Output:    A     D 0 1   Odd 1 2 Even 2 3   Odd

使用lambda函數來檢查' a '中的每個元素是偶數還是奇數，并將結果分配給' D '列。

向量化的好處

在Pandas中向量化提供了幾個好處:

效率:操作針對性能進行了優化，并且比傳統的基于循環的操作快得多，特別是在大型數據集上。
清晰度:與顯式循環的代碼相比，代碼通常更簡潔，更容易閱讀。
易用性:您可以使用一行代碼將操作應用于整個行或列，降低了腳本的復雜性。
兼容性:Pandas與其他數據科學庫(如NumPy和scikit-learn)無縫集成，可以在數據分析和機器學習項目中有效地使用向量化數據。

向量化提高代碼的速度

向量化是一種強大的編程技術，可以加快代碼的執行速度。這種方法利用底層優化的硬件指令和庫，使計算更快、更高效。讓我們以Python和NumPy為例，探索向量化如何加快代碼的速度。

傳統的基于循環的處理

在許多編程場景中，可能需要對數據元素集合執行相同的操作，例如逐個添加兩個數組或對數組的每個元素應用數學函數。一般都會使用循環一次迭代一個元素并執行操作。

下面是一個沒有向量化的Python示例:

list1 = [1, 2, 3, 4, 5] list2 = [6, 7, 8, 9, 10] result = []  for i in range(len(list1)):    result.append(list1[i] + list2[i]) print(result)  Output: [7, 9, 11, 13, 15]

雖然此代碼可以工作，但它在循環中單獨處理每個元素，這對于大型數據集來說可能很慢。

使用NumPy進行向量化操作

NumPy是一個流行的Python庫，提供對向量化操作的支持。它利用了優化的C和Fortran庫，使其在數值計算方面比純Python循環快得多。

下面是使用NumPy的相同加法操作:

array1 = np.array([1, 2, 3, 4, 5]) array2 = np.array([6, 7, 8, 9, 10]) result = array1 + array2 print(result)  Output: [ 7 9 11 13 15]

NumPy可以一次對整個數組執行操作，并且更有效地處理底層細節。

效率比較

比較一下使用NumPy和Python中傳統的基于循環的方法執行元素加法所花費的時間。我們將使用timeit模塊來度量這兩個方法的執行時間。下面是比較的代碼:

import numpy as np import timeit  # Create two NumPy arrays and two lists for the comparison array1 = np.random.randint(1, 100, size=1000000) array2 = np.random.randint(1, 100, size=1000000) list1 = list(array1) list2 = list(array2)  # Vectorized processing with NumPy def numpy_vectorized():    result = array1 + array2  # Traditional loop-based processing def loop_based():    result = []    for i in range(len(list1)):        result.append(list1[i] + list2[i])  # Measure execution time for NumPy vectorized approach numpy_time = timeit.timeit(numpy_vectorized, number=100)  # Measure execution time for traditional loop-based approach loop_time = timeit.timeit(loop_based, number=100)  print(f"NumPy Vectorized Approach: {numpy_time:.5f} seconds") print(f"Traditional Loop-Based Approach: {loop_time:.5f} seconds")   Output: NumPy Vectorized Approach: 0.30273 seconds Traditional Loop-Based Approach: 17.91837 seconds

可以看到NumPy向量化方法對于大數據集的速度要快得多，因為它的矢量化操作是經過優化的。

向量化加速代碼的原理

向量化為加快代碼速度提供了幾個優勢:

減少循環開銷:在傳統循環中，存在與管理循環索引和檢查循環條件相關的開銷。通過向量化，可以消除這些開銷，因為這些操作應用于整個數組。

優化的低級指令:像NumPy這樣的庫使用優化的低級指令(例如，現代cpu上的SIMD指令)來對數組執行操作，充分利用硬件功能。這可以顯著提高速度。

并行性:一些向量化操作可以并行化，這意味著現代處理器可以同時執行多個操作。這種并行性進一步加快了計算速度。

總結

Pandas和NumPy等庫中的向量化是一種強大的技術，可以提高Python中數據操作任務的效率。可以以高度優化的方式對整個列或數據集合執行操作，從而生成更快、更簡潔的代碼。所以無論是在處理基本算術、自定義函數還是條件操作，利用向量化都可以極大地改進數據分析工作流。

本文鏈接：http://www.tebozhan.com/showinfo-26-13616-0.html向量化操作簡介和Pandas、Numpy示例

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：使用JIB插件輕松實現Spring Boot應用容器化

下一篇：從CRUD到CQRS：使用Spring微服務轉變你的架構策略

標簽：

熱門焦點

一加Ace2 Pro真機揭曉鈦空灰配色質感拉滿

終于，在經過了幾波預熱之后，一加Ace2 Pro的外觀真機圖在網上出現了。還是博主數碼閑聊站曝光的，這次的外觀設計還是延續了一加11的方案，只是細節上有了調整，例如新加入了鈦空灰
Redmi Pad評測：紅米充滿野心的一次嘗試

從Note系列到K系列，從藍牙耳機到筆記本電腦，紅米不知不覺之間也已經形成了自己頗有競爭力的產品體系，在中端和次旗艦市場上甚至要比小米新機的表現來得更好，正所謂“大丈夫生居
5月iOS設備性能榜：M1 M2依舊是榜單前五

和上個月一樣，沒有新品發布的iOS設備性能榜的上榜設備并沒有什么更替，僅僅只有跑分變化而產生的排名變動，剛剛開始的蘋果WWDC2023，推出的產品也依舊是新款Mac Pro、新款Mac Stu
帥氣純真少年！日本最帥初中生選美冠軍出爐

日本第一帥哥初一生選美大賽冠軍現已正式出爐，冠軍是來自千葉縣的宗田悠良。日本一直熱衷于各種選美大賽，從“最美JK”起到“最美女星&r
不容錯過的MSBuild技巧，必備用法詳解和實踐指南

一、MSBuild簡介MSBuild是一種基于XML的構建引擎，用于在.NET Framework和.NET Core應用程序中自動化構建過程。它是Visual Studio的構建引擎，可在命令行或其他構建工具中使用
三星顯示已開始為AR設備研發硅基LED微顯示屏

7月18日消息，據外媒報道，隨著蘋果首款頭顯產品Vision Pro在6月份正式推出，AR/VR/MR等頭顯產品也就將成為各大公司下一個重要的競爭領域，對顯示屏這一關
iQOO Neo8系列今日官宣：首發天璣9200+ 全球安卓最強芯！

在昨日舉行的的聯發科新一代旗艦芯片天璣9200+的發布會上，iQOO官方也正式宣布，全新的iQOO Neo8系列新品將全球首發搭載這款當前性能最強大的移動平臺
iQOO Neo8 Pro真機諜照曝光：天璣9200+和V1+旗艦雙芯加持

去年10月，iQOO推出了iQOO Neo7系列機型，不僅搭載了天璣9000+，而且是同價位唯一一款天璣9000+直屏旗艦，一經上市便受到了用戶的廣泛關注。在時隔半年后，
OPPO K11樣張首曝：千元機影像“卷”得真不錯！

一直以來，OPPO K系列機型都保持著較為均衡的產品體驗，歷來都是2K價位的明星機型，去年推出的OPPO K10和OPPO K10 Pro兩款機型憑借各自的出色配置，堪稱有

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

向量化操作簡介和Pandas、Numpy示例

什么是向量化?

向量化操作示例

1、基本算術運算

2、apply

3、條件操作

向量化的好處

向量化提高代碼的速度

傳統的基于循環的處理

使用NumPy進行向量化操作

效率比較

向量化加速代碼的原理

總結

一加Ace2 Pro真機揭曉鈦空灰配色質感拉滿

Redmi Pad評測：紅米充滿野心的一次嘗試

5月iOS設備性能榜：M1 M2依舊是榜單前五

帥氣純真少年！日本最帥初中生選美冠軍出爐

不容錯過的MSBuild技巧，必備用法詳解和實踐指南

三星顯示已開始為AR設備研發硅基LED微顯示屏

iQOO Neo8系列今日官宣：首發天璣9200+ 全球安卓最強芯！

iQOO Neo8 Pro真機諜照曝光：天璣9200+和V1+旗艦雙芯加持

OPPO K11樣張首曝：千元機影像“卷”得真不錯！

最新推薦

猜你喜歡

熱門推薦

相關資訊