在Python的世界里,如果你想要提升程序運行效率,尤其是處理大量數據或執行耗時任務時,必然繞不開“并發”與“并行”這兩個關鍵詞。它們雖然經常被同時提及,但實際含義和應用場景卻大相徑庭。今天,我們將深入探討這兩者的區別,并通過剖析Python內置的multiprocessing模塊,揭示如何利用并行編程技巧,讓Python程序如虎添翼。
并發,簡單來說,就是“同時做多件事”。它并不意味著所有事情都在同一時刻發生,而是指系統能夠在多個任務之間快速切換,給用戶造成“同時進行”的錯覺。比如,你在瀏覽網頁的同時聽音樂,盡管CPU可能在同一時間只能處理一個任務,但通過高效的調度機制,讓你感覺兩者是同步進行的。
并行,則是真正意義上的“同時做多件事”。它依賴于硬件支持,如多核CPU或多臺計算機,能夠將任務分解成多個部分,分別在不同的處理器上獨立執行。并行執行能夠顯著提高計算密集型任務的處理速度,充分利用硬件資源。
在Python中,實現并發編程的一個常見手段是使用多線程。以threading模塊為例,我們可以通過創建Thread對象來啟動一個新的線程:
import threadingdef thread_function(name): print(f"Thread {name}: starting") # 執行耗時操作... print(f"Thread {name}: finishing")# 創建并啟動兩個線程for i in range(2): t = threading.Thread(target=thread_function, args=(i,)) t.start()
然而,Python的多線程并發受到全局解釋器鎖(Global Interpreter Lock, GIL)的制約。GIL是為了保護內存安全而引入的一把“大鎖”,它確保任何時候只有一個線程在執行Python字節碼。這意味著在單個進程中,即使有多個線程,也無法實現真正的并行計算。對于CPU密集型任務,多線程并發往往無法帶來性能提升。
為了解決GIL帶來的限制,Python提供了multiprocessing模塊,它利用操作系統提供的進程機制,允許我們在不同進程中并行執行任務,從而規避GIL的影響。每個進程都有自己的Python解釋器和內存空間,可以在多核CPU上真正實現并行計算。
multiprocessing的核心是Process類,用于創建新進程:
from multiprocessing import Processdef long_running_task(): # 執行耗時操作...if __name__ == "__main__": p = Process(target=long_running_task) p.start() # 啟動進程 p.join() # 等待進程結束
進程間通信是并行編程的重要環節。multiprocessing提供了多種方式:
對于大量相似任務的處理,可以使用Pool對象創建一個進程池,避免頻繁創建銷毀進程的開銷:
from multiprocessing import Pooldef process_data(data): # 對data進行處理...if __name__ == "__main__": with Pool(4) as pool: # 創建包含4個進程的進程池 results = pool.map(process_data, data_list) # 將data_list中的每個元素分發給進程池中的進程處理
假設我們需要對一個大數組進行平方運算,可以利用Pool.map()方法實現并行計算:
import numpy as npfrom multiprocessing import Pooldef square(number): return number ** 2if __name__ == "__main__": data = np.random.randint(1, 100, size=100000) with Pool(4) as pool: squared_data = pool.map(square, data)
若需處理異步任務,如網絡請求,可以結合concurrent.futures模塊實現:
import concurrent.futuresfrom multiprocessing import Pooldef fetch_url(url): # 發送網絡請求并返回結果...if __name__ == "__main__": with concurrent.futures.ProcessPoolExecutor(max_workers=4) as executor: with Pool(4) as pool: future_to_url = {executor.submit(fetch_url, url): url for url in url_list} for future in concurrent.futures.as_completed(future_to_url): url = future_to_url[future] try: data = future.result() # 處理數據... except Exception as exc: print(f"{url} generated an exception: {exc}")
為了協調多個進程間的協作,multiprocessing提供了多種同步原語:
當子進程發生異常或主動退出時,可以通過捕獲Process對象的exitcode屬性或注冊Process對象的join()方法的回調函數進行處理。
Python并發與并行編程雖有區別,但都是提升程序效率的有效手段。理解并掌握multiprocessing模塊,能幫助我們編寫出高效、穩定的并行程序。在實踐中,應注意合理選擇并發模型,妥善處理進程間通信與同步問題,以及應對可能出現的子進程異常情況。通過不斷實踐與優化,你的Python程序將能在多核CPU上飛速奔跑,輕松應對各類復雜任務。
本文鏈接:http://www.tebozhan.com/showinfo-26-87494-0.htmlPython并發與并行:multiprocessing模塊大揭秘
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com