當前位置：首頁 > 科技 > 軟件

Python爬蟲神器：Beautiful Soup指南，輕松解析網頁數據！

來源：責編：時間：2023-11-28 09:32:53 244觀看

導讀Beautiful Soup（簡稱BS4）是一種強大而靈活的HTML和XML解析庫，廣泛用于Python爬蟲和數據采集中。這篇文章介紹 Beautiful Soup的功能和用法，并提供示例代碼，幫助你更好地理解和應用這個優秀的庫。一、Beautiful Soup簡介1、

Beautiful Soup（簡稱BS4）是一種強大而靈活的HTML和XML解析庫，廣泛用于Python爬蟲和數據采集中。

這篇文章介紹 Beautiful Soup的功能和用法，并提供示例代碼，幫助你更好地理解和應用這個優秀的庫。

一、Beautiful Soup簡介

1、什么是Beautiful Soup？

Beautiful Soup是一個Python庫，用于解析HTML和XML文檔，并提供了簡單而直觀的方式來遍歷文檔樹、搜索特定標簽和提取數據。它的名字取自路易斯·卡洛斯·蒙特斯·庫比斯（Luis Carlos Monteiro Cabral de Melo）的詩歌《Alice》中的一句話：“Beautiful Soup so rich and green, Waiting in a hot tureen!”，寓意著它用來“撈取”美味的數據。

2、安裝Beautiful Soup

使用pip來安裝Beautiful Soup庫：

pip install beautifulsoup4

同時，為了能夠解析HTML和XML文檔，還需要安裝一個解析器，如lxml或html5lib：

pip install lxml# 或pip install html5lib

3、導入Beautiful Soup

導入Beautiful Soup庫：

from bs4 import BeautifulSoup

二、Beautiful Soup的基本用法

1、解析HTML文檔

Beautiful Soup可以解析HTML或XML文檔，并將其轉換成文檔樹的形式，以便于遍歷和操作。

示例代碼：

from bs4 import BeautifulSoup# HTML文檔示例html_doc = """<html>    <head>        <title>我的第一個網頁</title>    </head>    <body>        <h1>歡迎來到我的網頁</h1>        <p>這是一個段落。</p>    </body></html>"""# 創建Beautiful Soup對象soup = BeautifulSoup(html_doc, 'html.parser')

在這個示例中，創建了一個Beautiful Soup對象，并使用html.parser解析器解析了HTML文檔。

2、遍歷文檔樹

一旦有了Beautiful Soup對象，就可以遍歷文檔樹，查找特定的標簽和數據。

以下是一些基本的遍歷方法：

（1）查找標簽

使用find()方法來查找特定的標簽：

# 查找第一個<h1>標簽h1_tag = soup.find('h1')# 打印標簽文本print(h1_tag.text)

（2）遍歷子節點

使用children屬性來遍歷一個標簽的子節點：

# 遍歷<body>標簽的子節點body_tag = soup.find('body')for child in body_tag.children:    print(child)

（3）遍歷所有標簽

使用find_all()方法來查找所有特定類型的標簽：

# 查找所有<p>標簽p_tags = soup.find_all('p')# 遍歷所有<p>標簽for p_tag in p_tags:    print(p_tag.text)

3、提取數據

找到目標標簽，就可以提取其中的數據。

以下是一些提取數據的示例：

（1）獲取標簽文本

使用.text屬性獲取標簽的文本內容：

# 獲取<h1>標簽的文本內容h1_text = h1_tag.textprint(h1_text)

（2）獲取標簽屬性

如果標簽有屬性，可以使用字典的方式獲取：

# 獲取<head>標簽的lang屬性值head_tag = soup.find('head')lang_value = head_tag['lang']print(lang_value)

（3）提取鏈接

如果要提取鏈接，可以使用.get()方法：

# 獲取<a>標簽的鏈接a_tag = soup.find('a')link = a_tag.get('href')print(link)

三、高級用法

1、使用CSS選擇器

Beautiful Soup支持使用CSS選擇器來查找標簽，這使得查找更靈活和方便：

# 使用CSS選擇器查找所有<p>標簽p_tags = soup.select('p')

2、嵌套查找

在查找方法中嵌套使用，以查找更深層次的標簽：

# 查找<body>標簽下的所有<p>標簽p_tags = soup.find('body').find_all('p')

3、處理不規范的HTML

Beautiful Soup可以處理不規范的HTML文檔，自動修復標簽嵌套和缺失的情況：

# 處理不規范的HTML文檔dirty_html = "<p>這是一個段落</p>"soup = BeautifulSoup(dirty_html, 'html.parser')print(soup.prettify())

四、示例代碼

以下是一個完整的示例，演示了如何使用Beautiful Soup解析HTML文檔、遍歷文檔樹、查找標簽和提取數據：

from bs4 import BeautifulSoup# HTML文檔示例html_doc = """<html>    <head>        <title>我的第一個網頁</title>    </head>    <body>        <h1>歡迎來到我的網頁</h1>        <p>這是一個段落。</p>    </body></html>"""# 創建Beautiful Soup對象soup = BeautifulSoup(html_doc, 'html.parser')# 查找<h1>標簽h1_tag = soup.find('h1')# 獲取<h1>標簽的文本內容h1_text = h1_tag.text# 查找所有<p>標簽p_tags = soup.find_all('p')# 提取第一個<p>標簽的文本內容p_text = p_tags[0].text# 打印結果print("標題:", h1_text)print("段落:", p_text)

這個示例演示了如何解析HTML文檔、查找標簽和提取數據，以及如何處理不規范的HTML文檔。

總結

Beautiful Soup是一個強大的HTML和XML解析庫，為Python爬蟲和數據采集提供了強大的工具。

本文鏈接：http://www.tebozhan.com/showinfo-26-34568-0.htmlPython爬蟲神器：Beautiful Soup指南，輕松解析網頁數據！

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：徹底解決Spring Cloud Gateway中Body讀取問題

下一篇：一篇學會 Rust 內存布局

標簽：

熱門焦點

7月安卓手機性能榜：紅魔8S Pro再奪榜首

7月份的手機市場風平浪靜，除了紅魔和努比亞帶來了兩款搭載驍龍8Gen2領先版處理器的新機之外，別的也想不到有什么新品了，這也正常，通常6月7月都是手機廠商修整的時間，進入8月份之
6月安卓手機好評榜：魅族20 Pro蟬聯冠軍

性能榜和性價比榜之后，我們來看最后的安卓手機好評榜，數據來源安兔兔評測，收集時間2023年6月1日至6月30日，僅限國內市場。第一名：魅族20 Pro好評率：95%5月份的時候魅族20 Pro就是
5月iOS設備好評榜：iPhone 14僅排第43？

來到新的一月，安兔兔的各個榜單又重新匯總了數據，像安卓陣營的榜單都有著比較大的變動，不過iOS由于設備的更新換代并沒有那么快，所以相對來說變化并不大，特別是iOS好評榜，老款設
華為Mate60系列模具曝光：采用碩大圓形后置相機模組+拼接配色方案

據此前多方爆料，今年華為將開始恢復一年雙旗艦戰略，除上半年推出的P60系列外，往年下半年的Mate系列也將迎來更新，有望在9-10月份帶來全新的華為Mate60
三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

據官方此前宣布，三星將于7月26日也就是今天在韓國首爾舉辦Unpacked活動，屆時將帶來帶來包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
支持aptX Lossless無損傳輸 iQOO TWS 1賽道版發布限時優惠價369元

2023年7月4日，“無損音質，聲動人心”iQOO TWS 1正式發布，支持aptX Lossless無損傳輸，限時優惠價369元。iQOO TWS 1耳機率先支持端到端aptX Lossless無
超級標準版旗艦！iQOO 11S全球首發iQOO超算獨顯芯片

上半年已接近尾聲，截至目前各大品牌旗下的頂級旗艦都已悉數亮相，而下半年即將推出的頂級旗艦已經成為了數碼圈爆料的主流，其中就包括全新的iQOO 11S系
微軟發布Windows 11新版引入全新任務欄狀態

近日，微軟發布了Windows 11新版，而Build 22563更新主要引入了幾周前曝光的平板模式任務欄等，系統更流暢了。更新中，Windows 11加入了專門針對平板優化的任務欄
上海舉辦人工智能大會活動，建設人工智能新高地

人工智能大會在上海浦江兩岸隆重拉開帷幕，人工智能新技術、新產品、新應用、新理念集中亮相。8月30日晚，作為大會的特色活動之一的上海人工智能發展盛典人工

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

Python爬蟲神器：Beautiful Soup指南，輕松解析網頁數據！

一、Beautiful Soup簡介

1、什么是Beautiful Soup？

2、安裝Beautiful Soup

3、導入Beautiful Soup

二、Beautiful Soup的基本用法

1、解析HTML文檔

2、遍歷文檔樹

（1）查找標簽

（2）遍歷子節點

（3）遍歷所有標簽

3、提取數據

（1）獲取標簽文本

（2）獲取標簽屬性

（3）提取鏈接

三、高級用法

1、使用CSS選擇器

2、嵌套查找

3、處理不規范的HTML

四、示例代碼

總結

7月安卓手機性能榜：紅魔8S Pro再奪榜首

6月安卓手機好評榜：魅族20 Pro蟬聯冠軍

5月iOS設備好評榜：iPhone 14僅排第43？

華為Mate60系列模具曝光：采用碩大圓形后置相機模組+拼接配色方案

三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

支持aptX Lossless無損傳輸 iQOO TWS 1賽道版發布限時優惠價369元

超級標準版旗艦！iQOO 11S全球首發iQOO超算獨顯芯片

微軟發布Windows 11新版引入全新任務欄狀態

上海舉辦人工智能大會活動，建設人工智能新高地

最新推薦

猜你喜歡

熱門推薦

相關資訊