當(dāng)前位置：首頁(yè) > 科技 > 軟件

Pyquery：一個(gè)靈活方便的 HTML 解析庫(kù)

來(lái)源：責(zé)編：時(shí)間：2023-12-01 17:14:47 261觀看

導(dǎo)讀楔子在工作中難免會(huì)遇到解析 HTML 的場(chǎng)景，比如將網(wǎng)頁(yè)下載下來(lái)之后，要解析出里面圖片的路徑、指定標(biāo)簽里的文本等等。而 pyquery 專門負(fù)責(zé)做這件事，它是仿照 jquery 設(shè)計(jì)的，用起來(lái)非常方便。并且 pyquery 底層基于 lxml，而

楔子

在工作中難免會(huì)遇到解析 HTML 的場(chǎng)景，比如將網(wǎng)頁(yè)下載下來(lái)之后，要解析出里面圖片的路徑、指定標(biāo)簽里的文本等等。

而 pyquery 專門負(fù)責(zé)做這件事，它是仿照 jquery 設(shè)計(jì)的，用起來(lái)非常方便。并且 pyquery 底層基于 lxml，而 lxml 是使用 Cython 實(shí)現(xiàn)的，所以 pyquery 的速度也有保證。

from pyquery import PyQueryhtml = """<body>    <p>        古明地覺的編程教室    </p></body>"""p = PyQuery(html)print(type(p))"""<class 'pyquery.pyquery.PyQuery'>"""# 打印 PyQuery 對(duì)象會(huì)直接顯示 HTML 內(nèi)容print(p)"""<body>    <p>        古明地覺的編程教室    </p></body>"""

我們?cè)讷@取 HTML 之后，直接傳遞 PyQuery 中，然后通過屬性選擇器即可獲取指定的內(nèi)容。

另外除了傳遞 HTML 文本之外，還可以傳遞一個(gè) URL，或者 HTML 文件。

from pyquery import PyQuery# 傳遞一個(gè) url, 會(huì)自動(dòng)調(diào)用 urlopen 下載內(nèi)容p1 = PyQuery(url="https://www.baidu.com", encoding="utf-8")# 傳遞一個(gè) html 文件, 會(huì)自動(dòng)打開并讀取p2 = PyQuery(filename="1.html")

后兩種方式其實(shí)不是很常用，我們一般還是會(huì)搭配 requests 或者 httpx，下載完頁(yè)面之后直接丟給 PyQuery。

接下來(lái)我們看看如何篩選指定的標(biāo)簽，多說(shuō)一句，我個(gè)人非常喜歡這個(gè)庫(kù)，在解析 HTML 的時(shí)候首先想到的就是它。

CSS 選擇器

pyquery 是模仿 jquery 設(shè)計(jì)的，顯然它也是通過類似于 CSS 選擇器的方式進(jìn)行篩選，下面介紹一些常用的選擇器。

from pyquery import PyQueryhtml = """<body>    <div class="div_cls1 div_cls2">        <p>S 老師不想你們?yōu)榱怂齼蓴【銈?lt;/p>        <p class="p_cls1">高老師總能分享出好東西</p>        <div class="div_cls3">            <p id="six_six_six">                我也退了，都怪我說(shuō)了不該說(shuō)的            </p>        </div>    </div>    <div>        <a ></a>        <p>            <a ></a>        </p>    </div>    <div class="div_cls1">        <span>嘿嘿嘿</span>    </div></body>"""p = PyQuery(html)

我們以上面這個(gè) HTML 為例，來(lái)看看相關(guān)操作。

基于標(biāo)簽進(jìn)行選擇

# 選擇所有的 p 標(biāo)簽print(p("p"))"""<p>S 老師不想你們?yōu)榱怂齼蓴【銈?lt;/p>        <p class="p_cls1">高老師總能分享出好東西</p>        <p id="six_six_six">                我也退了，都怪我說(shuō)了不該說(shuō)的            </p>        <p>            <a />        </p>    """

會(huì)選擇所有指定的標(biāo)簽，并且包含標(biāo)簽里面的內(nèi)容。

同時(shí)選擇多個(gè)標(biāo)簽

在基于標(biāo)簽選擇時(shí)，也可以同時(shí)選擇多個(gè)標(biāo)簽。

# 選擇所有的 p 標(biāo)簽和 a 標(biāo)簽print(p("p,a"))"""<p>S 老師不想你們?yōu)榱怂齼蓴【銈?lt;/p>        <p class="p_cls1">高老師總能分享出好東西</p>        <p id="six_six_six">                我也退了，都怪我說(shuō)了不該說(shuō)的            </p>        <a />        <p>            <a />        </p>    <a ""

多個(gè)標(biāo)簽之間使用逗號(hào)分隔，會(huì)將多個(gè)標(biāo)簽都篩選出來(lái)。

注意：篩選的標(biāo)簽之間是獨(dú)立的，比如第二個(gè) a 標(biāo)簽，它在 p 標(biāo)簽里面。我們篩選 p 標(biāo)簽的時(shí)候，已經(jīng)將它內(nèi)部的 a 標(biāo)簽篩選出來(lái)了，但在篩選 a 標(biāo)簽的時(shí)候又篩選出來(lái)一次，因此標(biāo)簽之間是獨(dú)立的。

選擇指定標(biāo)簽下的子標(biāo)簽

# 選擇所有的 div 標(biāo)簽下的所有 a 標(biāo)簽print(p("div a"))"""<a />        <a ""

多個(gè)標(biāo)簽使用空格分隔，表示篩選層級(jí)，比如 tag1 tag2 tag3，表示篩選所有 tag1 標(biāo)簽下的所有 tag2 標(biāo)簽下的所有 tag3 標(biāo)簽。

div a 表示從所有 div 的子孫節(jié)點(diǎn)中選擇 a 標(biāo)簽，如果只希望從兒子節(jié)點(diǎn)中選擇呢？

# 選擇所有的 div 標(biāo)簽下的所有 a 標(biāo)簽，但只從兒子節(jié)點(diǎn)中選擇# 第二個(gè) a 標(biāo)簽的外部套了個(gè) p 標(biāo)簽，所以不符合篩選條件print(p("div>a"))"""<a ""

當(dāng)標(biāo)簽之間是空格，那么會(huì)從子孫節(jié)點(diǎn)當(dāng)中選擇；當(dāng)標(biāo)簽之間是大于號(hào)，那么只會(huì)從兒子節(jié)點(diǎn)當(dāng)中選擇。

按照 id 選擇標(biāo)簽

# 選擇 id = "six_six_six" 的標(biāo)簽print(p("#six_six_six"))"""<p id="six_six_six">                我也退了，都怪我說(shuō)了不該說(shuō)的            </p>"""

id 在一個(gè) html 中具有唯一性，所以有 id 屬性的話，那么會(huì)非常好定位。

按照 class 選擇標(biāo)簽

p = PyQuery(html)# 選擇 class 等于 "p_cls1" 的標(biāo)簽print(p(".p_cls1"))"""<p class="p_cls1">高老師總能分享出好東西</p>"""

選擇所有 class 屬性等于 p_cls1 的標(biāo)簽，但是注意，一個(gè)標(biāo)簽可以同時(shí)擁有多個(gè) class。

print(p(".div_cls1"))"""<div class="div_cls1 div_cls2">        <p>S 老師不想你們?yōu)榱怂齼蓴【銈?lt;/p>        <p class="p_cls1">高老師總能分享出好東西</p>        <div class="div_cls3">            <p id="six_six_six">                我也退了，都怪我說(shuō)了不該說(shuō)的            </p>        </div>    </div>    <div class="div_cls1">        <span>嘿嘿嘿</span>    </div>        """

我們看到兩個(gè) div 都應(yīng)用了 div_cls1 這個(gè) class，因此它們都被篩選了出來(lái)。而第一個(gè) div 除了 div_cls1，還應(yīng)用了 div_cls2 這個(gè) class。

那么問題來(lái)了，如果我們希望選擇同時(shí)應(yīng)用了 div_cls1 和 div_cls2 的標(biāo)簽該怎么做呢？

print(p(".div_cls1.div_cls2"))"""<div class="div_cls1 div_cls2">        <p>S 老師不想你們?yōu)榱怂齼蓴【銈?lt;/p>        <p class="p_cls1">高老師總能分享出好東西</p>        <div class="div_cls3">            <p id="six_six_six">                我也退了，都怪我說(shuō)了不該說(shuō)的            </p>        </div>    </div>        """

我們看到此時(shí)就只獲取了第一個(gè) div，注意：.div_cls1 和 .div_cls2 之間不可以有空格，如果加上了空格，那么含義就變成了選擇 .div_cls1 標(biāo)簽下面的 .div_cls2 標(biāo)簽。

所以 id、class、標(biāo)簽等選擇器，它們可以搭配使用。比如說(shuō)：

圖片

實(shí)際舉例說(shuō)明：

# 找到所有 class 包含 div_cls1、div_cls2 的標(biāo)簽# 再?gòu)钠鋬鹤庸?jié)點(diǎn)中找到所有 class 包含 .div_cls3 的 div 標(biāo)簽print(p("div.div_cls1.div_cls2>div.div_cls3"))"""<div class="div_cls3">            <p id="six_six_six">                我也退了，都怪我說(shuō)了不該說(shuō)的            </p>        </div>        """

綜上所述，pyquery 還是很強(qiáng)大的。

選擇是否具有指定屬性的標(biāo)簽

# 選擇具有 class 屬性的 p 標(biāo)簽print(p("p[class]"))"""<p class="p_cls1">高老師總能分享出好東西</p>"""# 選擇具有 id 屬性的 p 標(biāo)簽print(p("p[id]"))"""<p id="six_six_six">                我也退了，都怪我說(shuō)了不該說(shuō)的            </p>"""# 選擇 class="div_cls1" 的 div 標(biāo)簽# 等號(hào)右面可以是雙引號(hào)，也可以是單引號(hào)，也可以不加引號(hào)print(p("div[class='div_cls1']"))"""<div class="div_cls1">        <span>嘿嘿嘿</span>    </div>"""# 注意：div[class='div_cls1'] 和 div.div_cls1 不同# 前者要求 class 屬性必須為 div_cls1# 而后者要求 class 屬性只要包含 div_cls1 即可# 這些屬性除了 id、class 之外, 也可以是其它的任意屬性（隨便寫一個(gè)也可以）# 下面選擇所有具有 href 屬性的 a 標(biāo)簽print(p("a[href]"))"""<a />        <a # 選擇 href 等于某個(gè) url 的 a 標(biāo)簽, 這里的 url 必須要使用引號(hào)包起來(lái)print(p("a[<a # 還可以指定以 ... 開頭print(p("a[href^='http://www.me.org/image']"))"""<a # 指定以 ... 結(jié)尾print(p("a[href$='2.png']"))"""<a # 包含 ...print(p("a[href*='bento']"))"""<a # 當(dāng)然其它屬性也可以，選擇 class 包含 div_cls1 的 a 標(biāo)簽# 此時(shí) div[class*='div_cls1'] 和 div.div_cls1 是等價(jià)的print(p("div[class*='div_cls1']") == p("div.div_cls1"))"""True"""

選擇指定位置的標(biāo)簽

# 先選擇所有 class 包含 div_cls1、div_cls2 的標(biāo)簽# 然后從它的兒子節(jié)點(diǎn)中選擇所有的 p 標(biāo)簽print(p(".div_cls1.div_cls2>p"))"""<p>S 老師不想你們?yōu)榱怂齼蓴【銈?lt;/p>        <p class="p_cls1">高老師總能分享出好東西</p>"""# 先選擇所有 class 包含 div_cls1、div_cls2 的標(biāo)簽# 然后從它的兒子節(jié)點(diǎn)中選擇所有 class 等于 p_cls1 的 p 標(biāo)簽print(p(".div_cls1.div_cls2>p[class='p_cls1']"))"""<p class="p_cls1">高老師總能分享出好東西</p>"""# 然后也可以按照位置進(jìn)行選擇，比如這里選擇符合條件的第一個(gè) p 標(biāo)簽print(p(".div_cls1.div_cls2>p:nth-child(1)"))"""<p>S 老師不想你們?yōu)榱怂齼蓴【銈?lt;/p>"""# 選擇符合條件的第二個(gè) p 標(biāo)簽print(p(".div_cls1.div_cls2>p:nth-child(2)"))"""<p class="p_cls1">高老師總能分享出好東西</p>"""

選擇兄弟標(biāo)簽

# 選擇 class 包含 p_cls1 的所有 p 標(biāo)簽，然后選擇它的兄弟標(biāo)簽print(p("p.p_cls1").siblings())"""<p>S 老師不想你們?yōu)榱怂齼蓴【銈?lt;/p>        <div class="div_cls3">            <p id="six_six_six">                我也退了，都怪我說(shuō)了不該說(shuō)的            </p>        </div>"""

以上就是一些常見的 CSS 選擇器，在工作中一般是夠用了。

獲取標(biāo)簽屬性

基于 CSS 選擇器，我們可以拿到指定的標(biāo)簽，然后就是獲取屬性了，比如獲取文本。

print(p("p").text())"""S 老師不想你們?yōu)榱怂齼蓴【銈?高老師總能分享出好東西 我也退了，都怪我說(shuō)了不該說(shuō)的"""

返回的是字符串，里面包含了所有的 p 標(biāo)簽里的文本。但這樣我們就不知道，哪個(gè)文本是哪個(gè) p 標(biāo)簽里面的了，因此我們可以進(jìn)行遍歷。

PyQuery 這個(gè)類繼承 list，因?yàn)榛谶x擇器篩選到的標(biāo)簽可能會(huì)有多個(gè)，因此提供了用于遍歷的方法。但遍歷得到依舊是 PyQuery 對(duì)象，只不過此時(shí)里面就只有一個(gè)標(biāo)簽了。

# 可以對(duì)選擇的標(biāo)簽進(jìn)行遍歷for tag in p("p").items():    print(tag.text())"""S 老師不想你們?yōu)榱怂齼蓴【銈呃蠋熆偰芊窒沓龊脰|西我也退了，都怪我說(shuō)了不該說(shuō)的"""

text 方法用于獲取文本，至于其它屬性則通過 attr 方法獲取。

for tag in p("a").items():    print(tag.attr("href"))"""http://www.me.org/bento/1.pnghttp://www.me.org/image/2.png"""for tag in p("div").items():    print(tag.attr("class"))"""div_cls1 div_cls2div_cls3Nonediv_cls1"""# 遍歷所有的標(biāo)簽，獲取 id 的值for tag in p("*").items():    if tag.attr("id") is not None:        print(tag.attr("id"))"""six_six_six"""# 通過 attr 可以獲取所有的屬性，甚至自定義的也可以

是不是很方便呢？基于 CSS 選擇器和 attr 方法，我們就能獲取所有想要的屬性。

find 和 filter

PyQuery 對(duì)象還有兩個(gè)很重要的方法，分別是 find 和 filter。

先來(lái)看看 find：

# p("div .div_cls3 p") 等價(jià)于 p.find("div").find(".div_cls3").find("p")# 或者也等價(jià)于 p.find("div").find(".div_cls3 p")# 也等價(jià)于 p.find("div .div_cls3").find("p")print(p("div .div_cls3 p") ==      p.find("div").find(".div_cls3").find("p") ==      p.find("div").find(".div_cls3 p") ==      p.find("div .div_cls3").find("p"))"""True"""# 相信你應(yīng)該明白 find 方法是做什么的了，它是基于指定條件繼續(xù)向內(nèi)篩選# 比如我們成功篩選了指定的標(biāo)簽tag = p("div .div_cls3")# 這時(shí)候想在 tag 的基礎(chǔ)上繼續(xù)獲取它內(nèi)部的 p 標(biāo)簽，那么可以調(diào)用 findprint(tag.find("p"))"""<p id="six_six_six">                我也退了，都怪我說(shuō)了不該說(shuō)的            </p>"""

tag.find 是在 tag 的基礎(chǔ)上繼續(xù)向內(nèi)篩選，而 tag.filter 則是對(duì) tag 進(jìn)行過濾。

tag = p("div p")# 在 tag 的基礎(chǔ)上向內(nèi)篩選，獲取 class 包含 p_cls1 的標(biāo)簽# 但 div p 內(nèi)部沒有 class 包含 p_cls1 的標(biāo)簽print(tag.find(".p_cls1"))""""""# 對(duì) tag 進(jìn)行過濾，從已獲取的 tag 中過濾出 class 包含 p_cls1 的標(biāo)簽print(tag.filter(".p_cls1"))"""<p class="p_cls1">高老師總能分享出好東西</p>"""

所以當(dāng)你篩選了指定的 div 之后，你想從它的內(nèi)部繼續(xù)篩選，那么就使用 find 方法。如果你想按照指定條件對(duì) div 進(jìn)行過濾，那么就使用 filter。

另外 filter 還有一個(gè)用法，就是可以根據(jù)文本進(jìn)行過濾。

print(p("p"))"""<p>S 老師不想你們?yōu)榱怂齼蓴【銈?lt;/p>        <p class="p_cls1">高老師總能分享出好東西</p>        <p id="six_six_six">                我也退了，都怪我說(shuō)了不該說(shuō)的            </p>        <p>            <a />        </p>"""# 對(duì)篩選到 p 標(biāo)簽進(jìn)行過濾，只保留文本包含 "老師" 的 p 標(biāo)簽print(    p("p").filter(lambda _, this: "老師" in PyQuery(this).text()))"""<p>S 老師不想你們?yōu)榱怂齼蓴【銈?lt;/p>        <p class="p_cls1">高老師總能分享出好東西</p>"""

以上就是 find 和 filter 的用法，當(dāng)你的解析需求不復(fù)雜時(shí)，直接調(diào)用 PyQuery 對(duì)象即可，否則可以搭配這兩個(gè)方法。

小結(jié)

總的來(lái)說(shuō)，pyquery 還是相當(dāng)方便的，相比 bs4 多了更多的靈活性，而且速度也更快一些。

當(dāng)然 pyquery 還有一些功能我們沒有說(shuō)，比如追加節(jié)點(diǎn)等等，但這些不常用，所以不再贅述。因?yàn)槲覀冎皇墙馕?HTML，能基于選擇器獲取想要的標(biāo)簽以及屬性就足夠了。

雖然 pyquery 是仿照 jquery 設(shè)計(jì)的，但我們不會(huì)像 jquery 操作 DOM 那樣，對(duì)節(jié)點(diǎn)進(jìn)行新增修改啥的。我們要做的只有查詢，基于選擇器獲取指定標(biāo)簽，并且選擇器也不止我們上面介紹的那些，不過基本上夠用了。

本文鏈接：http://www.tebozhan.com/showinfo-26-35879-0.htmlPyquery：一個(gè)靈活方便的 HTML 解析庫(kù)

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： Redis哨兵模式，一主二仆反客為主，論故障轉(zhuǎn)移和恢復(fù)能力還得是它呀

下一篇： 13款開源圖片制作神器分享

標(biāo)簽：

熱門焦點(diǎn)

消息稱迪士尼要拍真人版《魔發(fā)奇緣》：女主可能也找黑人演員

8月5日消息，迪士尼確實(shí)有點(diǎn)忙，忙著將不少動(dòng)畫改成真人版，繼《美人魚》后，真人版《白雪公主》、《魔發(fā)奇緣》也在路上了。據(jù)外媒消息稱，迪士尼將打造真人版
WebRTC.Net庫(kù)開發(fā)進(jìn)階，教你實(shí)現(xiàn)屏幕共享和多路復(fù)用！

WebRTC.Net庫(kù)：讓你的應(yīng)用更親民友好，實(shí)現(xiàn)視頻通話無(wú)痛接入！除了基本用法外，還有一些進(jìn)階用法可以更好地利用該庫(kù)。自定義 STUN/TURN 服務(wù)器配置WebRTC.Net 默認(rèn)使用 Google 的
華為發(fā)布HarmonyOS 4：更好玩、更流暢、更安全

在8月4日的華為開發(fā)者大會(huì)2023（HDC.Together）大會(huì)上，HarmonyOS 4正式發(fā)布。自2019年發(fā)布以來(lái)，HarmonyOS一直以用戶為中心，經(jīng)歷四年多的發(fā)展HarmonyOS已
華為將推出盤古數(shù)字人大模型可幫助用戶12小時(shí)完成數(shù)字人生成

在今日舉行的2023年華為云數(shù)字文娛AI創(chuàng)新峰會(huì)上，華為云全球Marketing與銷售服務(wù)總裁石冀琳表示，華為云將在后續(xù)推出盤古數(shù)字人大模型，可幫助用戶12小
華為Mate60標(biāo)準(zhǔn)版細(xì)節(jié)曝光：經(jīng)典星環(huán)相機(jī)模組回歸

這段時(shí)間以來(lái)，關(guān)于華為新旗艦的爆料日漸密集。據(jù)此前多方爆料，今年華為將開始恢復(fù)一年雙旗艦戰(zhàn)略，除上半年推出的P60系列外，往年下半年的Mate系列也將
iQOO Neo8 Pro即將開售：到手價(jià)3099元起安卓性能最強(qiáng)旗艦

5月23日，iQOO如期舉行了新品發(fā)布會(huì)，全新的iQOO Neo8系列也正式與大家見面，包含iQOO Neo8和iQOO Neo8 Pro兩個(gè)版本，其中標(biāo)準(zhǔn)版搭載高通驍龍8+，而Pro版更
朋友圈可以修改可見范圍了蘋果用戶可率先體驗(yàn)

近日，iOS用戶迎來(lái)微信8.0.27正式版更新，除了可更換二維碼背景外，還新增了多項(xiàng)實(shí)用功能。在新版微信中，朋友圈終于可以修改可見范圍，簡(jiǎn)單來(lái)說(shuō)就是已發(fā)布的朋友圈
DRAM存儲(chǔ)器10月價(jià)格下跌，NAND閃存本月價(jià)格與上月持平

10月30日，據(jù)韓國(guó)媒體消息，自今年年初以來(lái)一直在上漲的 DRAM 存儲(chǔ)器的交易價(jià)格僅在本月就下跌了近 10％，此次是全年首次降價(jià)，而NAND 閃存本月價(jià)格與上月持平。市
外交部：美方應(yīng)停止在網(wǎng)絡(luò)安全問題上不負(fù)責(zé)任地指責(zé)他國(guó)

　中國(guó)外交部今天（16日）舉行例行記者會(huì)。會(huì)上，有記者問，美國(guó)情報(bào)官員稱，他們正在阻攔來(lái)自中國(guó)以及其他國(guó)家的黑客獲取相關(guān)科研成果。中方對(duì)此有何評(píng)論？對(duì)此

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

Pyquery：一個(gè)靈活方便的 HTML 解析庫(kù)

楔子

CSS 選擇器

基于標(biāo)簽進(jìn)行選擇

同時(shí)選擇多個(gè)標(biāo)簽

選擇指定標(biāo)簽下的子標(biāo)簽

按照 id 選擇標(biāo)簽

按照 class 選擇標(biāo)簽

選擇是否具有指定屬性的標(biāo)簽

選擇指定位置的標(biāo)簽

選擇兄弟標(biāo)簽

獲取標(biāo)簽屬性

find 和 filter

小結(jié)

消息稱迪士尼要拍真人版《魔發(fā)奇緣》：女主可能也找黑人演員

WebRTC.Net庫(kù)開發(fā)進(jìn)階，教你實(shí)現(xiàn)屏幕共享和多路復(fù)用！

華為發(fā)布HarmonyOS 4：更好玩、更流暢、更安全

華為將推出盤古數(shù)字人大模型可幫助用戶12小時(shí)完成數(shù)字人生成

華為Mate60標(biāo)準(zhǔn)版細(xì)節(jié)曝光：經(jīng)典星環(huán)相機(jī)模組回歸

iQOO Neo8 Pro即將開售：到手價(jià)3099元起安卓性能最強(qiáng)旗艦

朋友圈可以修改可見范圍了蘋果用戶可率先體驗(yàn)

DRAM存儲(chǔ)器10月價(jià)格下跌，NAND閃存本月價(jià)格與上月持平

外交部：美方應(yīng)停止在網(wǎng)絡(luò)安全問題上不負(fù)責(zé)任地指責(zé)他國(guó)

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊