當(dāng)前位置：首頁(yè) > 科技 > 軟件

從PDF和圖像中提取文本，以供大型語(yǔ)言模型使用

來(lái)源：責(zé)編：時(shí)間：2023-11-30 09:29:09 281觀看

導(dǎo)讀想法大型語(yǔ)言模型已經(jīng)席卷了互聯(lián)網(wǎng)，導(dǎo)致更多的人沒(méi)有認(rèn)真關(guān)注使用這些模型最重要的部分：高質(zhì)量的數(shù)據(jù)！本文旨在提供一些有效從任何類(lèi)型文檔中提取文本的技術(shù)。Python庫(kù)本文專(zhuān)注于Pytesseract、easyOCR、PyPDF2和LangChai

想法

大型語(yǔ)言模型已經(jīng)席卷了互聯(lián)網(wǎng)，導(dǎo)致更多的人沒(méi)有認(rèn)真關(guān)注使用這些模型最重要的部分：高質(zhì)量的數(shù)據(jù)！本文旨在提供一些有效從任何類(lèi)型文檔中提取文本的技術(shù)。

Python庫(kù)

本文專(zhuān)注于Pytesseract、easyOCR、PyPDF2和LangChain庫(kù)。實(shí)驗(yàn)數(shù)據(jù)是一個(gè)單頁(yè)P(yáng)DF文件，可在以下鏈接獲取：

https://github.com/keitazoumana/Experimentation-Data/blob/main/Experimentation_file.pdf

由于Pytesseract和easyOCR可以處理圖像，因此在執(zhí)行內(nèi)容提取之前需要將PDF文件轉(zhuǎn)換為圖像。可以使用pypdfium2進(jìn)行轉(zhuǎn)換，這是一個(gè)用于處理PDF文件的強(qiáng)大庫(kù)，其實(shí)現(xiàn)如下：

pip install pypdfium2

以下函數(shù)以PDF作為輸入，并將PDF的每一頁(yè)作為圖像列表返回。

def convert_pdf_to_images(file_path, scale=300/72):      pdf_file = pdfium.PdfDocument(file_path)      page_indices = [i for i in range(len(pdf_file))]      renderer = pdf_file.render(       pdfium.PdfBitmap.to_pil,       page_indices = page_indices,        scale = scale,   )      final_images = []       for i, image in zip(page_indices, renderer):              image_byte_array = BytesIO()       image.save(image_byte_array, format='jpeg', optimize=True)       image_byte_array = image_byte_array.getvalue()       final_images.append(dict({i:image_byte_array}))      return final_images

現(xiàn)在，我們可以使用display_images函數(shù)來(lái)可視化PDF文件的所有頁(yè)面。

def display_images(list_dict_final_images):      all_images = [list(data.values())[0] for data in list_dict_final_images]      for index, image_bytes in enumerate(all_images):              image = Image.open(BytesIO(image_bytes))       figure = plt.figure(figsize = (image.width / 100, image.height / 100))              plt.title(f"----- Page Number {index+1} -----")       plt.imshow(image)       plt.axis("off")       plt.show()

通過(guò)組合上述兩個(gè)函數(shù)，我們可以得到以下結(jié)果：

convert_pdf_to_images = convert_pdf_to_images('Experimentation_file.pdf')display_images(convert_pdf_to_images)

圖片PDF以圖像格式可視化

深入文本提取過(guò)程

1.Pytesseract

Pytesseract（Python-tesseract）是用于從圖像中提取文本信息的Python OCR工具，可以使用以下pip命令進(jìn)行安裝：

pip install pytesseract

以下的輔助函數(shù)使用了 Pytesseract 的 image_to_string() 函數(shù)從輸入圖像中提取文本。

from pytesseract import image_to_stringdef extract_text_with_pytesseract(list_dict_final_images):      image_list = [list(data.values())[0] for data in list_dict_final_images]   image_content = []      for index, image_bytes in enumerate(image_list):              image = Image.open(BytesIO(image_bytes))       raw_text = str(image_to_string(image))       image_content.append(raw_text)      return "/n".join(image_content)

可以使用 extract_text_with_pytesseract 函數(shù)提取文本，如下所示：

text_with_pytesseract = extract_text_with_pytesseract(convert_pdf_to_images)print(text_with_pytesseract)

成功執(zhí)行以上代碼將生成以下結(jié)果：

This document provides a quick summary of some of Zoumana’s article on Medium.It can be considered as the compilation of his 80+ articles about Data Science, Machine Learning andMachine Learning Operations....Pytesseract was able to extract the content of the image.Here is how it managed to do it!Pytesseract starts by identifying rectangular shapes within the input image from top-right to bottom-right. Then it extracts the content of the individual images, and the final result is the concatenation of those extracted content. This approach works perfectly when dealing with column-based PDFs and image documents....

Pytesseract 首先通過(guò)從圖像的右上角到右下角識(shí)別矩形形狀。然后它提取各個(gè)圖像的內(nèi)容，最終的結(jié)果是這些提取內(nèi)容的串聯(lián)。這種方法在處理基于列的 PDF 和圖像文檔時(shí)效果非常好。

2.easyOCR

easyOCR 也是一個(gè)用于光學(xué)字符識(shí)別的開(kāi)源 Python 庫(kù)，目前支持提取 80 多種語(yǔ)言的文本。easyOCR需要安裝Pytorch 和 OpenCV，可以使用以下指令安裝：

!pip install opencv-python-headless==4.1.2.30

根據(jù)您的操作系統(tǒng)，安裝 Pytorch 模塊的方法可能不同。但所有的說(shuō)明都可以在官方頁(yè)面上找到。現(xiàn)在我們來(lái)安裝 easyOCR 庫(kù)：

!pip install easyocr

在使用 easyOCR 時(shí)，因?yàn)樗С侄嗾Z(yǔ)言，所以在處理文檔時(shí)需要指定語(yǔ)言。通過(guò)其 Reader 模塊設(shè)置語(yǔ)言，指定語(yǔ)言列表。例如，fr 用于法語(yǔ)，en 用于英語(yǔ)。語(yǔ)言的詳細(xì)列表在此處可用。

from easyocr import Reader# Load model for the English languagelanguage_reader = Reader(["en"])

文本提取過(guò)程在extract_text_with_easyocr 函數(shù)中實(shí)現(xiàn)：

def extract_text_with_easyocr(list_dict_final_images):      image_list = [list(data.values())[0] for data in list_dict_final_images]   image_content = []      for index, image_bytes in enumerate(image_list):              image = Image.open(BytesIO(image_bytes))       raw_text = language_reader.readtext(image)       raw_text = " ".join([res[1] for res in raw_text])                             image_content.append(raw_text)      return "/n".join(image_content)

我們可以如下執(zhí)行上述函數(shù)：

text_with_easy_ocr = extract_text_with_easyocr(convert_pdf_to_images)print(text_with_easy_ocr)

easyOCR 的結(jié)果

與 Pytesseract 相比，easyOCR 的效果似乎不太高效。例如，它能夠有效地讀取前兩個(gè)段落。然而，它不是將每個(gè)文本塊視為獨(dú)立的文本，而是使用基于行的方法進(jìn)行讀取。例如，第一個(gè)文本塊中的字符串“Data Science section covers basic to advanced”已與第二個(gè)文本塊中的“overfitting when training computer vision”組合在一起，這種組合完全破壞了文本的結(jié)構(gòu)并使最終結(jié)果產(chǎn)生偏差。

3.PyPDF2

PyPDF2 也是一個(gè)專(zhuān)門(mén)用于 PDF 處理任務(wù)的 Python 庫(kù)，例如文本和元數(shù)據(jù)的檢索、合并、裁剪等。

!pip install PyPDF2

提取邏輯實(shí)現(xiàn)在 extract_text_with_pyPDF 函數(shù)中：

def extract_text_with_pyPDF(PDF_File):    pdf_reader = PdfReader(PDF_File)        raw_text = ''    for i, page in enumerate(pdf_reader.pages):                text = page.extract_text()        if text:            raw_text += text    return raw_texttext_with_pyPDF = extract_text_with_pyPDF("Experimentation_file.pdf")print(text_with_pyPDF)

使用 PyPDF 庫(kù)進(jìn)行文本提取

提取過(guò)程快速而準(zhǔn)確，甚至保留了原始字體大小。PyPDF 的主要問(wèn)題是它不能有效地從圖像中提取文本。

4.LangChain

LangChain 的 UnstructuredImageLoader 和 UnstructuredFileLoader 模塊可分別用于從圖像和文本/PDF 文件中提取文本，并且在本節(jié)中將探討這兩個(gè)選項(xiàng)。

首先，我們需要按照以下方式安裝 langchain 庫(kù)：

!pip install langchain

(1) 從圖像中提取文本

from langchain.document_loaders.image import UnstructuredImageLoader

以下是提取文本的函數(shù)：

def extract_text_with_langchain_image(list_dict_final_images):   image_list = [list(data.values())[0] for data in list_dict_final_images]   image_content = []      for index, image_bytes in enumerate(image_list):              image = Image.open(BytesIO(image_bytes))       loader = UnstructuredImageLoader(image)       data = loader.load()       raw_text = data[index].page_content                             image_content.append(raw_text)      return "/n".join(image_content)

現(xiàn)在，我們可以提取內(nèi)容：

text_with_langchain_image = extract_text_with_langchain_image(convert_pdf_to_images)print(text_with_langchain_image)

來(lái)自 langchain UnstructuredImageLoader 的文本提取。

該庫(kù)成功高效地提取了圖像的內(nèi)容。

(2) 從 PDF 中提取文本

以下是從 PDF 中提取內(nèi)容的實(shí)現(xiàn)：

from langchain.document_loaders import UnstructuredFileLoaderdef extract_text_with_langchain_pdf(pdf_file):      loader = UnstructuredFileLoader(pdf_file)   documents = loader.load()   pdf_pages_content = '/n'.join(doc.page_content for doc in documents)      return pdf_pages_contenttext_with_langchain_files = extract_text_with_langchain_pdf("Experimentation_file.pdf")print(text_with_langchain_files)

類(lèi)似于 PyPDF 模塊，langchain 模塊能夠生成準(zhǔn)確的結(jié)果，同時(shí)保持原始字體大小。

從 langchain 的 UnstructuredFileLoader 中提取文本。

本文鏈接：http://www.tebozhan.com/showinfo-26-35306-0.html從PDF和圖像中提取文本，以供大型語(yǔ)言模型使用

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：全網(wǎng)最細(xì)：Jest+Enzyme測(cè)試React組件（包含交互、DOM、樣式測(cè)試）

下一篇：聊聊Clickhouse分布式表的操作

標(biāo)簽：

熱門(mén)焦點(diǎn)

vivo TWS Air開(kāi)箱體驗(yàn)：真輕臻好聽(tīng)

在vivo S15系列新機(jī)的發(fā)布會(huì)上，vivo的最新款真無(wú)線藍(lán)牙耳機(jī)vivo TWS Air也一同發(fā)布，本次就這款耳機(jī)新品給大家?guī)?lái)一個(gè)簡(jiǎn)單的分享。外包裝盒上，vivo TWS Air保持了vivo自家產(chǎn)
CSS單標(biāo)簽實(shí)現(xiàn)轉(zhuǎn)轉(zhuǎn)logo

轉(zhuǎn)轉(zhuǎn)品牌升級(jí)后更新了全新的Logo，今天我們用純CSS來(lái)實(shí)現(xiàn)轉(zhuǎn)轉(zhuǎn)的新Logo，為了有一定的挑戰(zhàn)性，這里我們只使用一個(gè)標(biāo)簽實(shí)現(xiàn)，將最大化的使用CSS能力完成Logo的繪制與動(dòng)畫(huà)效果。新logo
一文看懂為蘋(píng)果Vision Pro開(kāi)發(fā)應(yīng)用程序

譯者 | 布加迪審校 | 重樓蘋(píng)果的Vision Pro是一款混合現(xiàn)實(shí)（MR）頭戴設(shè)備。Vision Pro結(jié)合了虛擬現(xiàn)實(shí)（VR）和增強(qiáng)現(xiàn)實(shí)（AR）的沉浸感。其高分辨率顯示屏、先進(jìn)的傳感器和強(qiáng)大的處理能力
分享六款相見(jiàn)恨晚的PPT模版網(wǎng)站, 祝你做出精美的PPT!

1、OfficePLUSOfficePLUS網(wǎng)站旨在為全球Office用戶(hù)提供豐富的高品質(zhì)原創(chuàng)PPT模板、實(shí)用文檔、數(shù)據(jù)圖表及個(gè)性化定制服務(wù)。優(yōu)點(diǎn)：OfficePLUS是微軟官方網(wǎng)站，囊括PPT模板、Word模
量化指標(biāo)是與非：挽救被量化指標(biāo)扼殺的技術(shù)團(tuán)隊(duì)

作者 | 劉新翠整理 | 徐杰承本文整理自快狗打車(chē)技術(shù)總監(jiān)劉新翠在WOT2023大會(huì)上的主題分享，更多精彩內(nèi)容及現(xiàn)場(chǎng)PPT，請(qǐng)關(guān)注51CTO技術(shù)棧公眾號(hào)，發(fā)消息【W(wǎng)OT2023PPT】即可直接領(lǐng)取
梁柱接棒兩年，騰訊音樂(lè)闖出新路子

文丨田靜出品丨牛刀財(cái)經(jīng)（niudaocaijing）7月5日，企鵝FM發(fā)布官方公告稱(chēng)由于業(yè)務(wù)調(diào)整，將于9月6日正式停止運(yùn)營(yíng)，這意味著騰訊音樂(lè)長(zhǎng)音頻業(yè)務(wù)走向消亡。騰訊在長(zhǎng)音頻領(lǐng)域還在摸索。為
華為和江淮汽車(chē)合作開(kāi)發(fā)百萬(wàn)元問(wèn)界MPV？雙方回應(yīng)來(lái)了

8月1日消息，郭明錤今天在社交平臺(tái)發(fā)文稱(chēng)，華為正在和江淮汽車(chē)合作，開(kāi)發(fā)售價(jià)在100萬(wàn)元的問(wèn)界MPV，預(yù)計(jì)在2024年第2季度量產(chǎn)，銷(xiāo)量目標(biāo)為上市首年交付5萬(wàn)輛。
三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

據(jù)官方此前宣布，三星將于7月26日也就是今天在韓國(guó)首爾舉辦Unpacked活動(dòng)，屆時(shí)將帶來(lái)帶來(lái)包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
Windows 11發(fā)布，微軟一改往常對(duì)老機(jī)型開(kāi)放的態(tài)度

距離 Windows 11 發(fā)布已經(jīng)過(guò)去一周，在過(guò)去一周里，很多數(shù)碼愛(ài)好者圍繞其對(duì) Android 應(yīng)用的支持、對(duì)老機(jī)型的升級(jí)問(wèn)題展開(kāi)了激烈討論。與以往不同的是，在這次大

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

從PDF和圖像中提取文本，以供大型語(yǔ)言模型使用

想法

Python庫(kù)

深入文本提取過(guò)程

1.Pytesseract

2.easyOCR

3.PyPDF2

4.LangChain

vivo TWS Air開(kāi)箱體驗(yàn)：真輕臻好聽(tīng)

CSS單標(biāo)簽實(shí)現(xiàn)轉(zhuǎn)轉(zhuǎn)logo

一文看懂為蘋(píng)果Vision Pro開(kāi)發(fā)應(yīng)用程序

分享六款相見(jiàn)恨晚的PPT模版網(wǎng)站, 祝你做出精美的PPT!

量化指標(biāo)是與非：挽救被量化指標(biāo)扼殺的技術(shù)團(tuán)隊(duì)

梁柱接棒兩年，騰訊音樂(lè)闖出新路子

華為和江淮汽車(chē)合作開(kāi)發(fā)百萬(wàn)元問(wèn)界MPV？雙方回應(yīng)來(lái)了

三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

Windows 11發(fā)布，微軟一改往常對(duì)老機(jī)型開(kāi)放的態(tài)度

最新推薦

猜你喜歡

熱門(mén)推薦

相關(guān)資訊