當(dāng)前位置：首頁(yè) > 科技 > 軟件

如何使用Python中的OCR技術(shù)將圖像中的文本提取為可編輯文件？

來(lái)源：責(zé)編：時(shí)間：2023-09-28 10:07:55 317觀看

導(dǎo)讀1、安裝和配置Pytesseract庫(kù)Pytesseract是Python的一個(gè)OCR庫(kù)，它是Tesseract OCR引擎的Python封裝。在使用Pytesseract之前，需要先安裝Tesseract OCR引擎和Pytesseract庫(kù)。可以使用以下命令在Linux系統(tǒng)中安裝Tesseract O

1、安裝和配置Pytesseract庫(kù)

Pytesseract是Python的一個(gè)OCR庫(kù)，它是Tesseract OCR引擎的Python封裝。在使用Pytesseract之前，需要先安裝Tesseract OCR引擎和Pytesseract庫(kù)。可以使用以下命令在Linux系統(tǒng)中安裝Tesseract OCR和Pytesseract庫(kù)：

sudo apt-get install tesseract-ocrsudo apt-get install libtesseract-devpip install pytesseract

在Windows系統(tǒng)中，可以從Tesseract OCR的官方網(wǎng)站（https://github.com/UB-Mannheim/tesseract/wiki）下載安裝包，然后使用以下命令安裝Pytesseract庫(kù)：

pip install pytesseract

2、識(shí)別圖片中的文本

使用Pytesseract庫(kù)識(shí)別圖片中的文本非常簡(jiǎn)單。首先，需要導(dǎo)入pytesseract模塊和PIL模塊（用于打開(kāi)和處理圖片）。然后，可以使用pytesseract.image_to_string()函數(shù)來(lái)識(shí)別圖片中的文本。以下是一個(gè)簡(jiǎn)單的示例：

import pytesseractfrom PIL import Image# 打開(kāi)圖片img = Image.open('example.png')# 識(shí)別圖片中的文本text = pytesseract.image_to_string(img, lang='eng')# 打印識(shí)別的文本print(text)

在上面的示例中，pytesseract.image_to_string()函數(shù)接受兩個(gè)參數(shù)：要識(shí)別的圖片和語(yǔ)言選項(xiàng)。默認(rèn)情況下，Pytesseract使用英語(yǔ)語(yǔ)言模型進(jìn)行識(shí)別。如果需要識(shí)別其他語(yǔ)言，可以將lang參數(shù)設(shè)置為對(duì)應(yīng)的語(yǔ)言代碼。

3、整理識(shí)別的文本

在將識(shí)別的文本整理成word、txt和markdown格式的文件之前，需要先對(duì)識(shí)別的文本進(jìn)行處理和清洗，以確保輸出的文件格式正確。以下是一些常用的文本處理和清洗操作：

去除多余的空格和換行符
將文本按照段落進(jìn)行分割
將文本按照句子進(jìn)行分割
刪除無(wú)用的字符和標(biāo)點(diǎn)符號(hào)
將文本轉(zhuǎn)換為小寫字母（可選）
...

下面是一個(gè)示例代碼，將識(shí)別的文本整理成txt格式的文件：

import pytesseractfrom PIL import Image# 打開(kāi)圖片img = Image.open('example.png')# 識(shí)別圖片中的文本text = pytesseract.image_to_string(img, lang='eng')# 去除多余的空格和換行符text = ' '.join(text.split())text = text.replace('/n', ' ')# 將文本按照段落進(jìn)行分割paragraphs = text.split('/n/n')# 創(chuàng)建txt文件并寫入文本with open('example.txt', 'w') as f:    for p in paragraphs:        f.write(p + '/n/n')

將識(shí)別的文本整理成word、markdown格式的文件也類似，只需要將輸出格式從txt改為對(duì)應(yīng)的格式，然后使用相應(yīng)的庫(kù)或工具來(lái)生成文件即可。

4、完整代碼

下面是一個(gè)完整的示例代碼，將識(shí)別的文本整理成word、txt格式的文件：

import pytesseractfrom PIL import Imageimport docximport os# 打開(kāi)圖片img = Image.open('example.png')# 識(shí)別圖片中的文本text = pytesseract.image_to_string(img, lang='eng')# 去除多余的空格和換行符text = ' '.join(text.split())text = text.replace('/n', ' ')# 將文本按照段落進(jìn)行分割paragraphs = text.split('/n/n')# 將文本整理成word格式的文件doc = docx.Document()for p in paragraphs:    doc.add_paragraph(p)doc.save('example.docx')# 將文本整理成txt格式的文件with open('example.txt', 'w') as f:    for p in paragraphs:        f.write(p + '/n/n')# 打開(kāi)生成的文件os.system('start example.docx')os.system('start example.txt')

在上面的代碼中，使用了Python的docx庫(kù)來(lái)生成word格式的文件。在生成文件之后，使用os模塊打開(kāi)文件。在Windows系統(tǒng)中，可以使用os.system()函數(shù)來(lái)打開(kāi)文件。在其他操作系統(tǒng)中，可能需要使用其他方式來(lái)打開(kāi)文件。

本文鏈接：http://www.tebozhan.com/showinfo-26-11845-0.html如何使用Python中的OCR技術(shù)將圖像中的文本提取為可編輯文件？

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： SpringBoot 并發(fā)編程學(xué)習(xí)歷程，你所需要的所有知識(shí)點(diǎn)！

下一篇：深度使用了下 Serverless，太絲滑了！

標(biāo)簽：

熱門焦點(diǎn)

6月安卓手機(jī)性價(jià)比榜：Note 12 Turbo斷層式碾壓

6月份有一個(gè)618，雖然這是京東周年慶的日子，但別的電商也都不約而同的跟進(jìn)了，反正促銷沒(méi)壞處，廠商和用戶都能滿意。618期間一些產(chǎn)品也出現(xiàn)了歷史低價(jià)，那么各個(gè)價(jià)位段的產(chǎn)品性價(jià)比
5月iOS設(shè)備性能榜：M1 M2依舊是榜單前五

和上個(gè)月一樣，沒(méi)有新品發(fā)布的iOS設(shè)備性能榜的上榜設(shè)備并沒(méi)有什么更替，僅僅只有跑分變化而產(chǎn)生的排名變動(dòng)，剛剛開(kāi)始的蘋果WWDC2023，推出的產(chǎn)品也依舊是新款Mac Pro、新款Mac Stu
把LangChain跑起來(lái)的三個(gè)方法

使用LangChain開(kāi)發(fā)LLM應(yīng)用時(shí)，需要機(jī)器進(jìn)行GLM部署，好多同學(xué)第一步就被勸退了，那么如何繞過(guò)這個(gè)步驟先學(xué)習(xí)LLM模型的應(yīng)用，對(duì)Langchain進(jìn)行快速上手？本片講解3個(gè)把LangChain跑起來(lái)
三分鐘白話RocketMQ系列—— 如何發(fā)送消息

我們知道RocketMQ主要分為消息生產(chǎn)、存儲(chǔ)（消息堆積）、消費(fèi) 三大塊領(lǐng)域。那接下來(lái)，我們白話一下，RocketMQ是如何發(fā)送消息的，揭秘消息生產(chǎn)全過(guò)程。注意，如果白話中不小心提到相關(guān)代
最“俊美”淘寶賣家，靠直播和短視頻圈粉，上架秒光，年銷3000萬(wàn)

來(lái)源 | 電商在線文｜易琬玉編輯｜斯問(wèn)受訪店鋪：Ringdoll戒之人形圖源：微博@御座的黃山、“Ringdoll戒之人形”淘寶店鋪有關(guān)外貌的評(píng)價(jià)，黃山已經(jīng)聽(tīng)累了。生于1985年的他，哪
猿輔導(dǎo)與新東方的兩種“歸途”

作者｜卓心月出品｜零態(tài)LT（ID：LingTai_LT）如何成為一家偉大企業(yè)？答案一定是對(duì)“勢(shì)”的把握，這其中最關(guān)鍵的當(dāng)屬對(duì)企業(yè)戰(zhàn)略的制定，且能夠站在未來(lái)看現(xiàn)在，即使這其中的
網(wǎng)紅炒股不為了賺錢，那就是耍流氓！

來(lái)源：首席商業(yè)評(píng)論6月26日高調(diào)宣布入市，網(wǎng)絡(luò)名嘴大v胡錫進(jìn)居然進(jìn)軍了股市。在一次財(cái)經(jīng)媒體峰會(huì)上，幾個(gè)財(cái)經(jīng)圈媒體大佬就“胡錫進(jìn)炒股是否知道認(rèn)真報(bào)道”展開(kāi)討論。有
華為將推出盤古數(shù)字人大模型可幫助用戶12小時(shí)完成數(shù)字人生成

在今日舉行的2023年華為云數(shù)字文娛AI創(chuàng)新峰會(huì)上，華為云全球Marketing與銷售服務(wù)總裁石冀琳表示，華為云將在后續(xù)推出盤古數(shù)字人大模型，可幫助用戶12小
OPPO Reno10 Pro英雄聯(lián)盟定制禮盒公布：薩勒芬妮同款配色夢(mèng)幻十足

5月24日，OPPO推出了全新的OPPO Reno 10系列，包含OPPO Reno10、OPPO Reno10 Pro和OPPO Reno10 Pro+三款新機(jī)，全系標(biāo)配了超光影長(zhǎng)焦鏡頭，是迄今為止拍照

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

如何使用Python中的OCR技術(shù)將圖像中的文本提取為可編輯文件？

1、安裝和配置Pytesseract庫(kù)

2、識(shí)別圖片中的文本

3、整理識(shí)別的文本

4、完整代碼

6月安卓手機(jī)性價(jià)比榜：Note 12 Turbo斷層式碾壓

5月iOS設(shè)備性能榜：M1 M2依舊是榜單前五

把LangChain跑起來(lái)的三個(gè)方法

三分鐘白話RocketMQ系列—— 如何發(fā)送消息

最“俊美”淘寶賣家，靠直播和短視頻圈粉，上架秒光，年銷3000萬(wàn)

猿輔導(dǎo)與新東方的兩種“歸途”

網(wǎng)紅炒股不為了賺錢，那就是耍流氓！

華為將推出盤古數(shù)字人大模型可幫助用戶12小時(shí)完成數(shù)字人生成

OPPO Reno10 Pro英雄聯(lián)盟定制禮盒公布：薩勒芬妮同款配色夢(mèng)幻十足

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊