AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁(yè) > 科技  > 軟件

如何使用Python中的OCR技術(shù)將圖像中的文本提取為可編輯文件?

來(lái)源: 責(zé)編: 時(shí)間:2023-09-28 10:07:55 317觀看
導(dǎo)讀1、安裝和配置Pytesseract庫(kù)Pytesseract是Python的一個(gè)OCR庫(kù),它是Tesseract OCR引擎的Python封裝。在使用Pytesseract之前,需要先安裝Tesseract OCR引擎和Pytesseract庫(kù)。可以使用以下命令在Linux系統(tǒng)中安裝Tesseract O

17828資訊網(wǎng)——每日最新資訊28at.com

1、安裝和配置Pytesseract庫(kù)

Pytesseract是Python的一個(gè)OCR庫(kù),它是Tesseract OCR引擎的Python封裝。在使用Pytesseract之前,需要先安裝Tesseract OCR引擎和Pytesseract庫(kù)。可以使用以下命令在Linux系統(tǒng)中安裝Tesseract OCR和Pytesseract庫(kù):17828資訊網(wǎng)——每日最新資訊28at.com

sudo apt-get install tesseract-ocrsudo apt-get install libtesseract-devpip install pytesseract

在Windows系統(tǒng)中,可以從Tesseract OCR的官方網(wǎng)站(https://github.com/UB-Mannheim/tesseract/wiki)下載安裝包,然后使用以下命令安裝Pytesseract庫(kù):17828資訊網(wǎng)——每日最新資訊28at.com

pip install pytesseract

2、識(shí)別圖片中的文本

使用Pytesseract庫(kù)識(shí)別圖片中的文本非常簡(jiǎn)單。首先,需要導(dǎo)入pytesseract模塊和PIL模塊(用于打開(kāi)和處理圖片)。然后,可以使用pytesseract.image_to_string()函數(shù)來(lái)識(shí)別圖片中的文本。以下是一個(gè)簡(jiǎn)單的示例:17828資訊網(wǎng)——每日最新資訊28at.com

import pytesseractfrom PIL import Image# 打開(kāi)圖片img = Image.open('example.png')# 識(shí)別圖片中的文本text = pytesseract.image_to_string(img, lang='eng')# 打印識(shí)別的文本print(text)

在上面的示例中,pytesseract.image_to_string()函數(shù)接受兩個(gè)參數(shù):要識(shí)別的圖片和語(yǔ)言選項(xiàng)。默認(rèn)情況下,Pytesseract使用英語(yǔ)語(yǔ)言模型進(jìn)行識(shí)別。如果需要識(shí)別其他語(yǔ)言,可以將lang參數(shù)設(shè)置為對(duì)應(yīng)的語(yǔ)言代碼。17828資訊網(wǎng)——每日最新資訊28at.com

3、整理識(shí)別的文本

在將識(shí)別的文本整理成word、txt和markdown格式的文件之前,需要先對(duì)識(shí)別的文本進(jìn)行處理和清洗,以確保輸出的文件格式正確。以下是一些常用的文本處理和清洗操作:17828資訊網(wǎng)——每日最新資訊28at.com

  • 去除多余的空格和換行符
  • 將文本按照段落進(jìn)行分割
  • 將文本按照句子進(jìn)行分割
  • 刪除無(wú)用的字符和標(biāo)點(diǎn)符號(hào)
  • 將文本轉(zhuǎn)換為小寫字母(可選)
  • ...

下面是一個(gè)示例代碼,將識(shí)別的文本整理成txt格式的文件:17828資訊網(wǎng)——每日最新資訊28at.com

import pytesseractfrom PIL import Image# 打開(kāi)圖片img = Image.open('example.png')# 識(shí)別圖片中的文本text = pytesseract.image_to_string(img, lang='eng')# 去除多余的空格和換行符text = ' '.join(text.split())text = text.replace('/n', ' ')# 將文本按照段落進(jìn)行分割paragraphs = text.split('/n/n')# 創(chuàng)建txt文件并寫入文本with open('example.txt', 'w') as f:    for p in paragraphs:        f.write(p + '/n/n')

將識(shí)別的文本整理成word、markdown格式的文件也類似,只需要將輸出格式從txt改為對(duì)應(yīng)的格式,然后使用相應(yīng)的庫(kù)或工具來(lái)生成文件即可。17828資訊網(wǎng)——每日最新資訊28at.com

4、完整代碼

下面是一個(gè)完整的示例代碼,將識(shí)別的文本整理成word、txt格式的文件:17828資訊網(wǎng)——每日最新資訊28at.com

import pytesseractfrom PIL import Imageimport docximport os# 打開(kāi)圖片img = Image.open('example.png')# 識(shí)別圖片中的文本text = pytesseract.image_to_string(img, lang='eng')# 去除多余的空格和換行符text = ' '.join(text.split())text = text.replace('/n', ' ')# 將文本按照段落進(jìn)行分割paragraphs = text.split('/n/n')# 將文本整理成word格式的文件doc = docx.Document()for p in paragraphs:    doc.add_paragraph(p)doc.save('example.docx')# 將文本整理成txt格式的文件with open('example.txt', 'w') as f:    for p in paragraphs:        f.write(p + '/n/n')# 打開(kāi)生成的文件os.system('start example.docx')os.system('start example.txt')

在上面的代碼中,使用了Python的docx庫(kù)來(lái)生成word格式的文件。在生成文件之后,使用os模塊打開(kāi)文件。在Windows系統(tǒng)中,可以使用os.system()函數(shù)來(lái)打開(kāi)文件。在其他操作系統(tǒng)中,可能需要使用其他方式來(lái)打開(kāi)文件。17828資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-26-11845-0.html如何使用Python中的OCR技術(shù)將圖像中的文本提取為可編輯文件?

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: SpringBoot 并發(fā)編程學(xué)習(xí)歷程,你所需要的所有知識(shí)點(diǎn)!

下一篇: 深度使用了下 Serverless,太絲滑了!

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 6月安卓手機(jī)性價(jià)比榜:Note 12 Turbo斷層式碾壓

    6月份有一個(gè)618,雖然這是京東周年慶的日子,但別的電商也都不約而同的跟進(jìn)了,反正促銷沒(méi)壞處,廠商和用戶都能滿意。618期間一些產(chǎn)品也出現(xiàn)了歷史低價(jià),那么各個(gè)價(jià)位段的產(chǎn)品性價(jià)比
  • 5月iOS設(shè)備性能榜:M1 M2依舊是榜單前五

    和上個(gè)月一樣,沒(méi)有新品發(fā)布的iOS設(shè)備性能榜的上榜設(shè)備并沒(méi)有什么更替,僅僅只有跑分變化而產(chǎn)生的排名變動(dòng),剛剛開(kāi)始的蘋果WWDC2023,推出的產(chǎn)品也依舊是新款Mac Pro、新款Mac Stu
  • 把LangChain跑起來(lái)的三個(gè)方法

    使用LangChain開(kāi)發(fā)LLM應(yīng)用時(shí),需要機(jī)器進(jìn)行GLM部署,好多同學(xué)第一步就被勸退了,那么如何繞過(guò)這個(gè)步驟先學(xué)習(xí)LLM模型的應(yīng)用,對(duì)Langchain進(jìn)行快速上手?本片講解3個(gè)把LangChain跑起來(lái)
  • 三分鐘白話RocketMQ系列—— 如何發(fā)送消息

    我們知道RocketMQ主要分為消息 生產(chǎn)、存儲(chǔ)(消息堆積)、消費(fèi) 三大塊領(lǐng)域。那接下來(lái),我們白話一下,RocketMQ是如何發(fā)送消息的,揭秘消息生產(chǎn)全過(guò)程。注意,如果白話中不小心提到相關(guān)代
  • 最“俊美”淘寶賣家,靠直播和短視頻圈粉,上架秒光,年銷3000萬(wàn)

    來(lái)源 | 電商在線文|易琬玉編輯|斯問(wèn)受訪店鋪:Ringdoll戒之人形圖源:微博@御座的黃山、“Ringdoll戒之人形”淘寶店鋪有關(guān)外貌的評(píng)價(jià),黃山已經(jīng)聽(tīng)累了。生于1985年的他,哪
  • 猿輔導(dǎo)與新東方的兩種“歸途”

    作者|卓心月 出品|零態(tài)LT(ID:LingTai_LT)如何成為一家偉大企業(yè)?答案一定是對(duì)“勢(shì)”的把握,這其中最關(guān)鍵的當(dāng)屬對(duì)企業(yè)戰(zhàn)略的制定,且能夠站在未來(lái)看現(xiàn)在,即使這其中的
  • 網(wǎng)紅炒股不為了賺錢,那就是耍流氓!

    來(lái)源:首席商業(yè)評(píng)論6月26日高調(diào)宣布入市,網(wǎng)絡(luò)名嘴大v胡錫進(jìn)居然進(jìn)軍了股市。在一次財(cái)經(jīng)媒體峰會(huì)上,幾個(gè)財(cái)經(jīng)圈媒體大佬就“胡錫進(jìn)炒股是否知道認(rèn)真報(bào)道”展開(kāi)討論。有
  • 華為將推出盤古數(shù)字人大模型 可幫助用戶12小時(shí)完成數(shù)字人生成

    在今日舉行的2023年華為云數(shù)字文娛AI創(chuàng)新峰會(huì)上,華為云全球Marketing與銷售服務(wù)總裁石冀琳表示,華為云將在后續(xù)推出盤古數(shù)字人大模型,可幫助用戶12小
  • OPPO Reno10 Pro英雄聯(lián)盟定制禮盒公布:薩勒芬妮同款配色夢(mèng)幻十足

    5月24日,OPPO推出了全新的OPPO Reno 10系列,包含OPPO Reno10、OPPO Reno10 Pro和OPPO Reno10 Pro+三款新機(jī),全系標(biāo)配了超光影長(zhǎng)焦鏡頭,是迄今為止拍照
Top