AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁(yè) > 科技  > 軟件

使用Python從圖像中提取表格

來(lái)源: 責(zé)編: 時(shí)間:2023-11-15 17:17:17 273觀看
導(dǎo)讀大約一年前,我被分配任務(wù)從文件中提取和結(jié)構(gòu)化數(shù)據(jù),主要是包含在表格中的數(shù)據(jù)。我之前對(duì)計(jì)算機(jī)視覺(jué)沒(méi)有了解,并且很難找到一個(gè)合適的“即插即用”的解決方案。當(dāng)時(shí)可選的方案要么是基于最新神經(jīng)網(wǎng)絡(luò)(NN)的解決方案,這些解決

大約一年前,我被分配任務(wù)從文件中提取和結(jié)構(gòu)化數(shù)據(jù),主要是包含在表格中的數(shù)據(jù)。我之前對(duì)計(jì)算機(jī)視覺(jué)沒(méi)有了解,并且很難找到一個(gè)合適的“即插即用”的解決方案。當(dāng)時(shí)可選的方案要么是基于最新神經(jīng)網(wǎng)絡(luò)(NN)的解決方案,這些解決方案龐大而繁瑣,要么是基于OpenCV的較簡(jiǎn)單的解決方案,但不夠一致。lYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

受現(xiàn)有OpenCV腳本的啟發(fā),我開發(fā)了一種簡(jiǎn)單而一致的方法來(lái)提取表格,并將其制作成一個(gè)開源的Python庫(kù):img2table。lYv28資訊網(wǎng)——每日最新資訊28at.com

鏈接:https://github.com/xavctn/img2tablelYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

我的庫(kù)有什么作用?

lYv28資訊網(wǎng)——每日最新資訊28at.com

與深度學(xué)習(xí)解決方案相比,這個(gè)輕量級(jí)的包不需要訓(xùn)練和最小化參數(shù)化。它提供了以下功能:lYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

  • 識(shí)別圖像和PDF文件中的表格,包括在表格單元級(jí)別的邊界框。
  • 通過(guò)支持OCR服務(wù)/工具(Tesseract、PaddleOCR、AWS Textract、Google Vision和Azure OCR目前支持)來(lái)提取表格內(nèi)容。
  • 處理復(fù)雜的表格結(jié)構(gòu),如合并單元格。
  • 實(shí)現(xiàn)糾正圖像的傾斜和旋轉(zhuǎn)的方法。
  • 提取的表格以一個(gè)簡(jiǎn)單的對(duì)象形式返回,包括一個(gè)Pandas DataFrame表示。
  • 將提取的表格導(dǎo)出為Excel文件的選項(xiàng),保留其原始結(jié)構(gòu)。

如何使用它?

lYv28資訊網(wǎng)——每日最新資訊28at.com

您可以通過(guò)pip安裝該庫(kù),然后就可以使用了:lYv28資訊網(wǎng)——每日最新資訊28at.com

pip install img2table

在文檔中識(shí)別表格只需調(diào)用一個(gè)函數(shù):lYv28資訊網(wǎng)——每日最新資訊28at.com

from img2table.document import Image# Instantiation of the imageimg = Image(src="myimage.jpg")# Table identificationimg_tables = img.extract_tables()# Result of table identificationimg_tables[ExtractedTable(title=None, bbox=(10, 8, 745, 314),shape=(6, 3)), ExtractedTable(title=None, bbox=(936, 9, 1129, 111),shape=(2, 2))]

lYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

上述示例中使用的圖像lYv28資訊網(wǎng)——每日最新資訊28at.com

如果我們想提取表格的內(nèi)容,則需要使用OCR工具,可以按如下方式實(shí)現(xiàn):lYv28資訊網(wǎng)——每日最新資訊28at.com

from img2table.document import PDFfrom img2table.ocr import TesseractOCR# Instantiation of the pdfpdf = PDF(src="mypdf.pdf")# Instantiation of the OCR, Tesseract, which requires prior installationocr = TesseractOCR(lang="eng")# Table identification and extractionpdf_tables = pdf.extract_tables(ocr=ocr)# We can also create an excel file with the tablespdf.to_xlsx('tables.xlsx',            ocr=ocr)

lYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

從PDF中提取的表格示例lYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

最后,在簡(jiǎn)單的情況下,可以通過(guò)設(shè)置`borderless_tables`參數(shù)來(lái)執(zhí)行“無(wú)邊框”表格的提取。這允許檢測(cè)那些單元格不需要完全被邊框包圍的表格。lYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

“無(wú)邊框”表格提取示例lYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

這就是全部!實(shí)際上,庫(kù)并沒(méi)有太多復(fù)雜的東西,因?yàn)槟繕?biāo)是盡可能簡(jiǎn)化,以避免其他可用解決方案可能帶來(lái)的復(fù)雜性。lYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

有關(guān)更詳細(xì)的文檔和示例,請(qǐng)查看項(xiàng)目的GitHub頁(yè)面:https://github.com/xavctn/img2tablelYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

底層實(shí)現(xiàn)

lYv28資訊網(wǎng)——每日最新資訊28at.com

所有圖像處理都使用OpenCV和opencv-python庫(kù)完成。然而,這仍然相當(dāng)基礎(chǔ)。lYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

算法的骨架是Hough變換,它能夠識(shí)別圖像中的線條,使我們能夠檢測(cè)圖像的水平和垂直線條。lYv28資訊網(wǎng)——每日最新資訊28at.com

cv2.HoughLinesP(img, rho, theta, threshold, None, minLinLength, maxLineGap)

lYv28資訊網(wǎng)——每日最新資訊28at.com

之后,對(duì)線條進(jìn)行一些處理以從線條中識(shí)別單元格,然后從單元格中識(shí)別表格。lYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

實(shí)現(xiàn)算法的簡(jiǎn)化表示lYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

大多數(shù)計(jì)算使用Polars進(jìn)行,以實(shí)現(xiàn)良好的性能和速度。lYv28資訊網(wǎng)——每日最新資訊28at.com

lYv28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-26-25992-0.html使用Python從圖像中提取表格

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: C語(yǔ)言結(jié)構(gòu)體用法詳解

下一篇: 由“點(diǎn)”向“面”!簡(jiǎn)析新一代WAF的理念與應(yīng)用

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 對(duì)標(biāo)蘋果的靈動(dòng)島 華為帶來(lái)實(shí)況窗功能

    繼蘋果的靈動(dòng)島之后,華為也在今天正式推出了“實(shí)況窗”功能。據(jù)今天鴻蒙OS 4.0的現(xiàn)場(chǎng)演示顯示,華為的實(shí)況窗可以更高效的展現(xiàn)出實(shí)時(shí)通知,比如鎖屏上就能看到外賣、打車、銀行
  • Redmi Buds 4開箱簡(jiǎn)評(píng):才199還有降噪 可以無(wú)腦入

    在上個(gè)月舉辦的Redmi Note11T Pro系列新機(jī)發(fā)布會(huì)上,除了兩款手機(jī)新品之外,Redmi還帶來(lái)了兩款TWS真無(wú)線藍(lán)牙耳機(jī)產(chǎn)品,Redmi Buds 4和Redmi Buds 4 Pro,此前我們?cè)赗edmi Note11T
  • 帥氣純真少年!日本最帥初中生選美冠軍出爐

    日本第一帥哥初一生選美大賽冠軍現(xiàn)已正式出爐,冠軍是來(lái)自千葉縣的宗田悠良。日本一直熱衷于各種選美大賽,從“最美JK”起到“最美女星&r
  • Raft算法:保障分布式系統(tǒng)共識(shí)的穩(wěn)健之道

    1. 什么是Raft算法?Raft 是英文”Reliable、Replicated、Redundant、And Fault-Tolerant”(“可靠、可復(fù)制、可冗余、可容錯(cuò)”)的首字母縮寫。Raft算法是一種用于在分布式系統(tǒng)
  • 把LangChain跑起來(lái)的三個(gè)方法

    使用LangChain開發(fā)LLM應(yīng)用時(shí),需要機(jī)器進(jìn)行GLM部署,好多同學(xué)第一步就被勸退了,那么如何繞過(guò)這個(gè)步驟先學(xué)習(xí)LLM模型的應(yīng)用,對(duì)Langchain進(jìn)行快速上手?本片講解3個(gè)把LangChain跑起來(lái)
  • JVM優(yōu)化:實(shí)戰(zhàn)OutOfMemoryError異常

    一、Java堆溢出堆內(nèi)存中主要存放對(duì)象、數(shù)組等,只要不斷地創(chuàng)建這些對(duì)象,并且保證 GC Roots 到對(duì)象之間有可達(dá)路徑來(lái)避免垃 圾收集回收機(jī)制清除這些對(duì)象,當(dāng)這些對(duì)象所占空間超過(guò)
  • 本地生活這塊肥肉,拼多多也想吃一口

    出品/壹覽商業(yè) 作者/李彥編輯/木魚拼多多也看上本地生活這塊蛋糕了。近期,拼多多在App首頁(yè)“充值中心”入口上線了本機(jī)生活界面。壹覽商業(yè)發(fā)現(xiàn),該界面目前主要
  • AI芯片初創(chuàng)公司Tenstorrent獲三星和現(xiàn)代1億美元投資

    Tenstorrent是一家由芯片行業(yè)資深人士Jim Keller領(lǐng)導(dǎo)的加拿大初創(chuàng)公司,專注于開發(fā)人工智能芯片,該公司周三表示,已經(jīng)從現(xiàn)代汽車集團(tuán)和三星投資基金等
  • OPPO K11樣張首曝:千元機(jī)影像“卷”得真不錯(cuò)!

    一直以來(lái),OPPO K系列機(jī)型都保持著較為均衡的產(chǎn)品體驗(yàn),歷來(lái)都是2K價(jià)位的明星機(jī)型,去年推出的OPPO K10和OPPO K10 Pro兩款機(jī)型憑借各自的出色配置,堪稱有
Top