當前位置：首頁 > 科技 > 軟件

使用Python進行文本分析-將PDF文件多進程批量處理為csv文件

來源：責編：時間：2023-11-14 09:10:11 310觀看

導讀在文本分析的過程中，將原始數(shù)據(jù)轉換為TXT文件非常關鍵，主要出于以下幾個方面的考慮：1.格式簡單與統(tǒng)一:TXT文件是一種簡單的文本格式，只包含純文本信息，不包含任何格式或樣式信息。這種簡單和統(tǒng)一的格式有助于減少在文本分

在文本分析的過程中，將原始數(shù)據(jù)轉換為TXT文件非常關鍵，主要出于以下幾個方面的考慮：

1.格式簡單與統(tǒng)一:

TXT文件是一種簡單的文本格式，只包含純文本信息，不包含任何格式或樣式信息。這種簡單和統(tǒng)一的格式有助于減少在文本分析過程中可能出現(xiàn)的混淆或誤解。
其他格式的文檔，如PDF或Word文檔，可能包含圖像、表格和其他非文本元素，還可能包含復雜的格式和樣式，這些都可能干擾文本分析的過程。

2. 便于文本預處理:

? 文本分析通常需要對文本數(shù)據(jù)進行預處理，包括分詞、去停用詞、標準化等。TXT文件的簡單結構使得這些預處理任務更容易執(zhí)行。
? 與其他文件格式相比，TXT文件不包含任何復雜的格式或元數(shù)據(jù)，這有助于簡化預處理步驟，減少可能出現(xiàn)的錯誤和問題。

3.兼容性：

? 大多數(shù)文本分析和自然語言處理(NLP)工具都能夠直接處理TXT文件。將原始數(shù)據(jù)轉換為TXT文件可以確保與這些工具的兼容性，從而簡化分析流程。
? TXT文件是一種通用的文件格式，可以在不同的操作系統(tǒng)和軟件環(huán)境中輕松處理，而不需要特定的轉換或適配器。

4.節(jié)省資源:

? TXT文件通常比其他文件格式更小，這有助于節(jié)省存儲空間和提高處理速度。較小的文件大小也意味著需要較少的計算資源來處理文本數(shù)據(jù)，從而提高分析效率。
? 簡單的文本格式也意味著在處理時CPU和內存的消耗較低，這對于大規(guī)模文本分析任務來說是非常重要的。

5.便于文本挖掘和模式識別:

? 純文本格式使得使用正則表達式和其他文本挖掘技術來識別和提取文本中的模式變得更為容易和直接。
? 純文本數(shù)據(jù)也便于實現(xiàn)各種文本分析技術，如情感分析、主題建模和實體識別等。

6.可讀性和可檢查性:

? 人類可以直接讀取和理解TXT文件，這對于檢查、調試和理解文本分析的結果非常重要。

7.數(shù)據(jù)清洗:

? TXT文件的簡單性使得更容易識別和處理缺失值、錯誤和其他數(shù)據(jù)質量問題，從而保證文本分析的準確性和可靠性。

將原始數(shù)據(jù)轉換為TXT文件是實現(xiàn)有效和準確文本分析的一個基本步驟，它幫助簡化和標準化文本分析流程，從而提高分析的效率和質量。以下代碼可以用來將pdf文件轉換為txt文件。

pdf2txt.py

#!/usr/bin/env python  # 該行命令告訴操作系統(tǒng)使用 Python 解釋器執(zhí)行此文件import sys  # 導入sys模塊，用于處理與Python解釋器和運行時環(huán)境有關的操作from pdfminer.pdfdocument import PDFDocument  # 從pdfminer模塊導入PDFDocument類，用于表示PDF文檔from pdfminer.pdfparser import PDFParser  # 從pdfminer模塊導入PDFParser類，用于解析PDF文檔from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter  # 從pdfminer模塊導入資源管理和頁面解釋類from pdfminer.pdfdevice import PDFDevice, TagExtractor  # 從pdfminer模塊導入PDF設備和標簽提取器類from pdfminer.pdfpage import PDFPage  # 從pdfminer模塊導入PDFPage類，用于表示PDF頁面from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter  # 從pdfminer模塊導入轉換器類，用于將PDF轉換為其他格式from pdfminer.cmapdb import CMapDB  # 從pdfminer模塊導入字符映射數(shù)據(jù)庫類from pdfminer.layout import LAParams  # 從pdfminer模塊導入布局分析參數(shù)類from pdfminer.image import ImageWriter  # 從pdfminer模塊導入圖像寫入類# 定義主函數(shù)，argv是一個包含命令行參數(shù)的列表def main(argv):    import getopt  # 導入getopt模塊，用于解析命令行參數(shù)    # 定義一個顯示用法的內部函數(shù)    def usage():        print ('usage: %s [-P password] [-o output] [-t text|html|xml|tag]'               ' [-O output_dir] [-c encoding] [-s scale] [-R rotation]'               ' [-Y normal|loose|exact] [-p pagenos] [-m maxpages]'               ' [-S] [-C] [-n] [-A] [-V] [-M char_margin] [-L line_margin]'               ' [-W word_margin] [-F boxes_flow] [-d] input.pdf ...' % argv[0])        return 100  # 返回一個錯誤代碼    try:        # 使用getopt解析命令行參數(shù)        (opts, args) = getopt.getopt(argv[1:], 'dP:o:t:O:c:s:R:Y:p:m:SCnAVM:W:L:F:')    except getopt.GetoptError:        return usage()  # 如果解析失敗，則顯示用法并退出    if not args: return usage()  # 如果沒有提供非選項參數(shù)（例如輸入文件），則顯示用法并退出    # 初始化一些變量    debug = 0  # 調試級別    password = b''  # PDF密碼    pagenos = set()  # 要處理的頁碼集    maxpages = 0  # 最大頁數(shù)    outfile = None  # 輸出文件名    outtype = None  # 輸出類型    imagewriter = None  # 圖像寫入對象    rotation = 0  # 旋轉角度    stripcontrol = False  # 是否剝離控制字符    layoutmode = 'normal'  # 布局模式    encoding = 'utf-8'  # 編碼方式    pageno = 1  # 頁面號    scale = 1  # 縮放因子    caching = True  # 是否緩存    showpageno = True  # 是否顯示頁面號    laparams = LAParams()  # 布局分析參數(shù)對象    for (k, v) in opts:  # 遍歷選項和值        if k == '-d': debug += 1  # 設置調試級別        elif k == '-P': password = v.encode('ascii')  # 設置密碼        elif k == '-o': outfile = v  # 設置輸出文件名        elif k == '-t': outtype = v  # 設置輸出類型        elif k == '-O': imagewriter = ImageWriter(v)  # 創(chuàng)建圖像寫入對象        elif k == '-c': encoding = v  # 設置編碼方式        elif k == '-s': scale = float(v)  # 設置縮放因子        elif k == '-R': rotation = int(v)  # 設置旋轉角度        elif k == '-Y': layoutmode = v  # 設置布局模式        elif k == '-p': pagenos.update(int(x)-1 for x in v.split(','))  # 更新頁碼集        elif k == '-m': maxpages = int(v)  # 設置最大頁數(shù)        elif k == '-S': stripcontrol = True  # 啟用剝離控制字符        elif k == '-C': caching = False  # 禁用緩存        elif k == '-n': laparams = None  # 禁用布局分析參數(shù)        elif k == '-A': laparams.all_texts = True  # 啟用所有文本選項        elif k == '-V': laparams.detect_vertical = True  # 啟用垂直檢測選項        elif k == '-M': laparams.char_margin = float(v)  # 設置字符邊距        elif k == '-W': laparams.word_margin = float(v)  # 設置單詞邊距        elif k == '-L': laparams.line_margin = float(v)  # 設置行邊距        elif k == '-F': laparams.boxes_flow = float(v)  # 設置框流    # 設置調試級別    PDFDocument.debug = debug    PDFParser.debug = debug    CMapDB.debug = debug    PDFPageInterpreter.debug = debug    # 創(chuàng)建PDF資源管理器對象    rsrcmgr = PDFResourceManager(caching=caching)    # 根據(jù)輸出類型和選項創(chuàng)建相應的PDF設備對象    if not outtype:        outtype = 'text'  # 默認為文本輸出        if outfile:            if outfile.endswith('.htm') or outfile.endswith('.html'):                outtype = 'html'  # 如果輸出文件名以.htm或.html結尾，則設置為html輸出            elif outfile.endswith('.xml'):                outtype = 'xml'  # 如果輸出文件名以.xml結尾，則設置為xml輸出            elif outfile.endswith('.tag'):                outtype = 'tag'  # 如果輸出文件名以.tag結尾，則設置為tag輸出            elif outtype == 'tag':        device = TagExtractor(rsrcmgr, outfp)  # 如果輸出類型為'tag'，則創(chuàng)建TagExtractor對象    else:        return usage()  # 如果不識別的輸出類型，則顯示用法并退出    for fname in args:  # 遍歷所有輸入文件名        with open(fname, 'rb') as fp:  # 以二進制讀模式打開文件            interpreter = PDFPageInterpreter(rsrcmgr, device)  # 創(chuàng)建PDF頁面解釋器對象            # 遍歷PDF頁面，獲取頁面對象            for page in PDFPage.get_pages(fp, pagenos,                                          maxpages=maxpages, password=password,                                          caching=caching, check_extractable=True):                page.rotate = (page.rotate+rotation) % 360  # 設置頁面旋轉角度                interpreter.process_page(page)  # 處理每個頁面    device.close()  # 關閉設備對象，釋放資源    outfp.close()  # 關閉輸出文件，釋放資源    return  # 從主函數(shù)返回# 檢查此模塊是否作為主模塊運行if __name__ == '__main__':    sys.exit(main(sys.argv))  # 如果是，則調用main函數(shù)，并使用命令行參數(shù)列表作為參數(shù)

convertPDF.py

#!/usr/bin/env python3"""Script to convert PDFs to text files."""import  unicodedata, os, pdf2txt, datetimeimport multiprocessingdef convertPDFToText(i, ID, newDir, fileNamePDF):    print('Trying to convert: ' + str(i) + ', ' + ID)  # 輸出正在嘗試轉換的文件信息    try:        pdf2txt.main(['-o', newDir + '/' + ID + '.txt', fileNamePDF])  # 調用pdf2txt.main來轉換PDF為文本        print('Successfully converted: ' + ID)  # 轉換成功時的輸出    except Exception as e:        print('Failed to convert: ' + ID + f', Error: {e}')  # 轉換失敗時的輸出def process_pdfs(pdf_list):    with multiprocessing.Pool(20) as pool:  # 創(chuàng)建一個包含20個進程的進程池        pool.starmap(convertPDFToText, pdf_list)  # 使用starmap來并行處理pdf_list中的每個元素，每個元素都是一個元組，它將被解包為convertPDFToText的參數(shù)if __name__ == '__main__':    directory = '../../Data/PDF/work'    os.chdir(directory)  # 更改當前工作目錄至PDF文件目錄    # 指定保存轉換后文件的目錄    newDir = '../TXT/work'    # os.makedirs(newDir)  # 創(chuàng)建新目錄（如果需要的話）    print('Placing converted files in: ' + newDir)  # 輸出轉換后文件將被放置的目錄    pdf_list = []  # 創(chuàng)建一個空列表，用于保存將傳遞給convertPDFToText的參數(shù)元組    i = 0  # 初始化計數(shù)器    for fileNamePDF in os.listdir('./'):  # 遍歷當前目錄中的所有文件        i += 1  # 計數(shù)器遞增        if fileNamePDF.find(".pdf") == -1:  # 如果文件不是PDF，跳過            continue        ID = fileNamePDF[:-4]  # 從文件名中獲取ID（去掉.pdf后綴）        if os.path.isfile('../TXT/' + ID + '.txt'):  # 如果已經(jīng)存在對應的文本文件，跳過            continue        pdf_list.append((i, ID, newDir, fileNamePDF))  # 將參數(shù)元組添加到pdf_list中    process_pdfs(pdf_list)  # 調用process_pdfs函數(shù)，傳遞pdf_list以并行處理PDF文件

本文鏈接：http://www.tebozhan.com/showinfo-26-24322-0.html使用Python進行文本分析-將PDF文件多進程批量處理為csv文件

聲明：本網(wǎng)頁內容旨在傳播知識，若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Golang 中的 Context 包

下一篇：解決Docker網(wǎng)絡沖突的方法

標簽：

熱門焦點

直屏旗艦來了 iQOO 12和K70 Pro同臺競技

旗艦機基本上使用的都是雙曲面屏幕，這就讓很多喜歡直屏的愛好者在苦等一款直屏旗艦，這次，你們等到了。據(jù)博主數(shù)碼閑聊站帶來的最新爆料稱，Redmi下代旗艦K70 Pro和iQOO 12兩款手
6月iOS設備性能榜：M2穩(wěn)居榜首 A系列只能等一手3nm來救

沒有新品發(fā)布，自然iOS設備性能榜的上榜設備就沒有什么更替，僅僅只有跑分變化而產(chǎn)生的排名變動，畢竟蘋果新品的發(fā)布節(jié)奏就是這樣的，一年下來也就幾個移動端新品，不會像安卓廠商，一
《英雄聯(lián)盟》夏季賽總決賽今日開打！JDG對陣LNG首發(fā)名單來了 Knight：準備三連冠

8月5日消息，今日17:00，《英雄聯(lián)盟》2023LPL夏季賽總決賽將正式開打，由JDG對陣LNG。對兩支隊伍來說，這場比賽不僅要爭奪夏季賽冠軍，更要決定誰才是LPL賽區(qū)一
如何正確使用:Has和:Nth-Last-Child

我們可以用CSS檢查，以了解一組元素的數(shù)量是否小于或等于一個數(shù)字。例如，一個擁有三個或更多子項的grid。你可能會想，為什么需要這樣做呢？在某些情況下，一個組件或一個布局可能會
Flowable工作流引擎的科普與實踐

一.引言當我們在日常工作和業(yè)務中需要進行各種審批流程時，可能會面臨一系列技術和業(yè)務上的挑戰(zhàn)。手動處理這些審批流程可能會導致開發(fā)成本的增加以及業(yè)務復雜度的上升。在這
三言兩語說透柯里化和反柯里化

JavaScript中的柯里化(Currying)和反柯里化(Uncurrying)是兩種很有用的技術，可以幫助我們寫出更加優(yōu)雅、泛用的函數(shù)。本文將首先介紹柯里化和反柯里化的概念、實現(xiàn)原理和應用
華為HarmonyOS 4.0將于8月4日發(fā)布或搭載AI大模型技術

華為宣布HarmonyOS4.0將于8月4日正式發(fā)布。此前，華為已經(jīng)針對開發(fā)者公布了HarmonyOS4.0，以便于開發(fā)者提前進行適配，也因此被曝光出了一些新系統(tǒng)的特性
iQOO Neo8 Pro搶先上架：首發(fā)天璣9200+ 安卓性能之王

經(jīng)過了一段時間的密集爆料，昨日iQOO官方如期對外宣布：將于5月23日推出全新的iQOO Neo8系列新品，官方稱這是一款擁有旗艦級性能調校的作品。隨著發(fā)布時
“買真退假” 這種“羊毛”不能薅

□ 法治日報記者王春　　□ 本報通訊員胡佳麗　　2020年初，還在上大學的小東加入了一個大學生兼職QQ群。群主“七王”在群里介紹一些刷單賺

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

使用Python進行文本分析-將PDF文件多進程批量處理為csv文件

1.格式簡單與統(tǒng)一:

2. 便于文本預處理:

3.兼容性：

4.節(jié)省資源:

5.便于文本挖掘和模式識別:

6.可讀性和可檢查性:

7.數(shù)據(jù)清洗:

pdf2txt.py

convertPDF.py

直屏旗艦來了 iQOO 12和K70 Pro同臺競技

6月iOS設備性能榜：M2穩(wěn)居榜首 A系列只能等一手3nm來救

《英雄聯(lián)盟》夏季賽總決賽今日開打！JDG對陣LNG首發(fā)名單來了 Knight：準備三連冠

如何正確使用:Has和:Nth-Last-Child

Flowable工作流引擎的科普與實踐

三言兩語說透柯里化和反柯里化

華為HarmonyOS 4.0將于8月4日發(fā)布或搭載AI大模型技術

iQOO Neo8 Pro搶先上架：首發(fā)天璣9200+ 安卓性能之王

“買真退假” 這種“羊毛”不能薅

最新推薦

猜你喜歡

熱門推薦

相關資訊