當(dāng)前位置：首頁 > 科技 > 軟件

實現(xiàn)百萬級數(shù)據(jù)從Excel導(dǎo)入到數(shù)據(jù)庫的方式

來源：責(zé)編：時間：2024-04-09 17:21:06 177觀看

導(dǎo)讀高手回答場景分析這個案例實際上涉及到多個方面，需要我們系統(tǒng)地分析。讓我們首先看看，從Excel中讀取百萬級數(shù)據(jù)并將其插入數(shù)據(jù)庫時可能遇到的問題：內(nèi)存溢出風(fēng)險加載如此龐大的Excel數(shù)據(jù)可能導(dǎo)致內(nèi)存溢出，需要注意內(nèi)存管理

高手回答

場景分析

這個案例實際上涉及到多個方面，需要我們系統(tǒng)地分析。讓我們首先看看，從Excel中讀取百萬級數(shù)據(jù)并將其插入數(shù)據(jù)庫時可能遇到的問題：

內(nèi)存溢出風(fēng)險

加載如此龐大的Excel數(shù)據(jù)可能導(dǎo)致內(nèi)存溢出，需要注意內(nèi)存管理。

性能瓶頸

處理百萬級數(shù)據(jù)的讀取和插入操作可能很耗時，性能優(yōu)化至關(guān)重要。

異常處理策略

讀取和導(dǎo)入過程中會有各種潛在問題，我們需妥善處理各類異常情況。

內(nèi)存溢出問題

處理百萬級數(shù)據(jù)，直接加載到內(nèi)存中顯然不現(xiàn)實。解決之道在于采用流式讀取，分批處理數(shù)據(jù)。

在技術(shù)選型上，選擇EasyExcel是明智之舉。它專為處理大數(shù)據(jù)量和復(fù)雜Excel文件進(jìn)行了優(yōu)化。EasyExcel在解析Excel時，不會將整個文件一次性加載到內(nèi)存中，而是按行從磁盤逐個讀取數(shù)據(jù)并解析。

性能問題

針對百萬級數(shù)據(jù)的處理，單線程顯然效率低下。提升性能的關(guān)鍵在于多線程處理。

多線程應(yīng)用涉及兩個場景：一是多線程讀取文件，另一個是多線程實現(xiàn)數(shù)據(jù)插入。這涉及到生產(chǎn)者-消費者模式，多線程讀取并多線程插入，以最大程度提升整體性能。

在數(shù)據(jù)插入方面，除了利用多線程，還應(yīng)當(dāng)結(jié)合數(shù)據(jù)庫的批量插入功能以進(jìn)一步提升速度。

錯誤處理

在文件讀取和數(shù)據(jù)庫寫入過程中，可能遇到諸多問題，如數(shù)據(jù)格式錯誤、不一致性和重復(fù)數(shù)據(jù)等。

因此，應(yīng)分兩步處理。首先進(jìn)行數(shù)據(jù)檢查，在插入操作前檢查數(shù)據(jù)格式等問題，然后在插入過程中處理異常情況。

處理方式多種多樣，可通過事務(wù)回滾或記錄日志。一般不推薦直接回滾操作，而是自動重試，若嘗試多次仍無效，則記錄日志，隨后重新插入數(shù)據(jù)。

此外，在這一過程中，需考慮數(shù)據(jù)重復(fù)問題，可在Excel中設(shè)定若干字段為數(shù)據(jù)庫唯一約束。遇到數(shù)據(jù)沖突時，可覆蓋、跳過或報錯處理。根據(jù)實際業(yè)務(wù)情況選擇合適的處理方式，一般情況下，跳過并記錄日志是相對合理的選擇。

解決思路

所以，總體方案如下：

利用EasyExcel進(jìn)行Excel數(shù)據(jù)讀取，因其逐行讀取數(shù)據(jù)而非一次性加載整個文件至內(nèi)存。為提高并發(fā)效率，將百萬級數(shù)據(jù)分布在不同的工作表中，利用線程池和多線程同時讀取各個工作表。在讀取過程中，借助EasyExcel的ReadListener進(jìn)行數(shù)據(jù)處理。

在處理過程中，并非每條數(shù)據(jù)都直接操作數(shù)據(jù)庫，以免對數(shù)據(jù)庫造成過大壓力。設(shè)定一個批次大小，例如每1000條數(shù)據(jù)，將從Excel中讀取的數(shù)據(jù)臨時存儲在內(nèi)存中（可使用List實現(xiàn)）。每讀取1000條數(shù)據(jù)后，執(zhí)行數(shù)據(jù)的批量插入操作，可簡單地借助mybatis實現(xiàn)批量插入。

此外，在處理過程中，需要考慮并發(fā)問題，因此我們將使用線程安全的隊列來存儲內(nèi)存中的臨時數(shù)據(jù)，如ConcurrentLinkedQueue。

經(jīng)驗證，通過上述方案，讀取并插入100萬條數(shù)據(jù)的Excel所需時間約為100秒，不超過2分鐘。

具體實現(xiàn)

為了提升并發(fā)處理能力，我們將百萬級數(shù)據(jù)存儲在同一個Excel文件的不同工作表中，然后通過EasyExcel并發(fā)地讀取這些工作表數(shù)據(jù)。

EasyExcel提供了ReadListener接口，允許在每批數(shù)據(jù)讀取后進(jìn)行自定義處理。我們可以基于這一功能實現(xiàn)文件的分批讀取。

pom依賴

首先，需要添加以下依賴：

<dependencies>    <!-- EasyExcel -->    <dependency>        <groupId>com.alibaba</groupId>        <artifactId>easyexcel</artifactId>        <version>latest_version</version>    </dependency>    <!-- 數(shù)據(jù)庫連接和線程池 -->    <dependency>        <groupId>org.springframework.boot</groupId>        <artifactId>spring-boot-starter-data-jpa</artifactId>    </dependency></dependencies>

并發(fā)讀取多個sheet

然后實現(xiàn)并發(fā)讀取多個sheet的代碼：

@Servicepublic class ExcelImporterService {    @Autowired    private MyDataService myDataService;        public void doImport() {        // Excel文件的路徑        String filePath = "users/paidaxing/workspace/excel/test.xlsx";        // 需要讀取的sheet數(shù)量        int numberOfSheets = 20;        // 創(chuàng)建一個固定大小的線程池，大小與sheet數(shù)量相同        ExecutorService executor = Executors.newFixedThreadPool(numberOfSheets);        // 遍歷所有sheets        for (int sheetNo = 0; sheetNo < numberOfSheets; sheetNo++) {            // 在Java lambda表達(dá)式中使用的變量需要是final            int finalSheetNo = sheetNo;            // 向線程池提交一個任務(wù)            executor.submit(() -> {                // 使用EasyExcel讀取指定的sheet                EasyExcel.read(filePath, MyDataModel.class, new MyDataModelListener(myDataService))                         .sheet(finalSheetNo) // 指定sheet號                         .doRead(); // 開始讀取操作            });        }        // 啟動線程池的關(guān)閉序列  executor.shutdown();        // 等待所有任務(wù)完成，或者在等待超時前被中斷        try {            executor.awaitTermination(Long.MAX_VALUE, TimeUnit.NANOSECONDS);        } catch (InterruptedException e) {            // 如果等待過程中線程被中斷，打印異常信息            e.printStackTrace();        }    }}

這段代碼通過創(chuàng)建一個固定大小的線程池來并發(fā)讀取一個包含多個sheets的Excel文件。每個sheet的讀取作為一個單獨的任務(wù)提交給線程池。

我們在代碼中用了一個MyDataModelListener，這個類是ReadListener的一個實現(xiàn)類。當(dāng)EasyExcel讀取每一行數(shù)據(jù)時，它會自動調(diào)用我們傳入的這個ReadListener實例的invoke方法。在這個方法中，我們就可以定義如何處理這些數(shù)據(jù)。

MyDataModelListener還包含doAfterAllAnalysed方法，這個方法在所有數(shù)據(jù)都讀取完畢后被調(diào)用。這里可以執(zhí)行一些清理工作，或處理剩余的數(shù)據(jù)。

ReadListener

接下來，我們來實現(xiàn)這個我們的ReadListener：

import com.alibaba.excel.context.AnalysisContext;import com.alibaba.excel.read.listener.ReadListener;import org.springframework.transaction.annotation.Transactional;import java.util.ArrayList;import java.util.List;// 自定義的ReadListener，用于處理從Excel讀取的數(shù)據(jù)public class MyDataModelListener implements ReadListener<MyDataModel> {    // 設(shè)置批量處理的數(shù)據(jù)大小    private static final int BATCH_SIZE = 1000;    // 用于暫存讀取的數(shù)據(jù)，直到達(dá)到批量大小    private List<MyDataModel> batch = new ArrayList<>();        private MyDataService myDataService;    // 構(gòu)造函數(shù)，注入MyBatis的Mapper    public MyDataModelListener(MyDataService myDataService) {        this.myDataService = myDataService;    }    // 每讀取一行數(shù)據(jù)都會調(diào)用此方法    @Override    public void invoke(MyDataModel data, AnalysisContext context) {        //檢查數(shù)據(jù)的合法性及有效性        if (validateData(data)) {            //有效數(shù)據(jù)添加到list中            batch.add(data);        } else {            // 處理無效數(shù)據(jù)，例如記錄日志或跳過        }                // 當(dāng)達(dá)到批量大小時，處理這批數(shù)據(jù)        if (batch.size() >= BATCH_SIZE) {            processBatch();        }    }        private boolean validateData(MyDataModel data) {        // 調(diào)用mapper方法來檢查數(shù)據(jù)庫中是否已存在該數(shù)據(jù)        int count = myDataService.countByColumn1(data.getColumn1());        // 如果count為0，表示數(shù)據(jù)不存在，返回true；否則返回false        if(count == 0){         return true;        }                // 在這里實現(xiàn)數(shù)據(jù)驗證邏輯        return false;    }    // 所有數(shù)據(jù)讀取完成后調(diào)用此方法    @Override    public void doAfterAllAnalysed(AnalysisContext context) {        // 如果還有未處理的數(shù)據(jù)，進(jìn)行處理        if (!batch.isEmpty()) {            processBatch();        }    }    // 處理一批數(shù)據(jù)的方法    private void processBatch() {        int retryCount = 0;        // 重試邏輯        while (retryCount < 3) {            try {                // 嘗試批量插入                myDataService.batchInsert(batch);                // 清空批量數(shù)據(jù)，以便下一次批量處理                batch.clear();                break;            } catch (Exception e) {                // 重試計數(shù)增加                retryCount++;                // 如果重試3次都失敗，記錄錯誤日志                if (retryCount >= 3) {                    logError(e, batch);                }}

通過自定義MyDataModelListener，在讀取Excel文件過程中可實現(xiàn)數(shù)據(jù)處理。每讀取一條數(shù)據(jù)后，將其加入列表，在列表累積達(dá)到1000條時，執(zhí)行一次數(shù)據(jù)庫批量插入操作。若插入失敗，則進(jìn)行重試；若多次嘗試仍失敗，則記錄錯誤日志。

批量插入

這里批量插入，用到了MyBatis的批量插入，代碼實現(xiàn)如下：

import org.apache.ibatis.annotations.Mapper;import java.util.List;@Mapperpublic interface MyDataMapper {    void batchInsert(List<MyDataModel> dataList);    int countByColumn1(String column1);}

mapper.xml文件：

<insert id="batchInsert" parameterType="list">    INSERT INTO paidaxing_test_table_name (column1, column2, ...)    VALUES     <foreach collection="list" item="item" index="index" separator=",">        (#{item.column1}, #{item.column2}, ...)    </foreach></insert><select id="countByColumn1" resultType="int">    SELECT COUNT(*) FROM your_table WHERE column1 = #{column1}</select>

本文鏈接：http://www.tebozhan.com/showinfo-26-82361-0.html實現(xiàn)百萬級數(shù)據(jù)從Excel導(dǎo)入到數(shù)據(jù)庫的方式

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：您必須了解的 21 個 HTML 技巧

下一篇： Rust命名規(guī)范的最佳實踐，你學(xué)會了嗎？

標(biāo)簽：

熱門焦點

6月iOS設(shè)備好評榜：第一蟬聯(lián)榜首近一年

作為安兔兔各種榜單里變化最小的那個，2023年6月的iOS好評榜和上個月相比沒有任何排名上的變化，僅僅是部分設(shè)備好評率的下降，長年累月的用戶評價和逐漸退出市場的老款機(jī)器讓這
SpringBoot中使用Cache提升接口性能詳解

環(huán)境：springboot2.3.12.RELEASE + JSR107 + Ehcache + JPASpring 框架從 3.1 開始，對 Spring 應(yīng)用程序提供了透明式添加緩存的支持。和事務(wù)支持一樣，抽象緩存允許一致地使用各
中國家電海外掘金正當(dāng)時｜出海專題

作者｜吳南南編輯｜胡展嘉運(yùn)營｜陳佳慧出品｜零態(tài)LT（ID：LingTai_LT）2023年，出海市場戰(zhàn)況空前，中國創(chuàng)業(yè)者在海外紛紛摩拳擦掌，以期能夠把中國的商業(yè)模式、創(chuàng)業(yè)理念、戰(zhàn)略打法輸出海外，他們依
大廠卷向扁平化

來源：新熵作者丨南枝編輯丨月見大廠職級不香了。俗話說，兵無常勢，水無常形，互聯(lián)網(wǎng)企業(yè)調(diào)整職級體系并不稀奇。7月13日，淘寶天貓集團(tuán)啟動了近年來最大的人力制度改革，目前已形成一
華為將推出盤古數(shù)字人大模型可幫助用戶12小時完成數(shù)字人生成

在今日舉行的2023年華為云數(shù)字文娛AI創(chuàng)新峰會上，華為云全球Marketing與銷售服務(wù)總裁石冀琳表示，華為云將在后續(xù)推出盤古數(shù)字人大模型，可幫助用戶12小
超閉合精工鉸鏈徹底消滅縫隙三星Galaxy Z Flip5與Galaxy Z Fold5發(fā)布

2023年7月26日，三星電子正式發(fā)布了Galaxy Z Flip5與Galaxy Z Fold5。三星新一代折疊屏手機(jī)采用超閉合精工鉸鏈，讓折疊后的縫隙不再可見。同時，配合處
iQOO 11S或7月上市：搭載“雞血版”驍龍8Gen2 史上最強(qiáng)5G Soc

去年底，iQOO推出了“電競旗艦”iQOO 11系列，作為一款性能強(qiáng)機(jī)，iQOO 11不僅全球首發(fā)2K 144Hz E6全感屏，搭載了第二代驍龍8平臺及144Hz電競屏，同時在快充
外交部：美方應(yīng)停止在網(wǎng)絡(luò)安全問題上不負(fù)責(zé)任地指責(zé)他國

　中國外交部今天（16日）舉行例行記者會。會上，有記者問，美國情報官員稱，他們正在阻攔來自中國以及其他國家的黑客獲取相關(guān)科研成果。中方對此有何評論？對此
利用職權(quán)私自解除被封帳號 Meta開除20多名員工

11月18日消息，據(jù)外媒援引知情人士表示，過去一年時間內(nèi)，F(xiàn)acebook母公司Meta解雇或處罰了20多名員工以及合同工，指控這些人通過內(nèi)部系統(tǒng)以不當(dāng)方式重置用戶帳號，其

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

實現(xiàn)百萬級數(shù)據(jù)從Excel導(dǎo)入到數(shù)據(jù)庫的方式

高手回答

場景分析

內(nèi)存溢出問題

性能問題

錯誤處理

解決思路

具體實現(xiàn)

pom依賴

并發(fā)讀取多個sheet

ReadListener

批量插入

6月iOS設(shè)備好評榜：第一蟬聯(lián)榜首近一年

SpringBoot中使用Cache提升接口性能詳解

中國家電海外掘金正當(dāng)時｜出海專題

大廠卷向扁平化

華為將推出盤古數(shù)字人大模型可幫助用戶12小時完成數(shù)字人生成

超閉合精工鉸鏈徹底消滅縫隙三星Galaxy Z Flip5與Galaxy Z Fold5發(fā)布

iQOO 11S或7月上市：搭載“雞血版”驍龍8Gen2 史上最強(qiáng)5G Soc

外交部：美方應(yīng)停止在網(wǎng)絡(luò)安全問題上不負(fù)責(zé)任地指責(zé)他國

利用職權(quán)私自解除被封帳號 Meta開除20多名員工

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊