當前位置：首頁 > 科技 > 軟件

探索Word文檔導入導出的前端實現方案

來源：責編：時間：2024-06-17 17:33:48 150觀看

導讀最近由于AI應用的高速發展，使得文檔/知識庫成為了AI的首選試煉場。比如用AI提取PDF的大綱和關鍵內容，用AI總結電子書的內容，AI對DOC文檔進行潤色，優化等，這些都離不開對文檔的解析和處理。那么前端能不能實現對文檔的解析

最近由于AI應用的高速發展，使得文檔/知識庫成為了AI的首選試煉場。比如用AI提取PDF的大綱和關鍵內容，用AI總結電子書的內容，AI對DOC文檔進行潤色，優化等，這些都離不開對文檔的解析和處理。

那么前端能不能實現對文檔的解析和處理呢？答案是肯定的，接下來我就和大家分享一下:

前端如何解析Word文件
基于HTML，一鍵導出為Word文檔

當然口說無憑，我已經在Nocode/WEP文檔知識引擎中把Doc文檔功能實現了，大家感興趣的可以親自體驗一下。

image.png

好啦，接下來開始我們的技術分享。

往期精彩

零代碼+AI的階段性復盤
文檔引擎+AI可視化打造下一代文檔編輯器
爆肝1000小時, Dooring零代碼搭建平臺3.5正式上線
從零打造一款基于Nextjs+antd5.0的中后臺管理系統

Word文檔的本質

圖片

image.png

Word 文檔的本質是一種電子文檔格式，它主要用于創建、編輯和保存文本內容，同時還可以包含圖片、表格、圖表等多種元素。它是一種方便的工具，用于記錄、整理和交流信息。

doc 和 docx 是兩種常見的 Word 文檔格式，它們主要有以下區別：

版本：doc 是 Word 2003 及之前版本的默認文件格式，而 docx 是 Word 2007 及之后版本的默認文件格式。
兼容性：doc 格式的兼容性較好，可以被大多數舊版本的 Word 軟件打開。而 docx 格式在較新版本的 Word 中得到完全支持，但在一些舊版本的 Word 中可能需要安裝兼容性插件才能正常打開。
文件體積：由于 docx 格式采用了更高效的壓縮技術，所以它的文件體積通常比 doc 格式小。
安全性：docx 格式采用基于 XML 的格式，相對更安全一些，不容易受到宏病毒的攻擊。
功能支持：docx 格式支持更多的新特性和功能，如高級的圖表和圖形處理、更豐富的格式選項、多媒體嵌入等。而 doc 格式則不支持這些新功能。

為了與時俱進，我們優先考慮最新標準格式 docx，那么如何解析 docx 呢，這就要進一步分析一下 docx文件的本質了。

docx 的本質是什么

docx 我們第一感覺是一個文件，其實確實是一個文件（壓縮文件），我用解壓工具提取文件之后，它的文件結構是這樣的：

圖片

進入 word 文件夾，可以看到如下目錄結構：

圖片

打開一個 xml 文件可以看到類似如下的內容：

圖片

看到這熟悉前端的小伙伴應該就比較熟悉了，我們可以使用類似于 document 的方法解析處理不同的XML標簽，從而實現對 docx 文件的解析。

如何實現Word文檔的解析

有了以上的分析結果，我們自己實現一個word文檔解析器就非常容易了，但是考慮到docx的xml 文件的復雜性，我們自己實現需要考慮很多種情況，比如：

標題
列表
標題
列表
可定制的 docx 樣式到 HTML 的映射
表格：表格格式（如邊框）
腳注和尾注
圖片
粗體、斜體、下劃線、刪除線、上標和下標。
鏈接
換行
文本框：文本框的內容被視為一個單獨的段落，出現在包含文本框的段落之后。
注釋

如果是項目進度比較緊張的情況下，我們自己實現肯定是要被“批斗”的，所以我們可以考慮第三方成熟的解決方案。

第三方開源方案

這里直接上我總結的幾個開源方案：

Python 中的 python-docx
DocX：一個基于.NET框架的庫，用于操作Word 2007/2010/2013文件，具有簡單易用的API，無需安裝額外軟件，支持非商業用途。
OpenXml-PowerTools：一個基于Open XML文檔編程接口開發的開源工具，擴展了Open XML SDK的功能，支持將docx、pptx文件拆分為多個文件、將多個docx、pptx文件合并為一個文件、使用XML數據模板生成docx文件、docx文檔高保值轉換為Html頁面等功能
Mammoth 一個專注于轉換 .docx 文檔的工具庫，支持瀏覽器和服務器使用

那作為前端的小伙伴，我們首選 Mammoth。

圖片

github地址：https://github.com/mwilliamson/mammoth.js

實戰Word文檔解析

接下來和大家分享一下使用 Mammoth 來實現 docx 文檔解析。

先來看一個簡單的例子：

import mammoth from 'mammoth';mammoth.convertToHtml({path: "你的doc文件的路徑/document.docx"})    .then(function(result){        var html = result.value; // 解析出的html結果        var messages = result.messages; // 錯誤或者額外的提示信息    })    .catch(function(error) {        console.error(error);    });

以上代碼是在node.js 環境下實現的簡單例子，當然我們也可以在瀏覽器中直接使用，我在看完了它的文檔之后，加上自己的研究，寫了一個能自定義圖片上傳路徑，并支持修改文檔樣式的demo，這里分享一下：

<!DOCTYPE html><html lang="en"><head>  <meta charset="UTF-8">  <meta http-equiv="X-UA-Compatible" content="IE=edge">  <meta name="viewport" content="width=device-width, initial-scale=1.0">  <title>Document</title></head><body>  <input type="file" onchange="handleFile(this.files[0])" />  <script src="https://unpkg.com/mammoth@latest/dist/mammoth.min.js"></script>  <script>    function handleFile(file) {      const reader = new FileReader();      reader.onload = function (loadEvent) {        const arrayBuffer = loadEvent.target.result;        mammoth.convertToHtml({ arrayBuffer: arrayBuffer }, {          // 設置自定義圖片上傳路徑          imageReader: (image) => {            return new Promise((resolve, reject) => {              // 在這里實現圖片上傳邏輯，并將上傳后的圖片路徑作為結果返回              resolve('your_uploaded_image_path');             });          },          // 設置文本樣式          styleMap: [            // 標題樣式            {              name: 'Heading 1',              element: 'h1',              attributes: {                'tyle': 'font-size: 24px; color: #333;',              },            },            // 正文樣式            {              name: 'Normal',              element: 'p',              attributes: {                'tyle': 'font-size: 16px; color: #666;',              },            },          ],        })        .then(result => {            console.log(result.value);          })        .catch(error => {            console.error(error);          });      };      reader.readAsArrayBuffer(file);    }  </script></body></html>

Word文檔導出實現

圖片

實現將html導出為word文檔，方法其實也很簡單，這里直接分享一下我的方案：

const html = docRef.current;const blob = new Blob([html.innerHTML], { type: 'application/msword' });// 創建一個下載鏈接const link = document.createElement('a');link.href = URL.createObjectURL(blob);link.download = 'wep.doc';// 模擬點擊下載鏈接link.click();// 釋放資源URL.revokeObjectURL(link.href);

本質上就是我們將 html內容轉化為blob，并設置類型為application/msword, 最后通過revokeObjectURL api來實現docx文檔下載。

當然還有其他方案，這里也和大家分享一下：

import htmlDocx from 'html-docx-js/dist/html-docx';import FileSaver from 'file-saver';// 定義要導出的 HTML 內容const htmlContent = `  <h1>標題</h1>  <p>這是一段文本。</p>  <table border="1">    <tr>      <th>姓名</th>      <th>年齡</th>    </tr>    <tr>      <td>張三</td>      <td>25</td>    </tr>  </table>`;// 將 HTML 轉換為 Word 文檔const docx = htmlDocx.asBlob(htmlContent);// 保存 Word 文檔FileSaver.saveAs(docx, 'example.docx');

所有案例都在Nocode/WEP中實現，大家感興趣可以參考一下：http://wep.turntip.cn/

本文鏈接：http://www.tebozhan.com/showinfo-26-94281-0.html探索Word文檔導入導出的前端實現方案

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：寧德時代實行“896 工作制”奮斗 100 天？內部員工回應：非全員強制

下一篇：我們一起聊聊如何設計一個秒殺系統？

標簽：

熱門焦點

K60至尊版狂暴引擎2.0加持：超177萬跑分斬獲性能第一

Redmi的后性能時代戰略發布會今天下午如期舉辦，在本次發布會上，Redmi公布了多項關于和聯發科的深度合作，以及新機K60 Ultra在軟件和硬件方面的特性，例如：“K60 至尊版，雙芯旗艦
Mate60手機殼曝光致敬自己的經典設計

8月3日消息，今天下午博主數碼閑聊站帶來了華為Mate60的第三方手機殼圖，可以讓我們在真機發布之前看看這款華為全新旗艦的大致輪廓。從曝光的圖片看，Mate 60背后攝像頭面積依然
對標蘋果的靈動島華為帶來實況窗功能

繼蘋果的靈動島之后，華為也在今天正式推出了“實況窗”功能。據今天鴻蒙OS 4.0的現場演示顯示，華為的實況窗可以更高效的展現出實時通知，比如鎖屏上就能看到外賣、打車、銀行
小米平板5 Pro 12.4簡評：多專多能兼顧影音娛樂的大屏利器

疫情帶來了網課，網課盤活了安卓平板，安卓平板市場雖然中途停滯了幾年，但好的一點就是停滯的這幾年行業又有了新的發展方向，例如超窄邊框、高刷新率、多攝鏡頭組合等，這就讓安卓
6月安卓手機好評榜：魅族20 Pro蟬聯冠軍

性能榜和性價比榜之后，我們來看最后的安卓手機好評榜，數據來源安兔兔評測，收集時間2023年6月1日至6月30日，僅限國內市場。第一名：魅族20 Pro好評率：95%5月份的時候魅族20 Pro就是
5月安卓手機好評榜：魅族20 Pro奪冠

性能榜和性價比榜之后，我們來看最后的安卓手機好評榜，數據來源安兔兔評測，收集時間2023年5月1日至5月31日，僅限國內市場。第一名：魅族20 Pro好評率：97.50%不得不感慨魅族老品牌還
SpringBoot中使用Cache提升接口性能詳解

環境：springboot2.3.12.RELEASE + JSR107 + Ehcache + JPASpring 框架從 3.1 開始，對 Spring 應用程序提供了透明式添加緩存的支持。和事務支持一樣，抽象緩存允許一致地使用各
Flowable工作流引擎的科普與實踐

一.引言當我們在日常工作和業務中需要進行各種審批流程時，可能會面臨一系列技術和業務上的挑戰。手動處理這些審批流程可能會導致開發成本的增加以及業務復雜度的上升。在這
OPPO K11搭載長壽版100W超級閃充：26分鐘充滿100%

據此前官方宣布，OPPO將于7月25日也就是今天下午14:30舉辦新品發布會，屆時全新的OPPO K11將正式與大家見面，將主打旗艦影像，和同檔位競品相比，其最大的賣

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

探索Word文檔導入導出的前端實現方案

往期精彩

Word文檔的本質

docx 的本質是什么

如何實現Word文檔的解析

第三方開源方案

實戰Word文檔解析

Word文檔導出實現

K60至尊版狂暴引擎2.0加持：超177萬跑分斬獲性能第一

Mate60手機殼曝光致敬自己的經典設計

對標蘋果的靈動島華為帶來實況窗功能

小米平板5 Pro 12.4簡評：多專多能兼顧影音娛樂的大屏利器

6月安卓手機好評榜：魅族20 Pro蟬聯冠軍

5月安卓手機好評榜：魅族20 Pro奪冠

SpringBoot中使用Cache提升接口性能詳解

Flowable工作流引擎的科普與實踐

OPPO K11搭載長壽版100W超級閃充：26分鐘充滿100%

最新推薦

猜你喜歡

熱門推薦

相關資訊