整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

Spring Boot集成tika实现word转html

.什么是tika?

Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。Tika是Apache的Lucene项目下面的子项目,在lucene的应用中可以使用tika获取大批量文档中的内容来建立索引,非常方便,也很容易使用。Apache Tika toolkit可以自动检测各种文档(如word,ppt,xml,csv,ppt等)的类型并抽取文档的元数据和文本内容。Tika集成了现有的文档解析库,并提供统一的接口,使针对不同类型的文档进行解析变得更简单。Tika针对搜索引擎索引、内容分析、转化等非常有用。

Tika架构

应用程序员可以很容易地在他们的应用程序集成Tika。Tika提供了一个命令行界面和图形用户界面,使它比较人性化。在本章中,我们将讨论构成Tika架构的四个重要模块。下图显示了Tika的四个模块的体系结构:

  • 语言检测机制。
  • MIME检测机制。
  • Parser接口。
  • Tika Facade 类.

语言检测机制

每当一个文本文件被传递到Tika,它将检测在其中的语言。它接受没有语言的注释文件和通过检测该语言添加在该文件的元数据信息。支持语言识别,Tika 有一类叫做语言标识符在包org.apache.tika.language及语言识别资料库里面包含了语言检测从给定文本的算法。Tika 内部使用N-gram算法语言检测。

MIME检测机制

Tika可以根据MIME标准检测文档类型。Tika默认MIME类型检测是使用org.apache.tika.mime.mimeTypes。它使用org.apache.tika.detect.Detector 接口大部分内容类型检测。内部Tika使用多种技术,如文件匹配替换,内容类型提示,魔术字节,字符编码,以及其他一些技术。

解析器接口

org.apache.tika.parser 解析器接口是Tika解析文档的主要接口。该接口从提取文档中的文本和元数据,并总结了其对外部用户愿意写解析器插件。采用不同的具体解析器类,具体为各个文档类型,Tika 支持大量的文件格式。这些格式的具体类不同的文件格式提供支持,无论是通过直接实现逻辑分析器或使用外部解析器库。

Tika Facade 类

使用的Tika facade类是从Java调用Tika的最简单和直接的方式,而且也沿用了外观的设计模式。可以在 Tika API的org.apache.tika包Tika 找到外观facade类。通过实现基本用例,Tika作为facade的代理。它抽象了的Tika库的底层复杂性,例如MIME检测机制,解析器接口和语言检测机制,并提供给用户一个简单的接口来使用。

2.代码工程

实验目标

实现word文档转html

pom.xml

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <parent>
        <artifactId>springboot-demo</artifactId>
        <groupId>com.et</groupId>
        <version>1.0-SNAPSHOT</version>
    </parent>
    <modelVersion>4.0.0</modelVersion>

    <artifactId>tika</artifactId>

    <properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
    </properties>
    <dependencies>

        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-web</artifactId>
        </dependency>

        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-autoconfigure</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-test</artifactId>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.apache.tika</groupId>
            <artifactId>tika-parsers</artifactId>
            <version>1.17</version>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
        </dependency>

    </dependencies>
</project>

controller

package com.et.tika.controller;

import com.et.tika.convertor.WordToHtmlConverter;
import com.et.tika.dto.ConvertedDocumentDTO;
import lombok.extern.slf4j.Slf4j;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.multipart.MultipartFile;

import java.util.HashMap;
import java.util.Map;

@RestController
@Slf4j
public class HelloWorldController {
    @RequestMapping("/hello")
    public Map<String, Object> showHelloWorld(){
        Map<String, Object> map = new HashMap<>();
        map.put("msg", "HelloWorld");
        return map;
    }
    @Autowired
    WordToHtmlConverter converter;



    /**
     * Transforms the Word document into HTML document and returns the transformed document.
     *
     * @return  The content of the uploaded document as HTML.
     */
    @RequestMapping(value = "/api/word-to-html", method = RequestMethod.POST)
    public ConvertedDocumentDTO convertWordDocumentIntoHtmlDocument(@RequestParam(value = "file", required = true) MultipartFile wordDocument) {
        log.info("Converting word document into HTML document");

        ConvertedDocumentDTO htmlDocument = converter.convertWordDocumentIntoHtml(wordDocument);

        log.info("Converted word document into HTML document.");
        log.trace("The created HTML markup looks as follows: {}", htmlDocument);

        return htmlDocument;
    }
}

WordToHtmlConverter

package com.et.tika.convertor;


import com.et.tika.dto.ConvertedDocumentDTO;
import com.et.tika.exception.DocumentConversionException;
import lombok.extern.slf4j.Slf4j;
import org.apache.tika.exception.TikaException;
import org.apache.tika.metadata.Metadata;
import org.apache.tika.parser.ParseContext;
import org.apache.tika.parser.Parser;
import org.apache.tika.parser.microsoft.ooxml.OOXMLParser;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.stereotype.Component;
import org.springframework.web.multipart.MultipartFile;
import org.xml.sax.SAXException;

import javax.xml.transform.OutputKeys;
import javax.xml.transform.TransformerException;
import javax.xml.transform.sax.SAXTransformerFactory;
import javax.xml.transform.sax.TransformerHandler;
import javax.xml.transform.stream.StreamResult;
import java.io.IOException;
import java.io.InputStream;
import java.io.StringWriter;

/**
 *
 */
@Component
@Slf4j
public class WordToHtmlConverter {


    /**
     * Converts a .docx document into HTML markup. This code
     * is based on <a href="http://stackoverflow.com/a/9053258/313554">this StackOverflow</a> answer.
     *
     * @param wordDocument  The converted .docx document.
     * @return
     */
    public ConvertedDocumentDTO convertWordDocumentIntoHtml(MultipartFile wordDocument) {
        log.info("Converting word document: {} into HTML", wordDocument.getOriginalFilename());
        try {
            InputStream input = wordDocument.getInputStream();
            Parser parser = new OOXMLParser();

            StringWriter sw = new StringWriter();
            SAXTransformerFactory factory = (SAXTransformerFactory)
                    SAXTransformerFactory.newInstance();
            TransformerHandler handler = factory.newTransformerHandler();
            handler.getTransformer().setOutputProperty(OutputKeys.ENCODING, "utf-8");
            handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html");
            handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");
            handler.setResult(new StreamResult(sw));

            Metadata metadata = new Metadata();
            metadata.add(Metadata.CONTENT_TYPE, "text/html;charset=utf-8");
            parser.parse(input, handler, metadata, new ParseContext());
            return new ConvertedDocumentDTO(wordDocument.getOriginalFilename(), sw.toString());
        }
        catch (IOException | SAXException | TransformerException | TikaException ex) {
            log.error("Conversion failed because an exception was thrown", ex);
            throw new DocumentConversionException(ex.getMessage(), ex);
        }
    }
}

dto

package com.et.tika.dto;

import org.apache.commons.lang.builder.ToStringBuilder;

/**
 *
 */
public  class ConvertedDocumentDTO {

    private final String contentAsHtml;
    private final String filename;

    public ConvertedDocumentDTO(String filename, String contentAsHtml) {
        this.contentAsHtml = contentAsHtml;
        this.filename = filename;
    }

    public String getContentAsHtml() {
        return contentAsHtml;
    }

    public String getFilename() {
        return filename;
    }

    @Override
    public String toString() {
        return new ToStringBuilder(this)
                .append("filename", this.filename)
                .append("contentAsHtml", this.contentAsHtml)
                .toString();
    }
}

自定义异常

package com.et.tika.exception;

/**
 *
 */
public final class DocumentConversionException extends RuntimeException {

    public DocumentConversionException(String message, Exception ex) {
        super(message, ex);
    }
}

以上只是一些关键代码,所有代码请参见下面代码仓库

代码仓库

  • https://github.com/Harries/springboot-demo

3.测试

启动Spring Boot应用

测试word转html

4.引用

  • https://tika.apache.org/
  • http://www.liuhaihua.cn/archives/710679.html

当今数字化的时代,HTML和PDF已经成为两种最常用的文件格式。HTML用于网页内容的展示,而PDF则以其高度的可读性和不依赖于平台的特性,成为文档分享和传播的首选格式。然而,在办公环境中,我们经常需要在这两种格式之间进行转换。那有没有一种方法可以一键完成,批量转换HTML为PDF格式,从而提升我们的办公效率呢?现在一起来看看“办公提效工具”如何批量操作的技巧吧。

把想要的网页保存在本地磁盘中。

如何实现一键完成,批量转换HTML为PDF呢?这里我们介绍一款常用的工具——办公提效工具。办公提效工具是一款强大的PDF编辑软件,它提供了“批量转换”功能,可以方便地将多个HTML文件一次性转换为PDF格式。具体步骤如下:

操作1、在办公提效工具面板上选择“PDF编辑工具”进入该编辑页。

操作2、选择转换模式,支持多种格式转换。下面选择“html转pdf”。

操作3、在面板上点击“添加文件”,接着在弹出的文件选择对话框中,选择需要转换的HTML文件,然后点击“打开”自动导入到列表中。

操作4、选择新文件保存位置,下面选择“原文件相同位置”。

操作5、以上都设定好后,在面板上点击“开始转换”进入任务转换,接着看到状态栏中转换进度发生变化。

操作6、转换成功点击“打开文件夹”进入路径看到已转的两个pdf文件。

操作7、打开pdf文件看到内容与网页相同。该有的文字和图片等内容版面一致。

通过以上步骤,我们就可以轻松实现一键完成,批量转换HTML为PDF格式。这种方法不仅可以大大提升我们的办公效率,还可以避免一个个等待的烦恼。同时,办公提效工具还提供了许多其他的功能,如新建PDF文档、修改原PDF文档等,使得我们可以在处理PDF文件时更加得心应手。

总之,一键完成,批量转换HTML为PDF格式的方法,是提升办公效率的有效途径之一。通过合理地利用工具和技术,我们可以更加高效地处理大量的文件和数据,从而更好地满足工作需求。

拟机为我们提供了一个无限可能的世界。在这个世界里,我们可以尝试、学习、甚至犯错,而不必担心现实生活中的后果。Emacs,作为一款强大的文本编辑器,它的Org模式更是让人们在组织复杂信息时如鱼得水。但是,当我们尝试将Org文件转换为HTML格式时,有时会遇到一个令人困惑的问题:“source block missing language specification #include”。这是什么意思?它又该如何解决呢?

在深入探讨之前,让我们先来思考一个问题:为什么我们要将Org文件转换为HTML?答案可能各有不同,但一个共同点是,我们都希望能够更好地分享和展示我们的工作。HTML作为一种广泛支持的格式,能够让我们的内容在不同的平台上呈现出一致的效果。这就像是我们穿上了一件合身的外衣,让内在的价值得以外显。

当我们遇到“source block missing language specification #include”的提示时,我们应该怎么办呢?首先,我们需要理解这个提示的含义。在Emacs的Org模式中,当我们使用源代码块时,通常需要指定语言类型,比如#+BEGIN_SRC python。这样,Emacs就能够知道如何高亮和格式化我们的代码。但如果我们忘记了这一步,就会收到上述的提示。

解决这个问题的方法其实很简单。我们只需要回到源代码块的开始,确保正确地指定了语言类型。如果是包含在文件中的代码,比如C语言的头文件,我们可以使用#+INCLUDE: "file.h" src c这样的语法来引入。

通过这个简单的修正,我们就能够顺利地将Org文件转换为HTML,而不会再有任何阻碍。这个过程就像是我们在虚拟世界中解决了一个谜题,获得了前进的钥匙。

并且可以尝试以下几种方法来解决:

方法一:添加语言规范

在 Org 文档中,对于包含代码块的文本,需要添加语言规范,以便 Org-mode 正确地解析和转换代码。

具体步骤如下:

在代码块的开头,添加一行指示语言规范的注释。例如,对于 C 语言代码,可以添加以下注释:

#lang c

再次尝试将 Org 文档转换为 HTML。

方法二:使用 org-babel

org-babel 是 Org-mode 的一个扩展包,可以用于将代码块转换为各种格式,包括 HTML。

具体步骤如下:

安装 org-babel 扩展包。

M-x package-install RET org-babel

在 Org 文档中,将代码块标记为 babel 块。例如,对于 C 语言代码,可以使用以下标记:

#+begin_src c#include <stdio.h>int main() {  printf("Hello, world!\n");  return 0;}#+end_src

再次尝试将 Org 文档转换为 HTML。

方法三:使用 org-html-export-filter

org-html-export-filter 是 Org-mode 的一个函数,可以用于在导出 HTML 时自定义代码块的转换。

具体步骤如下:

在 Emacs 配置文件中,添加以下代码:

(defun my-org-html-export-filter (block)  "自定义代码块的转换。"  (if (string-match-p "^#lang\s+c\s*$" (org-block-property block :language))    (org-html-export-filter-block-as-code block "c" "highlight")    (org-html-export-filter-block-as-verbatim block)))(add-hook 'org-html-export-filter-alist 'my-org-html-export-filter)

再次尝试将 Org 文档转换为 HTML。

以上三种方法都可以解决 Org 转为 HTML 时提示“source block missing language specification #include<stdio.h>”的问题。具体选择哪种方法,可以根据自己的实际情况和需求来决定。