整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

怎么把pdf转换成html格式?分享两个超简单方法

工作中,我们经常会处理很多种类的文件,相信大多数人处理最多的应该是pdf文件吧?我们经常使用pdf文件的主要原因就是pdf比较便于查看,也易于传输,而且它的体积很小,不会特别占用设备的内存。但是pdf文件也有一些缺点,它不支持在线编辑,不能够仔细查看文件中的图片,所以我们在工作中有时候需要将pdf转成html格式的文件。但是我们怎么把pdf转换成html格式呢?小编今天跟大家分享两个超级简单的方法,大家赶快来看一看吧!

怎么把pdf转换成html格式?

方法一、小圆象PDF转换器

小圆象PDF转换器是一款非常专业的PDF转换软件,它不仅支持PDFWord、ExcelPPTHtml等格式的文件,还有一些PDF小工具,像是PDF加密/解密、PDF合并/拆分、PDF压缩等,都能帮助学习党和工作党更好的处理文件。它对文件的识别也很精确,转换后文件准确率很高。同时它的安全性也很高,不会泄露用户任何的隐私。

第一步:进入小圆象PDF转换器官网(网址:https://www.xiaoyuanxiang.cn/),点击客户端下载,软件安装完毕后,打开软件,点击第一个功能——PDF转文件。

第二步:在上方各种功能中,选择——PDFHtml,随后将文件添加到虚线框内,等待文件添加完毕,调整输出目录,最后点击右下角——开始转换,就可以转换完成了!

方法二、PDF 24 Tools

这款软件功能非常丰富,一共有24种功能,每种都很实用,页面很有设计感,除了可以将PDF转换为其他格式文件以外,还支持PDF转图像、从PDF文件中读取图像、PDF旋转、删除PDF页面等相关操作。它转换文件的成功率也比较高,转换后的文件内容大致是一样的,比较适合日常使用。不过它也有一个小缺点,那就是它的网页上会有一些小广告。

第一步:进入软件首页,在众多功能中找到第一行最后一个功能——PDF转换器,点击进入下一页面。

第二步:选择第二项——将PDF转换成,进入下一步。

第三步:将本地文件上传成功后,点击左下角——格式,选择HTML格式,再点击右下角——转换,等待片刻就可以转换成功。

看完这篇文章,大家知道该怎么把pdf转换成html格式了吧?就个人而言,小编还是更喜欢小圆象PDF转化器一些,它的页面很简洁,没有小广告,而且操作会更简单些,不知道大家喜欢哪种方法呢?

html 转 pdf 技术方案调研:从入门到精通的全方位解析

**引言:**

在Web开发中,有时我们需要将HTML内容转换为PDF格式,以满足打印、下载或邮件发送的需求。本文将深入调研并解析目前主流的HTML转PDF技术方案,涵盖从原生API到第三方库的多种实现方式,让您全面了解各种方案的优劣,并通过具体的代码实例帮助您快速掌握实现技巧。

---

### **一、原生API:打印预览生成PDF**

**标题:利用浏览器内置打印功能**

大多数现代浏览器都内置了打印预览功能,通过调整打印设置,可以选择“保存为PDF”。虽然这种方式并非直接生成PDF,但对于简单的HTML内容转换十分便捷。

```javascript

// 触发打印对话框

window.print();

// 或者更精细地控制打印内容

const myPrintContent = document.getElementById('printable-section');

myPrintContent.style.display = 'block';

myPrintContent.focus();

myPrintContent.print();

```

然而,这种方法的局限性在于无法自定义PDF的样式、页眉页脚等内容,而且不适用于自动化流程或服务器端生成PDF。

---

### **二、Headless Chrome Puppeteer**

**标题:Headless Chrome Puppeteer的HTML转PDF解决方案**

Puppeteer是由Google开发的Node库,它提供了一种可控的方式来通过Chrome Headless运行JavaScript并与页面交互,包括生成PDF。

```javascript

const puppeteer = require('puppeteer');

async function generatePDF(url, outputPath) {

const browser = await puppeteer.launch();

const page = await browser.newPage();


await page.goto(url, {waitUntil: 'networkidle2'});

await page.emulateMediaType('print'); // 模拟打印媒体类型,确保样式正确

await page.pdf({

path: outputPath,

format: 'A4',

printBackground: true, // 是否包含背景色

margin: {

top: '1cm',

bottom: '1cm',

left: '1cm',

right: '1cm'

}

});

await browser.close();

}

generatePDF('http://example.com', 'output.pdf');

```

Puppeteer的优点是可以精确控制PDF样式,支持CSS3,且跨平台兼容性好。但需要注意的是,它需要在服务器端部署Chrome,并占用一定的计算资源。

---

### **三、jsPDF库**

**标题:小巧轻便的jsPDF库**

jsPDF是一个纯JavaScript编写的PDF生成库,主要面向轻量级应用场景,可以将HTML内容转化为PDF,但对CSS的支持有限。

```javascript

import jsPDF from 'jspdf';

const doc = new jsPDF();

doc.text('Hello World!', 10, 10);

doc.save('a4.pdf');

// 通过html2canvas配合实现HTML转PDF(较复杂场景)

import html2canvas from 'html2canvas';

import jsPDF from 'jspdf';

async function convertHtmlToPdf(element, filename) {

const canvas = await html2canvas(element);

const imgData = canvas.toDataURL('image/png');

const pdf = new jsPDF();

pdf.addImage(imgData, 'PNG', 10, 10, 180, 160);

pdf.save(filename);

}

```

jsPDF的优点在于轻量、易于集成,适用于简单的文字排版和图表绘制。但因其不直接支持HTML渲染,复杂HTML内容需要借助html2canvas等库先转为图像再插入PDF。

---

### **四、Apache PDFBox**

**标题:Java世界的HTML转PDF工具——Apache PDFBox**

Apache PDFBox是一个开源的Java库,可以处理PDF文档的创建、修改、提取等操作,同时也支持HTML转PDF,适用于后端Java环境。

```java

import org.apache.pdfbox.pdmodel.PDDocument;

import org.apache.pdfbox.pdmodel.PDPage;

import org.apache.pdfbox.pdmodel.PDPageContentStream;

import org.apache.pdfbox.pdmodel.common.PDRectangle;

import org.apache.pdfbox.pdmodel.font.PDType1Font;

import org.apache.pdfbox.rendering.PDFRenderer;

import org.apache.pdfbox.tools.html2pdf.HtmlConverter;

public void convertHtmlToPdf(String html, String outputFilePath) throws IOException {

HtmlConverter.convertToPdf(new File(html), new File(outputFilePath));

}

```

Apache PDFBox虽不是JavaScript库,但因其强大的功能和对企业级应用的良好支持,成为了许多Java项目的选择。

---

**总结:**

选择何种HTML转PDF方案取决于具体的应用场景和需求。原生打印API适用于简单的本地操作,Puppeteer适用于服务端生成高质量PDF,jsPDF适用于轻量级、纯JavaScript环境,而Apache PDFBox则在Java环境中表现出众。理解每个方案的特性和限制,将有助于我们在实际项目中做出合适的选择。无论哪种方式,HTML转PDF都是现代Web开发中的一项重要技能,值得深入学习和掌握。

喽,今天是一篇HTML to PDF速食指南。

Java 转换 HTML 到PDF有许多类库,今天我们介绍一下第三方免费的类库OpenPDF。

1. OpenPDF

OpenPDF是免费的Java类库 ,遵从LGPL 和 MPL协议,所以基本上能够可以随意使用。OpenPDF是基于iTEXT的,目前来说也是维护的比较好的Java操作PDF的开源软件。

话不多说,且看所需要的依赖,

<dependency>    
    <groupId>org.jsoup</groupId>    
    <artifactId>jsoup</artifactId>   
    <version>1.13.1</version> 
</dependency>
<dependency>
    <groupId>com.openhtmltopdf</groupId>
    <artifactId>openhtmltopdf-core</artifactId>
    <version>1.0.6</version>
</dependency>
<dependency>
    <groupId>com.openhtmltopdf</groupId>
    <artifactId>openhtmltopdf-pdfbox</artifactId>
    <version>1.0.6</version>
</dependency>

jsoup可以将html文件转换成输入流等,也可以遍历html的DOM节点,提取元素及样式等。

2. 示例

本篇示例将以下html文件转换成pdf

<html>
<head>
    <style>
        .center_div {
            border: 1px solid #404e94;
            margin-left: auto;
            margin-right: auto;
            background-color: #f6d0ed;
            text-align: left;
            padding: 8px;
        }
        table {
            width: 100%;
            border: 1px solid black;
        }
        th, td {
            border: 1px solid black;
        }
        body,html,input{font-family:"msyh";}
    </style>
</head>
<body>
<div class="center_div">
    <h1>Hello java North!</h1>
    <div>
        <p>convert html to pdf.</p>
    </div>
    <div>
        <table>
            <thead>
                <th>ROLE</th>
                <th>NAME</th>
                <th>TITLE</th>
            </thead>
            <tbody>
                <tr>
                    <td>MARKSMAN</td>
                    <td>ASHE</td>
                    <td>THE FROST ARCHER</td>
                </tr>
                <tr>
                    <td>MAGES</td>
                    <td>ANNIE</td>
                    <td>THE DARK CHILD</td>
                </tr>
                <tr>
                    <td>射手</td>
                    <td>凯塔琳</td>
                    <td>皮城女警</td>
                </tr>
            </tbody>
        </table>
    </div>
</div>
</body>
</html>

以上html用浏览器打开如下,乱码是因为中文字体不识别,下面转换的时候会加载对应的字体来进行转换。

使用Java转换HTML到PDF代码如下:

public class HtmlToPDFOpenSource {
    public static void main(String[] args) throws IOException {
        HtmlToPDFOpenSource htmlToPDFOpenSource = new HtmlToPDFOpenSource();
        htmlToPDFOpenSource.generatePdfByOpenhtmltopdf();
    }

    private  void generatePdfByOpenhtmltopdf() throws IOException {
        File inputHtml = new File("E:\\javaNorth\\java-study-note\\javaOpenSource\\src\\main\\resources\\test.html");

        //加载html文件
        Document document = Jsoup.parse(inputHtml, "UTF-8");
        document.outputSettings().syntax(Document.OutputSettings.Syntax.html);
        
        //引入资源目录,可以单独引入css,图片文件等
        String baseUri = FileSystems.getDefault()
            .getPath("javaOpenSource\\src\\main\\resources")
            .toUri().toString();
       
        try (OutputStream os = new FileOutputStream("javaOpenSource\\src\\main\\resources\\testOpenLeagueoflegends1.pdf")) {
            PdfRendererBuilder builder = new PdfRendererBuilder();
            builder.withUri("javaOpenSource\\src\\main\\resources\\testOpenLeagueoflegends1.pdf");
            builder.toStream(os);
            builder.withW3cDocument(new W3CDom().fromJsoup(document), baseUri);
            
            //引入指定字体,注意字体名需要和css样式中指定的字体名相同
            builder.useFont(new File("javaOpenSource\\src\\main\\resources\\fonts\\msyh.ttf"),"msyh",1,BaseRendererBuilder.FontStyle.NORMAL, true);
            builder.run();
        }
    }
}

使用Java代码转换成PDF如下(示例中使用了微软雅黑中文字体):

上述html文件中增加如下外部样式

<link href="style.css" rel="stylesheet">

并在resources目录下添加style.css文件,重新生成PDF文件如下。

3. 总结

本片介绍了使用OpenPDF将html文件转换成PDF文件。同时也使用了自定义字体,外部样式。但是以下几点需要格外注意。

  • Java代码中加载的字体名称要和HTML引用的CSS样式中的字体名相同 ({font-family:"msyh";})。
  • HTML文件标签节点必须闭合(<xxx></xxx>).否则解析会失败。

全部示例在此:https://github.com/javatechnorth/java-study-note/tree/master/javaOpenSource/src/main/java/pdf

文章来源:Java技术指北