java将html转为pdf

html转为pdf的组件有很多，但是还没有哪一款能达到这个效果，其只要原因是wkhtmltopdf使用webkit网页渲染引擎开发的用来将 html转成 pdf的工具，可以跟多种脚本语言进行集成来转换文档。但是就使用简便性来说还是itext等组件占据优势，如果你要转换格式有比较高的要求，那么wkhtmltopdf绝对是不二之选！

下载路径

官网地址 wkhtmltopdf.org/

github地址 github.com/wkhtmltopdf…

使用方法

windows直接使用：只要在windows命令行中输入c:\wkhtmltopdf.exe my.oschina.net/papio/blog/… c:\blog.pdf 就可以把这篇文章转成pdf，并保存到C盘根目录。
java调用：java中调用wkhtmltopdf的命令Runtime.getRuntime().exec("c:\wkhtmltopdf.exe my.oschina.net/papio/blog/… c:\blog.pdf")就可以实现转换。

java调用demo

public class HtmlToPdfInterceptor extends Thread { private InputStream is; public HtmlToPdfInterceptor(InputStream is){ this.is = is; } public void run(){ try{ InputStreamReader isr = new InputStreamReader(is, "utf-8"); BufferedReader br = new BufferedReader(isr); String line = null; while ((line = br.readLine()) != null) { System.out.println(line.toString()); //输出内容 } }catch (IOException e){ e.printStackTrace(); } }}public class HtmlToPdf { //wkhtmltopdf在系统中的路径 private static final String toPdfTool = "D:\wkhtmltopdf\bin\wkhtmltopdf.exe"; /** * html转pdf * @param srcPath html路径，可以是硬盘上的路径，也可以是网络路径 * @param destPath pdf保存路径 * @return 转换成功返回true */ public static boolean convert(String srcPath, String destPath){ File file = new File(destPath); File parent = file.getParentFile(); //如果pdf保存路径不存在，则创建路径 if(!parent.exists()){ parent.mkdirs(); } StringBuilder cmd = new StringBuilder(); cmd.append(toPdfTool); cmd.append(" "); cmd.append(" --header-line");//页眉下面的线 cmd.append(" --header-center 这里是页眉这里是页眉这里是页眉这里是页眉 ");//页眉中间内容 //cmd.append(" --margin-top 30mm ");//设置页面上边距 (default 10mm) cmd.append(" --header-spacing 10 ");//(设置页眉和内容的距离,默认0) cmd.append(srcPath); cmd.append(" "); cmd.append(destPath); boolean result = true; try{ Process proc = Runtime.getRuntime().exec(cmd.toString()); HtmlToPdfInterceptor error = new HtmlToPdfInterceptor(proc.getErrorStream()); HtmlToPdfInterceptor output = new HtmlToPdfInterceptor(proc.getInputStream()); error.start(); output.start(); proc.waitFor(); }catch(Exception e){ result = false; e.printStackTrace(); } return result; } public static void main(String[] args) { HtmlToPdf.convert("https://my.oschina.net/papio/blog/835645", "d:/wkhtmltopdf.pdf"); }}复制代码

wkhtmltopdf 参数详解

wkhtmltopdf [OPTIONS]... <input file> [More input files] <output file>常规选项 --allow <path> 允许加载从指定的文件夹中的文件或文件（可重复） --book* 设置一会打印一本书的时候，通常设置的选项 --collate 打印多份副本时整理 --cookie <name> <value> 设置一个额外的cookie（可重复） --cookie-jar <path> 读取和写入的Cookie，并在提供的cookie jar文件 --copies <number> 复印打印成pdf文件数（默认为1） --cover* <url> 使用HTML文件作为封面。它会带页眉和页脚的TOC之前插入 --custom-header <name> <value> 设置一个附加的HTTP头（可重复） --debug-javascript 显示的javascript调试输出 --default-header* 添加一个缺省的头部，与页面的左边的名称，页面数到右边，例如： --header-left '[webpage]' --header-right '[page]/[toPage]' --header-line --disable-external-links* 禁止生成链接到远程网页 --disable-internal-links* 禁止使用本地链接 --disable-javascript 禁止让网页执行JavaScript --disable-pdf-compression* 禁止在PDF对象使用无损压缩 --disable-smart-shrinking* 禁止使用WebKit的智能战略收缩，使像素/ DPI比没有不变 --disallow-local-file-access 禁止允许转换的本地文件读取其他本地文件，除非explecitily允许用 --allow --dpi <dpi> 显式更改DPI（这对基于X11的系统没有任何影响） --enable-plugins 启用已安装的插件（如Flash --encoding <encoding> 设置默认的文字编码 --extended-help 显示更广泛的帮助，详细介绍了不常见的命令开关 --forms* 打开HTML表单字段转换为PDF表单域 --grayscale PDF格式将在灰阶产生 --help Display help --htmldoc 输出程序HTML帮助 --ignore-load-errors 忽略claimes加载过程中已经遇到了一个错误页面 --lowquality 产生低品质的PDF/ PS。有用缩小结果文档的空间 --manpage 输出程序手册页 --margin-bottom <unitreal> 设置页面下边距 (default 10mm) --margin-left <unitreal> 将左边页边距 (default 10mm) --margin-right <unitreal> 设置页面右边距 (default 10mm) --margin-top <unitreal> 设置页面上边距 (default 10mm) --minimum-font-size <int> 最小字体大小 (default 5) --no-background 不打印背景 --orientation <orientation> 设置方向为横向或纵向 --page-height <unitreal> 页面高度 (default unit millimeter) --page-offset* <offset> 设置起始页码 (default 1) --page-size <size> 设置纸张大小: A4, Letter, etc. --page-width <unitreal> 页面宽度 (default unit millimeter) --password <password> HTTP验证密码 --post <name> <value> Add an additional post field (repeatable) --post-file <name> <path> Post an aditional file (repeatable) --print-media-type* 使用的打印介质类型，而不是屏幕 --proxy <proxy> 使用代理 --quiet Be less verbose --read-args-from-stdin 读取标准输入的命令行参数 --readme 输出程序自述 --redirect-delay <msec> 等待几毫秒为JS-重定向(default 200) --replace* <name> <value> 替换名称,值的页眉和页脚（可重复） --stop-slow-scripts 停止运行缓慢的JavaScripts --title <text> 生成的PDF文件的标题（第一个文档的标题使用，如果没有指定） --toc* 插入的内容的表中的文件的开头 --use-xserver* 使用X服务器（一些插件和其他的东西没有X11可能无法正常工作） --user-style-sheet <url> 指定用户的样式表，加载在每一页中 --username <username> HTTP认证的用户名 --version 输出版本信息退出 --zoom <float> 使用这个缩放因子 (default 1) 页眉和页脚选项--header-center* <text> (设置在中心位置的页眉内容) --header-font-name* <name> (default Arial) (设置页眉的字体名称)--header-font-size* <size> (设置页眉的字体大小)--header-html* <url> (添加一个HTML页眉,后面是网址)--header-left* <text> (左对齐的页眉文本)--header-line* (显示一条线在页眉下)--header-right* <text> (右对齐页眉文本)--header-spacing* <real> (设置页眉和内容的距离,默认0)--footer-center* <text> (设置在中心位置的页脚内容) --footer-font-name* <name> (设置页脚的字体名称) --footer-font-size* <size> (设置页脚的字体大小default 11)--footer-html* <url> (添加一个HTML页脚,后面是网址)--footer-left* <text> (左对齐的页脚文本)--footer-line* 显示一条线在页脚内容上)--footer-right* <text> (右对齐页脚文本)--footer-spacing* <real> (设置页脚和内容的距离)./wkhtmltopdf --footer-right '[page]/[topage]' http://www.baidu.com baidu.pdf./wkhtmltopdf --header-center '报表' --header-line --margin-top 2cm --header-line http://192.168.212.139/oma/ oma.pdf表内容选项中 --toc-depth* <level> Set the depth of the toc (default 3) --toc-disable-back-links* Do not link from section header to toc --toc-disable-links* Do not link from toc to sections --toc-font-name* <name> Set the font used for the toc (default Arial) --toc-header-font-name* <name> The font of the toc header (if unset use --toc-font-name) --toc-header-font-size* <size> The font size of the toc header (default 15) --toc-header-text* <text> The header text of the toc (default Table Of Contents) --toc-l1-font-size* <size> Set the font size on level 1 of the toc (default 12) --toc-l1-indentation* <num> Set indentation on level 1 of the toc (default 0) --toc-l2-font-size* <size> Set the font size on level 2 of the toc (default 10) --toc-l2-indentation* <num> Set indentation on level 2 of the toc (default 20) --toc-l3-font-size* <size> Set the font size on level 3 of the toc (default 8) --toc-l3-indentation* <num> Set indentation on level 3 of the toc (default 40) --toc-l4-font-size* <size> Set the font size on level 4 of the toc (default 6) --toc-l4-indentation* <num> Set indentation on level 4 of the toc (default 60) --toc-l5-font-size* <size> Set the font size on level 5 of the toc (default 4) --toc-l5-indentation* <num> Set indentation on level 5 of the toc (default 80) --toc-l6-font-size* <size> Set the font size on level 6 of the toc (default 2) --toc-l6-indentation* <num> Set indentation on level 6 of the toc (default 100) --toc-l7-font-size* <size> Set the font size on level 7 of the toc (default 0) --toc-l7-indentation* <num> Set indentation on level 7 of the toc (default 120) --toc-no-dots* Do not use dots, in the toc轮廓选项 --dump-outline <file> 转储目录到一个文件 --outline 显示目录(文章中h1,h2来定) --outline-depth <level> 设置目录的深度（默认为4）页脚和页眉 * [page] 由当前正在打印的页的数目代替 * [frompage] 由要打印的第一页的数量取代 * [topage] 由最后一页要打印的数量取代 * [webpage] 通过正在打印的页面的URL替换 * [section] 由当前节的名称替换 * [subsection] 由当前小节的名称替换 * [date] 由当前日期系统的本地格式取代 * [time] 由当前时间，系统的本地格式取代
作者：曹元
链接：https://juejin.im/post/6856547881873047559
来源：掘金
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

持原创，共同进步！请关注我，后续分享更精彩!

概述

项目中经常有生成图表报告的需求。实现的方式有很多，下面几种方案，各有优缺点。

纯java后端实现：后端JFreeChart等绘制库画好图表，再通过itext库导出为pdf。该方案能实现简单的图表功能，样式、格式调整等可能会花大量时间。适合中小型报表开发项目。

前端绘制图表，后端运行时命令调用wkhtmltopdf生成pdf：后端通过运行时命令调用node js，js使用wkhtmltopdf库动态访问报表url地址，HTML内容渲染完成后生成pdf文件。该方案，使用纯前端js绘制图表，能实现复杂需求。但wkhtmltopdf库对不同浏览器的js存在兼容性问题，导出成pdf文件时存在各种坑，在单页面技术支持还不太成熟。适合丰富报表的pdf导出，但兼容性问题维护成本太高。

前端绘制图表，后端运行时命令调用puppeteer生成pdf：后端通过运行时命令调用node js，js使用puppeteer库动态访问报表url地址，HTML内容渲染完成后生成pdf文件。该方案和wkhtmltopdf方案类似，但兼容性更好。puppeteer是 Chrome 开发团队在 2017 年发布的一个 Node.js 包，用来模拟 Chrome 浏览器的运行。可以在无界面的环境中运行Chrome或通过命令行、程序语言操作 Chrome。理论上Chrome中显示的图表，就能通过该库生成一致的pdf文件内容，不用浪费很多时间在页面样式和兼容性问题上。

本文选择puppeteer方案介绍如何生成一个pdf报表。细心的小伙伴可能注意到了，既然puppeteer是js库，为什么不直接前端导出pdf，干嘛这么麻烦还通过后端绕一圈来实现？

这主要出于需求和用户体验的考虑，有些业务场景需要通过api接口动态生成pdf报表，不需要用户访问界面。如果生成的pdf的报表很大，直接在用户端生成，可能占用大量客户端资源，导致页面崩溃或假死，从而影响使用体验。

实现

1.先安装NodeJs，网上教程很多，本文不再赘述。

2.安装puppeteer依赖，如果npm下载不成功就使用cnpm命令（cnpm需要先安装）

npm install puppeteer --save

3.在安装puppeteer依赖的目录下创建page2pdf.js

const puppeteer = require('puppeteer');
const options = process.argv;
var siteUrl;
//执行 node page2pdf.js https://www.baidu.com

(async() => {
if(options.length>=3){
    siteUrl=options[2];
    //types=options[3];
	//console.log(siteUrl);
}

const browser = await puppeteer.launch();
const page = await browser.newPage();

//console.log(options.length);
//console.log(options[0]);
//console.log(options[1]);
//console.log(options[2]);
//console.log(options[3]);

const userAgent = "Mozilla/5.0 (Linux; Android 8.1.0; MI 8 Build/OPM1.171019.011; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/62.0.3202.84 Mobile Safari/537.36";
page.setUserAgent(userAgent);

await page.setViewport({ width: 1000, height: 1080 });

//await page.setViewport({ width: 480, height: 800,isMobile: true}); 

//通过css样式可见，动态设置站点加载完成标识。
//page.waitForSelector('img').then(() => console.log('siteUrl with page load success: ' + siteUrl));

await page.goto(siteUrl, {timeout: 10*60000, waitUntil: 'networkidle2'});

/**await page.goto(siteUrl, {timeout: 10*60000, waitUntil: 'networkidle2'})
			.catch(e => {
			  console.log(siteUrl+" is error:"+e);
			  browser.close()
			});*/

const pdf = await page.pdf({
		path: 'page.pdf', //便于测试验证，实际使用时可屏蔽
		format: 'A4'
	});
	
await browser.close();
process.stdout.write(pdf);
})();

page2pdf.js文件引入puppeteer依赖库，通过传入siteUrl参数访问HTML page页面，page.pdf生成文件，再通过process.stdout.write(pdf)返回java后台。

4.创建java PuppeteerHtmlToPdf.java文件

/**
 * 用谷歌提供的node实现的Puppeteer，实现网页生成pdf文件
 */
public class PuppeteerHtmlToPdf {
    /**
     * html转pdf,直接通过流输出到浏览器
     * @param response 浏览器响应
     * @param fileName 文件名称
     * @param puppeteerjs 要采用哪个js文件执行
     * @param webSiteUrl 要生成pdf的网页
     */
    public static void parseHtml2Pdf(HttpServletResponse response, String fileName, String puppeteerjs, String webSiteUrl) {
        try {
            Runtime rt = Runtime.getRuntime();
            Process p = rt.exec("node "+puppeteerjs+" "+webSiteUrl);
            InputStream is = p.getInputStream();
            BufferedInputStream bf=new BufferedInputStream(is);
            byte[] data = IOUtils.toByteArray(bf);
            fileName = URLEncoder.encode(fileName, "UTF-8");
            response.setHeader("Content-Disposition", "attachment; filename=\"" + fileName + "\"");
            response.addHeader("Content-Length", "" + data.length);
            response.setContentType("application/octet-stream;charset=UTF-8");
            OutputStream outputStream = new BufferedOutputStream(response.getOutputStream());
            outputStream.write(data);
            outputStream.flush();
            outputStream.close();
        } catch (IOException e) {
            e.printStackTrace();
        }

    }
}

5.报表生成

page2pdf.js页面目录打开命令行，执行指令。

运行指令，生成pdf

node page2pdf.js https://www.baidu.com

查看对应目录，已动态生成了一个page.pdf文件

打开pdf文件，对应HTML内容已生成。

小结

本文介绍了报表导出pdf的3种方式，通过优缺点分析，详细阐述了puppeteer的实现方式。并通过百度页面的pdf导出做了演示。

希望本文对有类似报表pdf导出需求的小伙伴有所参考和帮助。若存在不足或更好方案，请留言讨论。

在前面：java作为一门世界级编程语言金字塔顶尖的语言。需要大量的练习、练习、练习来巩固自己所获得的知识。冰冻三尺非一日之寒，希望大家在学习java的日子里一定一定要坚持不懈，严格要求。多练，多问，多百度。祝大家早日成为一名优秀的软件工程师！

文章摘要：此篇文章会带领大家创建一个html最简单的页面，以及在页面中增加一些简单的内容。

我先给大家放2张我以前教学的时候，开课前给学生画的图：

这2张图应该已经比较清晰明了的告诉你，学习java前端需要具备的一些主观和客观方面的东西，我就不多做解释了，以后我的文章中，会以代码图片及展现效果居多，尽量减少文字的占比。让大家对所学的知识有一个更直观的感受。

言归正传，想要编写html代码，首先需要一个后缀为.html的文件，这个文件怎么创建呢？最简单的方式，建一个txt，然后把后缀改为.html，用编辑器打开，就可以编写代码了。

当然，txt界面太丑，笔者这里选用sublime,该编辑器也可以直接加载一个html模板，选择菜单→新建文件(模板)→html,当然，前提要先设置好这个模板，具体设置方法这里就不做详细介绍了，百度上一大堆。新建完成后，产生一个代码如下的页面：

然后在<body></body>标签体之间打入一行代码

用浏览器打开该文件，显示如下图，说明这个html文件已经创建成功了，能够正常的编写代码。

零基础的同学一定对刚才的代码比较疑惑，虽然照着写能实现功能，但是这些代码各自又都是什么意义呢？我用注释的方式上图来告诉大家：

首先，html 的标签分为自闭和标签和闭合标签

自闭和标签：就是没有结束标签，比如上图的<meta>标签，该标签是没有结束标签相呼应的。

闭合标签：有开始和结束标签，比如上图的<html><body><h1>标签，他们都有一个</html></body></h1>相呼应

在上图中，我用过了比较多的 < !-- -- >标签，这是html里的注释标签，在编写代码的过程中，勤加注释是一个非常非常好的习惯，不仅方便了他人也方便了以后自己代码的维护。所以说，不加注释的代码都是在耍流氓。

我们80%的页面标签代码都会写在<body></body>标签里面,什么是标签，至少包含< > 和标签元素，比如<div><a><p><input>等，标签还有标签属性和属性值，标签属性和属性值在第一个标签内容中，如果是多个标签则以空格符号分割，如图：

Div 是整个html中最常用的一个标签元素，<div></div>类似于一个盒子，里面可以承载各种各样的元素标签，大家看到的所有的网站都是靠着div一个个的盒子规划开来，最后拼接在一起的，形成了一个完整的页面。

那么如何去建立一个div呢？首先，我们在html的<body></body>标签中加入一个<div></div>标签，但是单纯的加入标签并不会在页面中产生肉眼可见的东西，因为我们还要定义这个div的宽，高，背景色，边框等等，详见如下代码：

这样的一行代码，最后展现出来的效果是：

我们来一点点的剖析这一行代码：

Style:style 是元素标签里的一个标签属性，他的作用是可以定义该标签的样式。里面的样式格式是xxx:xxx; 每一组样式都是这样的定义，冒号用来隔开样式属性和样式属性值，最后以分号结尾.

width:定义该元素的宽

height:定义该元素的高

background:定义该元素的背景颜色(也可使用red,yellow等颜色定义)

border:定义该元素的边框

4px 代表边框粗细，

solid 代表边框样式, 边框样式又分为solid(实框)、dotted(虚框)

red代表边框颜色,边框颜色也可用#ccc,#112233这种形式表现

Div里可以放入文字、图片、标签元素等各式各样的东西。下面我演示一下如何放入照片：

首先，放入照片要使用到<img>标签，这是一个自闭和标签，所有没有结束标签。

Src代表图片的路径，width,height 代表图片的宽度和高度 ,alt是图片的描述

这个路径可以是相对路径，也可以是绝对路径。

相对路径：就是相对于这个网页的路径，比如图片和网页在同一个文件夹下，那么src处就直接填图片的文件名字就可以，若建了一个文件夹images，图片放在该文件夹中，同时这个文件夹和网页在同一个位置，那么src所填的就是images/图片名字.jpg

绝对路径：即从头开始写路径，如src = “C:/xxx/xxx/xxx/xxx.jpg”

假设我现在的图片位置和网页位置同处一处

最后的效果：

我这里改大了DIV的宽度和高度，若图片所设的宽高大于DIV的宽度高度，那么将会发生溢出的情况，同学们可以自己去试一下，这种溢出的情况也有对应的标签可以做调整，这个我们后面再讲。

这边特别提醒一点，如果div没有设定宽度width,则默认为等同浏览器宽度的宽度，若div没有设定高度，则该div根据div中内容进行高度的伸缩，div中的内容有多高，div就有多高，如图，我把width和height全部去掉：

上图width和height全部去掉，所以，width默认跟浏览器宽度等宽，高度为图片的高度。

文字的话就比较简单了，代码贴上：

最后结果：

第二句文字才是div创建出来的文字，我解释一下style里面的样式：

Font-size:文字大小，px为单位(像素)

Font-family:文字样式，分为很多，这个可以去word文档里找找

Font-weight：文字加粗，bold是一种默认加粗的大小。

End.

来源：公众号“java编程”

运行人员：中国统计网小编（微信号：itongjilove）

微博ID：中国统计网

中国统计网，是国内最早的大数据学习网站，公众号：中国统计网

http://www.itongji.cn

在线咨询

上一篇：想加入志愿服务项目？上这个网站就对了
下一篇：HTML表单3（下拉列表、多行文字输入）-零基础自学网页制作

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

java将html转为pdf

概述

实现

小结

您的项目需求