整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

将网页转换为PDF的两个方法



排提示:本期内容所用软件为“Adobe Acrobat Pro DC 2019”

写在前面

再看到喜欢的网页时,我们可能会想要收藏,也可能使用OneNote或者印象笔记转存这些网页。

而在碰到Acrobat之后,我们又多了另外一个选择。

将网页直接转存为PDF。

Acrobat将网页转存为PDF有两种方法。

下面我们来逐一介绍。

方法一:根据网页地址创建PDF

功能位置:工具 >> 创建PDF >> 网页


点击“创建PDF”工具,切换页面后,点击左侧的“网页”选项。


根据网页创建PDF

Acrobat提示我们输入一个URL地址,将某个网页链接复制到这里。

可以勾选“捕捉多层”,软件会展开更多选项。

  • “获取N层”和“获取整个网站”只能二选一。因为某个网站会包含多个超链接,前者可限制转换的超链接数量,后者会获取全部网站的超链接。(毫无疑问,网页在转换PDF时,后者会花费更多的时间)
  • 勾选“停留在同一路径”的话,软件仅转换“隶属于所填URL的网页”;
  • 勾选“停留在同一服务器”的话,软件仅转换“同一服务器上的网页”;
  • “高级设置”可以对转换后的PDF,进行页面大小,缩放等等参数的设置,不再赘述。

转换网页参数

参数设置完毕,点击“创建”即可。

等待数秒,Acrobat会自动打开转换成功的PDF。

软件在识别网页CSS样式时,会存在一定的缺陷,但网页主体内容可以被完美转换。

转换效果

方法二:使用浏览器插件转换PDF

安装Acrobat DC时,会自动为IE、Google Chrome 和Firefox这三款浏览器添加“Adoba Arcobat”这款插件。(限Windows系统)


下面以Firefox浏览器为例,利用插件将某个网页转存为PDF。

首先在右上角的选项菜单中找到“附件组件”。


附件组件

确保“Adoba Arcobat”插件为启用状态。


启用Adobe Acrobat

这时在工具栏就可以看到插件图标了。


通过浏览器随便访问一个网站,在右键菜单中就会发现“Adobe Acrobat” >> “将网页转换为Adobe PDF”选项。


点击后,只需要选择一个存储路径,等待数秒转换即可完成。

不需要人为再次介入,要比第一种方法更加高效。


这种方式有点类似于“网页内容转存至云笔记”。

一册君在测试知乎的网页时,有的内容可以转存成功,而有的不可以。

希望大家留意到这一点。

总结

今天,我们介绍了使用“Acrobat”转存网页为PDF文件的方法。

  • 通过“工具 >> 创建PDF >> 网页”,在软件内部通过网页链接直接转存;
  • 安装“Acrobat”后,IE,Chrome,Firefox三款浏览器会安装“Acrobat插件”,插件提供了“将网页转换为Adobe PDF”功能。此方式更加简单直观,但支持的浏览器有限;

以上。

如果你喜欢“一册笔记”,请记得分享,点赞和关注。

未完待续。。。

保存在线文章以便日后查阅,如何实现?想将网页内容转为PDF保存,如何转换?

今天,小福教大家如何将网页生成PDF文件,跟着小福一起来看看吧!

首先,我们打开福昕高级PDF编辑器,选择左上角“文件”>“创建”>“从网页”,或点击菜单栏“转换”>“从网页”;


在弹出的对话框中,粘贴转换的网页的URL链接,点击“创建”,福昕高级PDF编辑器将开始加载网页内容;


加载完毕后,网页就被转为PDF啦!此时,我们就可以对该页面进行进一步的编辑和调整,如文字提取、编辑、添加注释、划重点等。完成编辑后,点击保存即可。

此外,在转换时,我们可以点击“设置”来选择更多转换选项:

在弹出的“网页转换设置”对话框中,有“常规”和“页面布局”选项卡。常规选项卡可以设置网页的转换等级和转换内容,页面布局则可设置生成的PDF的页面尺寸、页边距和方向,以及多媒体类型及缩放比例。

这里给大家说说常用的一些设置:

在“常规”选项卡中:

1、转换等级:可以指定网站中要转换的网页等级,或勾选“转换整个站点”。

转换同一路径的网页:转换隶属于您输入的网页地址的所有网页;转换同一服务器上的网页:转换储存在同一服务器上的所有网页。

2、PDF设置:设置加载整个页面的超时时间。超过此设置时间,加载进程将自动中止,且仅已加载内容会被转换成PDF。默认值为120秒。

  • 在所生成的PDF文件中禁用所有超链接:勾选该项后,转换生成的PDF中的所有超链接均为无效链接。
  • 将所有的页面内容转换到同一个PDF页面:勾选该项后,所有相关内容将被转换到同一个PDF页面中。
  • 创建书签:勾选该项,转换后将自动生成被转换页面的书签。书签名为网页的域名。当网页域名相同时,将自动创建子书签并以页面的标题作为子书签的名称。若页面没有标题,则使用对应的URL作为子书签的名称。
  • 创建 PDF 标签:勾选该项以创建包含标签和其他辅助信息的PDF文档。
  • 在新建页面放置页眉和页脚:在生成的 PDF 的每一页上放置页眉和页脚。页眉显示您创建PDF的日期和网页标题。页脚显示网页URL(或 HTML 文件的文件路径)和页码。
  • 背景图像:勾选该项以保留页面背景,生成的 PDF 看起来将与原始网页完全一样。有时,网页上的背景可能会影响文本的显示效果,您可以取消勾选该项,这样转换后的页面可能与网页浏览器中显示的不同,但更易于阅读。

3、其他设置:

  • 转换图像:如需在 PDF 转换时转换图像,请勾选此项;反之则取消勾选。
  • 为链接添加下划线:如需在生成的 PDF 中为网页链接文本添加下划线,请勾选此项;反之则取消勾选。

以上就是本期所有内容,我们下期再见啦!

喽,今天是一篇HTML to PDF速食指南。

Java 转换 HTML 到PDF有许多类库,今天我们介绍一下第三方免费的类库OpenPDF。

1. OpenPDF

OpenPDF是免费的Java类库 ,遵从LGPL 和 MPL协议,所以基本上能够可以随意使用。OpenPDF是基于iTEXT的,目前来说也是维护的比较好的Java操作PDF的开源软件。

话不多说,且看所需要的依赖,

<dependency>    
    <groupId>org.jsoup</groupId>    
    <artifactId>jsoup</artifactId>   
    <version>1.13.1</version> 
</dependency>
<dependency>
    <groupId>com.openhtmltopdf</groupId>
    <artifactId>openhtmltopdf-core</artifactId>
    <version>1.0.6</version>
</dependency>
<dependency>
    <groupId>com.openhtmltopdf</groupId>
    <artifactId>openhtmltopdf-pdfbox</artifactId>
    <version>1.0.6</version>
</dependency>

jsoup可以将html文件转换成输入流等,也可以遍历html的DOM节点,提取元素及样式等。

2. 示例

本篇示例将以下html文件转换成pdf

<html>
<head>
    <style>
        .center_div {
            border: 1px solid #404e94;
            margin-left: auto;
            margin-right: auto;
            background-color: #f6d0ed;
            text-align: left;
            padding: 8px;
        }
        table {
            width: 100%;
            border: 1px solid black;
        }
        th, td {
            border: 1px solid black;
        }
        body,html,input{font-family:"msyh";}
    </style>
</head>
<body>
<div class="center_div">
    <h1>Hello java North!</h1>
    <div>
        <p>convert html to pdf.</p>
    </div>
    <div>
        <table>
            <thead>
                <th>ROLE</th>
                <th>NAME</th>
                <th>TITLE</th>
            </thead>
            <tbody>
                <tr>
                    <td>MARKSMAN</td>
                    <td>ASHE</td>
                    <td>THE FROST ARCHER</td>
                </tr>
                <tr>
                    <td>MAGES</td>
                    <td>ANNIE</td>
                    <td>THE DARK CHILD</td>
                </tr>
                <tr>
                    <td>射手</td>
                    <td>凯塔琳</td>
                    <td>皮城女警</td>
                </tr>
            </tbody>
        </table>
    </div>
</div>
</body>
</html>

以上html用浏览器打开如下,乱码是因为中文字体不识别,下面转换的时候会加载对应的字体来进行转换。

使用Java转换HTML到PDF代码如下:

public class HtmlToPDFOpenSource {
    public static void main(String[] args) throws IOException {
        HtmlToPDFOpenSource htmlToPDFOpenSource = new HtmlToPDFOpenSource();
        htmlToPDFOpenSource.generatePdfByOpenhtmltopdf();
    }

    private  void generatePdfByOpenhtmltopdf() throws IOException {
        File inputHtml = new File("E:\\javaNorth\\java-study-note\\javaOpenSource\\src\\main\\resources\\test.html");

        //加载html文件
        Document document = Jsoup.parse(inputHtml, "UTF-8");
        document.outputSettings().syntax(Document.OutputSettings.Syntax.html);
        
        //引入资源目录,可以单独引入css,图片文件等
        String baseUri = FileSystems.getDefault()
            .getPath("javaOpenSource\\src\\main\\resources")
            .toUri().toString();
       
        try (OutputStream os = new FileOutputStream("javaOpenSource\\src\\main\\resources\\testOpenLeagueoflegends1.pdf")) {
            PdfRendererBuilder builder = new PdfRendererBuilder();
            builder.withUri("javaOpenSource\\src\\main\\resources\\testOpenLeagueoflegends1.pdf");
            builder.toStream(os);
            builder.withW3cDocument(new W3CDom().fromJsoup(document), baseUri);
            
            //引入指定字体,注意字体名需要和css样式中指定的字体名相同
            builder.useFont(new File("javaOpenSource\\src\\main\\resources\\fonts\\msyh.ttf"),"msyh",1,BaseRendererBuilder.FontStyle.NORMAL, true);
            builder.run();
        }
    }
}

使用Java代码转换成PDF如下(示例中使用了微软雅黑中文字体):

上述html文件中增加如下外部样式

<link href="style.css" rel="stylesheet">

并在resources目录下添加style.css文件,重新生成PDF文件如下。

3. 总结

本片介绍了使用OpenPDF将html文件转换成PDF文件。同时也使用了自定义字体,外部样式。但是以下几点需要格外注意。

  • Java代码中加载的字体名称要和HTML引用的CSS样式中的字体名相同 ({font-family:"msyh";})。
  • HTML文件标签节点必须闭合(<xxx></xxx>).否则解析会失败。

全部示例在此:https://github.com/javatechnorth/java-study-note/tree/master/javaOpenSource/src/main/java/pdf

文章来源:Java技术指北