如何实现将PDF和html相互转换

DF是一种比较稳定的电子文档格式，而HTML则是一种通用的网页格式，如何才能实现这两种格式之间的互转呢？

首先将网页转成PDF是相当来说比较简单的操作，而且只要我们对PDF格式比较熟悉，一定都知道PDF虚拟打印机可以将各种格式打印并以PDF格式保存，所以此方法也同样适用于HTML转换PDF，具体操作方法就是先打开网页后，在网页任意处右击并选择“打印”

接着在左上角的打印设置页面，将目标打印机更改为电脑已有的PDF虚拟打印机或另存为PDF，再点击保存并选择文档保存位置后就可以了。

而将PDF文件转成网页就需要使用一些工具了，先下载并安装极速玩转后，选择PDF转换中的PDF转HTML进入转换页面，并添加需要转换的PDF文档。

然后在左下角的输出路径设置好转换后的HTML网页保存文件夹后，点击右下角的开始转换就可以了。

拟机为我们提供了一个无限可能的世界。在这个世界里，我们可以尝试、学习、甚至犯错，而不必担心现实生活中的后果。Emacs，作为一款强大的文本编辑器，它的Org模式更是让人们在组织复杂信息时如鱼得水。但是，当我们尝试将Org文件转换为HTML格式时，有时会遇到一个令人困惑的问题：“source block missing language specification #include”。这是什么意思？它又该如何解决呢？

在深入探讨之前，让我们先来思考一个问题：为什么我们要将Org文件转换为HTML？答案可能各有不同，但一个共同点是，我们都希望能够更好地分享和展示我们的工作。HTML作为一种广泛支持的格式，能够让我们的内容在不同的平台上呈现出一致的效果。这就像是我们穿上了一件合身的外衣，让内在的价值得以外显。

当我们遇到“source block missing language specification #include”的提示时，我们应该怎么办呢？首先，我们需要理解这个提示的含义。在Emacs的Org模式中，当我们使用源代码块时，通常需要指定语言类型，比如#+BEGIN_SRC python。这样，Emacs就能够知道如何高亮和格式化我们的代码。但如果我们忘记了这一步，就会收到上述的提示。

解决这个问题的方法其实很简单。我们只需要回到源代码块的开始，确保正确地指定了语言类型。如果是包含在文件中的代码，比如C语言的头文件，我们可以使用#+INCLUDE: "file.h" src c这样的语法来引入。

通过这个简单的修正，我们就能够顺利地将Org文件转换为HTML，而不会再有任何阻碍。这个过程就像是我们在虚拟世界中解决了一个谜题，获得了前进的钥匙。

并且可以尝试以下几种方法来解决：

方法一：添加语言规范

在 Org 文档中，对于包含代码块的文本，需要添加语言规范，以便 Org-mode 正确地解析和转换代码。

具体步骤如下：

在代码块的开头，添加一行指示语言规范的注释。例如，对于 C 语言代码，可以添加以下注释：

#lang c

再次尝试将 Org 文档转换为 HTML。

方法二：使用 org-babel

org-babel 是 Org-mode 的一个扩展包，可以用于将代码块转换为各种格式，包括 HTML。

具体步骤如下：

安装 org-babel 扩展包。

M-x package-install RET org-babel

在 Org 文档中，将代码块标记为 babel 块。例如，对于 C 语言代码，可以使用以下标记：

#+begin_src c#include <stdio.h>int main() {  printf("Hello, world!\n");  return 0;}#+end_src

再次尝试将 Org 文档转换为 HTML。

方法三：使用 org-html-export-filter

org-html-export-filter 是 Org-mode 的一个函数，可以用于在导出 HTML 时自定义代码块的转换。

具体步骤如下：

在 Emacs 配置文件中，添加以下代码：

(defun my-org-html-export-filter (block)  "自定义代码块的转换。"  (if (string-match-p "^#lang\s+c\s*$" (org-block-property block :language))    (org-html-export-filter-block-as-code block "c" "highlight")    (org-html-export-filter-block-as-verbatim block)))(add-hook 'org-html-export-filter-alist 'my-org-html-export-filter)

再次尝试将 Org 文档转换为 HTML。

以上三种方法都可以解决 Org 转为 HTML 时提示“source block missing language specification #include<stdio.h>”的问题。具体选择哪种方法，可以根据自己的实际情况和需求来决定。

喽，今天是一篇HTML to PDF速食指南。

Java 转换 HTML 到PDF有许多类库，今天我们介绍一下第三方免费的类库OpenPDF。

1. OpenPDF

OpenPDF是免费的Java类库，遵从LGPL 和 MPL协议，所以基本上能够可以随意使用。OpenPDF是基于iTEXT的，目前来说也是维护的比较好的Java操作PDF的开源软件。

话不多说，且看所需要的依赖，

<dependency>    
    <groupId>org.jsoup</groupId>    
    <artifactId>jsoup</artifactId>   
    <version>1.13.1</version> 
</dependency>
<dependency>
    <groupId>com.openhtmltopdf</groupId>
    <artifactId>openhtmltopdf-core</artifactId>
    <version>1.0.6</version>
</dependency>
<dependency>
    <groupId>com.openhtmltopdf</groupId>
    <artifactId>openhtmltopdf-pdfbox</artifactId>
    <version>1.0.6</version>
</dependency>

jsoup可以将html文件转换成输入流等，也可以遍历html的DOM节点，提取元素及样式等。

2. 示例

本篇示例将以下html文件转换成pdf

<html>
<head>
    <style>
        .center_div {
            border: 1px solid #404e94;
            margin-left: auto;
            margin-right: auto;
            background-color: #f6d0ed;
            text-align: left;
            padding: 8px;
        }
        table {
            width: 100%;
            border: 1px solid black;
        }
        th, td {
            border: 1px solid black;
        }
        body,html,input{font-family:"msyh";}
    </style>
</head>
<body>
<div class="center_div">
    <h1>Hello java North!</h1>
    <div>
        <p>convert html to pdf.</p>
    </div>
    <div>
        <table>
            <thead>
                <th>ROLE</th>
                <th>NAME</th>
                <th>TITLE</th>
            </thead>
            <tbody>
                <tr>
                    <td>MARKSMAN</td>
                    <td>ASHE</td>
                    <td>THE FROST ARCHER</td>
                </tr>
                <tr>
                    <td>MAGES</td>
                    <td>ANNIE</td>
                    <td>THE DARK CHILD</td>
                </tr>
                <tr>
                    <td>射手</td>
                    <td>凯塔琳</td>
                    <td>皮城女警</td>
                </tr>
            </tbody>
        </table>
    </div>
</div>
</body>
</html>

以上html用浏览器打开如下，乱码是因为中文字体不识别，下面转换的时候会加载对应的字体来进行转换。

使用Java转换HTML到PDF代码如下：

public class HtmlToPDFOpenSource {
    public static void main(String[] args) throws IOException {
        HtmlToPDFOpenSource htmlToPDFOpenSource = new HtmlToPDFOpenSource();
        htmlToPDFOpenSource.generatePdfByOpenhtmltopdf();
    }

    private  void generatePdfByOpenhtmltopdf() throws IOException {
        File inputHtml = new File("E:\\javaNorth\\java-study-note\\javaOpenSource\\src\\main\\resources\\test.html");

        //加载html文件
        Document document = Jsoup.parse(inputHtml, "UTF-8");
        document.outputSettings().syntax(Document.OutputSettings.Syntax.html);
        
        //引入资源目录，可以单独引入css，图片文件等
        String baseUri = FileSystems.getDefault()
            .getPath("javaOpenSource\\src\\main\\resources")
            .toUri().toString();
       
        try (OutputStream os = new FileOutputStream("javaOpenSource\\src\\main\\resources\\testOpenLeagueoflegends1.pdf")) {
            PdfRendererBuilder builder = new PdfRendererBuilder();
            builder.withUri("javaOpenSource\\src\\main\\resources\\testOpenLeagueoflegends1.pdf");
            builder.toStream(os);
            builder.withW3cDocument(new W3CDom().fromJsoup(document), baseUri);
            
            //引入指定字体，注意字体名需要和css样式中指定的字体名相同
            builder.useFont(new File("javaOpenSource\\src\\main\\resources\\fonts\\msyh.ttf"),"msyh",1,BaseRendererBuilder.FontStyle.NORMAL, true);
            builder.run();
        }
    }
}

使用Java代码转换成PDF如下（示例中使用了微软雅黑中文字体）：

上述html文件中增加如下外部样式：

<link href="style.css" rel="stylesheet">

并在resources目录下添加style.css文件，重新生成PDF文件如下。

3. 总结

本片介绍了使用OpenPDF将html文件转换成PDF文件。同时也使用了自定义字体，外部样式。但是以下几点需要格外注意。

Java代码中加载的字体名称要和HTML引用的CSS样式中的字体名相同（{font-family:"msyh";}）。
HTML文件标签节点必须闭合（<xxx></xxx>）.否则解析会失败。

全部示例在此：https://github.com/javatechnorth/java-study-note/tree/master/javaOpenSource/src/main/java/pdf

文章来源：Java技术指北

在线咨询

上一篇：以英国数据新闻理念变迁看数据新闻教育的未来走向
下一篇：Web前端开发基础知识，设置网页背景图，如何在网页中插入图片

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

如何实现将PDF和html相互转换

1. OpenPDF

2. 示例

3. 总结

您的项目需求