5-LINUX HTML 转 PDF-seleniu

5-LINUX HTML 转 PDF-selenium

tml2pdf

selenium

Selenium 通过使用 WebDriver 支持市场上所有主流浏览器的自动化。 Webdriver 是一个 API 和协议，它定义了一个语言中立的接口，用于控制 web 浏览器的行为。每个浏览器都有一个特定的 WebDriver 实现，称为驱动程序。驱动程序是负责委派给浏览器的组件，并处理与 Selenium 和浏览器之间的通信。

这种分离是有意识地努力让浏览器供应商为其浏览器的实现负责的一部分。 Selenium 在可能的情况下使用这些第三方驱动程序，但是在这些驱动程序不存在的情况下，它也提供了由项目自己维护的驱动程序。

Selenium 框架通过一个面向用户的界面将所有这些部分连接在一起，该界面允许透明地使用不同的浏览器后端，从而实现跨浏览器和跨平台自动化。

selenium 驱动

# selenium 驱动
https://selenium-python.readthedocs.io/installation.html#drivers
https://selenium-python.readthedocs.io/api.html

selenium-java

主要依赖

        <dependency>
            <groupId>org.seleniumhq.selenium</groupId>
            <artifactId>selenium-java</artifactId>
            <version>4.16.1</version>
        </dependency>

测试代码

        // 获取 java 版本
        String version=System.getProperty("java.specification.version");

        // 获取系统类型
        String platform=System.getProperty("os.name", "");
        platform=platform.toLowerCase().contains("window") ? "win" : "linux";

        // 当前程序目录
        String current=System.getProperty("user.dir");

        System.out.println("current:" + current);

        // firefox 运行参数配置
        FirefoxOptions options=new FirefoxOptions();
        // 无头模式
        options.addArguments("--headless");
        // 最大化
        options.addArguments("--start-maximized");

        FirefoxDriver browser=new FirefoxDriver(options);

        Path url=Paths.get(current, "..", "index.html");
        System.out.println("url:" + url.toString());

        // NOTE 要使用 file 协议
        browser.get(String.format("file://%s", url.toString()));

        // 打印设置
        PrintOptions print=new PrintOptions();
        Pdf pdf=browser.print(print);

        // pdf base64 内容
        String content=pdf.getContent();
        // 解码内容
        Base64.Decoder decoder=Base64.getDecoder();
        byte[] buffer=decoder.decode(content);

        try {
            // 将 byte 写入文件
            Path file=Paths.get(String.format("java%s_%s.pdf", version, platform));
            Files.write(file, buffer);
        } catch (IOException e) {
            throw new RuntimeException(e);
        } finally {
            browser.quit();
        }

效果预览

selenium/java11_linux.pdf · yjihrp/linux-html2pdf-demo - Gitee.com

selenium/java11_win.pdf · yjihrp/linux-html2pdf-demo - Gitee.com

测试结果

下一篇 6-LINUX HTML 转 PDF-selenium-python

器之心报道

项目作者：vinayak mehta参与：一鸣

从 PDF 表格中获取数据是一项痛苦的工作。不久前，一位开发者提供了一个名为 Camelot 的工具，使用三行代码就能从 PDF 文件中提取表格数据。

PDF 文件是一种非常常用的文件格式，通常用于正式的电子版文件。它能够很好的将不同的排版格式固定下来，形成版面清晰且美观的展示效果。然而，对于想要从 PDF 中提取信息的人们来说，PDF 是个噩梦，尤其是表格。

大量的学术报告、论文、分析文章都使用 PDF 展示其中的表格数据，但是对于如果想要直接从表格中复制数据则会非常麻烦。不久前，有一位开发者提供了一个可从文字 PDF 中提取表格信息的工具——Camelot，能够直接将大部分表格转换为 Pandas 的 Dataframe。

项目地址：https://github.com/camelot-dev/camelot

Camelot 是什么

据项目介绍称，Camelot 是一个 Python 工具，用于将 PDF 文件中的表格数据提取出来。

具体而言，用户可以像使用 Pandas 那样打开 PDF 文件，然后利用这个工具提取表格数据，最后再指定输出的形式（如 csv 文件）。

代码示例

项目提供的 PDF 文件如图所示，假设用户需要提取这些文字之间的表格 2-1 中的信息。

PDF 文件。我们需要提取表格 2-1。

使用 Camelot 提取表格数据的代码如下：

>>> import camelot
>>> tables=camelot.read_pdf('foo.pdf') #类似于Pandas打开CSV文件的形式
>>> tables[0].df # get a pandas DataFrame!
>>> tables.export('foo.csv', f='csv', compress=True) # json, excel, html, sqlite，可指定输出格式
>>> tables[0].to_csv('foo.csv') # to_json, to_excel, to_html, to_sqlite， 导出数据为文件
>>> tables
<TableList n=1>
>>> tables[0]
<Table shape=(7, 7)> # 获得输出的格式
>>> tables[0].parsing_report
{
 'accuracy': 99.02,
 'whitespace': 12.24,
 'order': 1,
 'page': 1
}

以下为输出的结果，对于合并的单元格，Camelot 在抽取后做了空行处理，这是一个稳妥的方法。

安装方法

项目作者提供了三种安装方法。首先，你可以使用 Conda 进行安装，这是最简单的。

conda install -c conda-forge camelot-py

最流行的安装方法是使用 pip 安装。

pip install camelot-py[cv]

还可以从项目中克隆代码，并使用源码安装。

ompdf是一个可以将HTML生成PD并保留样式效果的PHP第三方扩展。

下面就一步步讲解如何使用：

一、通过composer安装

composer require dompdf/dompdf

安装过程

二、编写测试代码

（1）引用autoload.php

include 'vendor/autoload.php';

（2）实例化Dompdf

$dompdf=new \Dompdf\Dompdf();

（3）加载HTML

$dompdf->loadHtml($html); //$html 为HTML字符串

（4）设置纸张和方向

$dompdf->setPaper('A4', 'landscape'); //纸张大小和纸张方向

（5）生成PDF并下载

 $dompdf->render();
$dompdf->stream('数据字典.pdf');

三、导出PDF测试，发现中文乱码了

导出PDF发现中文乱码了

四、解决中文乱了问题

（1）下载支持中文的字体包放到根目录下（和vendor目录同级），这里演示使用的是阿里巴巴的普惠字体（字体格式是ttf的，小编原先下载使用的字体格式是otf格式的无效）

（2）下载dompdf字体安装工具解压到根目录（和vendor目录同级）

下载地址：https://github.com/dompdf/utils

（3）在命令行（CMD定位到根目录）下执行命令

php load_font.php "puhui" Alibaba-PuHuiTi-Light.ttf

执行成功后在路径（vendor\dompdf\dompdf\lib\fonts）下就会出现刚才的字体

（4）在样式文件中指定使用刚才安装的字体

body{font-family:puhui;}

（5）再次导出PDF测试成功

乱码问题解决

在线咨询

上一篇：javaScript 数组indexOf与lastI
下一篇：大模型竞争突然升级！亚马逊 CEO 亲自监督、组建新

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商