整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

Java 将PDF 转为Word

Java 将PDF 转为Word

文将介绍通过Java编程来实现PDF文档转换的方法。包括:

  1. PDF转为Word

  2. PDF转为图片

  3. PDF转为Html

  4. PDF转为SVG

    4.1 将PDF每一页转为单个的SVG

    4.2 将一个包含多页的PDF文档转为一个SVG

  5. PDF转为XPS

  6. PDF转为PDF/A

使用工具:Free Spire.PDF for Java(免费版)

Jar文件获取及导入:

方法1:通过官网下载下载jar包。下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入Java程序。

方法2:可通过maven仓库安装导入。参考导入方法

PDF 转Word

PdfDocument pdf=new PdfDocument("test.pdf");
pdf.saveToFile("ToWord.docx",FileFormat.DOCX);

PDF转图片

支持的图片格式包括Jpeg, Jpg, Png, Bmp, Tiff, Gif, EMF等。这里以保存为Png格式为例。

用jupyter notebook写代码文档的时候,有时需要导出pdf版本,但jupyter会报错。我在想,除了网上的debug方法,还没有其他方案可以生成pdf。

度娘搜了下,很多博客推荐Python的第三方库pdfkit,可以将网页、html文件以及字符串生成pdf文件。

其实也有很多软件提供pdf生成服务,但这样太不python了,那下面就来试试pdfkit怎么用吧!

三步实现自动生成pdf文档:

1.使用pip安装pdfkit库

python版本 3.x,在命令行输入:

pip install pdfkit

安装过程基本不会有啥问题,出现上面的Successfully installed pdfkit-0.6.1提示,说明安装成功了。

2.安装wkhtmltopdf.exe文件

注:pdfkit是基于wkhtmltopdf的python封装,所以需要安装wkhtmltopdf.exe。wkhtmltopdf是轻量级软件,非常很容易安装。

下载地址:https://wkhtmltopdf.org/downloads.html

下载wkhtmltopdf

下载完成后,一路next,将wkhtmltopdf安装好。

务必要记住安装地址,找到wkhtmltopdf.exe文件所在的绝对路径,后面要用到。

我这里是默认路径""C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe""

安装wkhtmltopdf

3.使用pdfkit库生成pdf文件

前面说过pdfkit可以将网页、html文件、字符串生成pdf文件。

  • 网页url生成pdf【pdfkit.from_url()函数】
# 导入库
import pdfkit

'''将网页url生成pdf文件'''
def url_to_pdf(url, to_file):
    # 将wkhtmltopdf.exe程序绝对路径传入config对象
    path_wkthmltopdf=r'C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe'
    config=pdfkit.configuration(wkhtmltopdf=path_wkthmltopdf)
    # 生成pdf文件,to_file为文件路径
    pdfkit.from_url(url, to_file, configuration=config)
    print('完成')

# 这里传入我知乎专栏文章url,转换为pdf
url_to_pdf(r'https://zhuanlan.zhihu.com/p/69869004', 'out_1.pdf')
  • html文件生成pdf【pdfkit.from_file()函数】
# 导入库
import pdfkit

'''将html文件生成pdf文件'''
def html_to_pdf(html, to_file):
    # 将wkhtmltopdf.exe程序绝对路径传入config对象
    path_wkthmltopdf=r'C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe'
    config=pdfkit.configuration(wkhtmltopdf=path_wkthmltopdf)
    # 生成pdf文件,to_file为文件路径
    pdfkit.from_file(html, to_file, configuration=config)
    print('完成')

html_to_pdf('sample.html','out_2.pdf')
  • 字符串生成pdf【pdfkit.from_string()函数】
# 导入库
import pdfkit

'''将字符串生成pdf文件'''
def str_to_pdf(string, to_file):
    # 将wkhtmltopdf.exe程序绝对路径传入config对象
    path_wkthmltopdf=r'C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe'
    config=pdfkit.configuration(wkhtmltopdf=path_wkthmltopdf)
    # 生成pdf文件,to_file为文件路径
    pdfkit.from_string(string, to_file, configuration=config)
    print('完成')

str_to_pdf('This is test!','out_3.pdf')

4.结论

本文讲了如何在Python中使用pdfkit库生成pdf文件,非常方便快捷,适合批量自动化操作。

我们看看生成的pdf效果如何:

pdf效果展示

整体页面视觉不错呦,赶快用起来吧!

我们日常学习和日常工作中,如果遇见将PDF文件转换为HTML的问题该怎么办呢?

其实很简单,之前小编也写过关于将PDF文件转换为HTML的步骤方法,今天小编就来为大家盘点一下PDF转换为HTML的软件。都是小编自己试过的软件哦!

第一款 PDF to HTML

PDF to HTML可以将PDF文件批量的转换为HTML页面,在输出HTML文件的同时保留PDF文件的原始文本、格式以及布局。支持转换有所限制的PDF文件,比如不允许拷贝的内容、保存为文本以及页面提取的PDF文件。

第二款 风云PDF转换器

风云PDF转换器,这款软件小编之前也提及过。可以快速的将多种文件转换为PDF文件以及将PDF文件转换为多种格式文档比如PDF转图片,PDF转HTML等等。除了转换文件之外,还有PDF拆分,PDF合并,PDF页面提取众多功能,页面简洁,操作简单易上手,支持批量转换使用起来很方便。

第三款 Okdo Pdf to Html Converter

Okdo Pdf to Html Converter这款软件与前两款软件相似都是独立软件,不需要额外下载插件。可以保留PDF文件的原始布局、图像。文本、矢量图形,软件内置直观操作界面,方便操作。

第四款 iPubsoft PDF to HTML Converter

iPubsoft PDF to HTML Converter这款软件小编主要介绍一个特点,这款软件将PDF格式转换为网页格式后,可以使PDF文件可以被搜索引擎搜索和索引。还可以部分转换PDF文件页面,保留原始图像、文本、表格、图像、超链接等等。

第五款 BlueFox Free PDF to HTML Converter

BlueFox Free PDF to HTML Converter这款软件,小编觉得比较有特点的是可以将文章转换多种语言的PDF文件,可以使全球PDF文件发行更有效,如果没明白的话,小编举个例子就是如果你的PDF文件具有英语内容也是可以轻松转换。

以上就是小编为大家盘点的五款PDF转换为HTML的软件了,每个软件都有自己很独特的方向,小编的话比较喜欢全面的软件,所以使用第二款软件比较多,如果想要部分转换可以选择其他软件。

如果还有想看的盘点,欢迎给小编留言。小编看到后会帮您安排盘点哦!