文将介绍通过Java编程来实现PDF文档转换的方法。包括:
PDF转为Word
PDF转为图片
PDF转为Html
PDF转为SVG
4.1 将PDF每一页转为单个的SVG
4.2 将一个包含多页的PDF文档转为一个SVG
PDF转为XPS
PDF转为PDF/A
使用工具:Free Spire.PDF for Java(免费版)
Jar文件获取及导入:
方法1:通过官网下载下载jar包。下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入Java程序。
方法2:可通过maven仓库安装导入。参考导入方法
PdfDocument pdf=new PdfDocument("test.pdf");
pdf.saveToFile("ToWord.docx",FileFormat.DOCX);
支持的图片格式包括Jpeg, Jpg, Png, Bmp, Tiff, Gif, EMF等。这里以保存为Png格式为例。
用jupyter notebook写代码文档的时候,有时需要导出pdf版本,但jupyter会报错。我在想,除了网上的debug方法,还没有其他方案可以生成pdf。
度娘搜了下,很多博客推荐Python的第三方库pdfkit,可以将网页、html文件以及字符串生成pdf文件。
其实也有很多软件提供pdf生成服务,但这样太不python了,那下面就来试试pdfkit怎么用吧!
python版本 3.x,在命令行输入:
pip install pdfkit
安装过程基本不会有啥问题,出现上面的Successfully installed pdfkit-0.6.1提示,说明安装成功了。
注:pdfkit是基于wkhtmltopdf的python封装,所以需要安装wkhtmltopdf.exe。wkhtmltopdf是轻量级软件,非常很容易安装。
下载地址:https://wkhtmltopdf.org/downloads.html
下载wkhtmltopdf
下载完成后,一路next,将wkhtmltopdf安装好。
务必要记住安装地址,找到wkhtmltopdf.exe文件所在的绝对路径,后面要用到。
我这里是默认路径""C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe""
安装wkhtmltopdf
前面说过pdfkit可以将网页、html文件、字符串生成pdf文件。
# 导入库
import pdfkit
'''将网页url生成pdf文件'''
def url_to_pdf(url, to_file):
# 将wkhtmltopdf.exe程序绝对路径传入config对象
path_wkthmltopdf=r'C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe'
config=pdfkit.configuration(wkhtmltopdf=path_wkthmltopdf)
# 生成pdf文件,to_file为文件路径
pdfkit.from_url(url, to_file, configuration=config)
print('完成')
# 这里传入我知乎专栏文章url,转换为pdf
url_to_pdf(r'https://zhuanlan.zhihu.com/p/69869004', 'out_1.pdf')
# 导入库
import pdfkit
'''将html文件生成pdf文件'''
def html_to_pdf(html, to_file):
# 将wkhtmltopdf.exe程序绝对路径传入config对象
path_wkthmltopdf=r'C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe'
config=pdfkit.configuration(wkhtmltopdf=path_wkthmltopdf)
# 生成pdf文件,to_file为文件路径
pdfkit.from_file(html, to_file, configuration=config)
print('完成')
html_to_pdf('sample.html','out_2.pdf')
# 导入库
import pdfkit
'''将字符串生成pdf文件'''
def str_to_pdf(string, to_file):
# 将wkhtmltopdf.exe程序绝对路径传入config对象
path_wkthmltopdf=r'C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe'
config=pdfkit.configuration(wkhtmltopdf=path_wkthmltopdf)
# 生成pdf文件,to_file为文件路径
pdfkit.from_string(string, to_file, configuration=config)
print('完成')
str_to_pdf('This is test!','out_3.pdf')
本文讲了如何在Python中使用pdfkit库生成pdf文件,非常方便快捷,适合批量自动化操作。
我们看看生成的pdf效果如何:
pdf效果展示
整体页面视觉不错呦,赶快用起来吧!
我们日常学习和日常工作中,如果遇见将PDF文件转换为HTML的问题该怎么办呢?
其实很简单,之前小编也写过关于将PDF文件转换为HTML的步骤方法,今天小编就来为大家盘点一下PDF转换为HTML的软件。都是小编自己试过的软件哦!
第一款 PDF to HTML
PDF to HTML可以将PDF文件批量的转换为HTML页面,在输出HTML文件的同时保留PDF文件的原始文本、格式以及布局。支持转换有所限制的PDF文件,比如不允许拷贝的内容、保存为文本以及页面提取的PDF文件。
第二款 风云PDF转换器
风云PDF转换器,这款软件小编之前也提及过。可以快速的将多种文件转换为PDF文件以及将PDF文件转换为多种格式文档比如PDF转图片,PDF转HTML等等。除了转换文件之外,还有PDF拆分,PDF合并,PDF页面提取众多功能,页面简洁,操作简单易上手,支持批量转换使用起来很方便。
第三款 Okdo Pdf to Html Converter
Okdo Pdf to Html Converter这款软件与前两款软件相似都是独立软件,不需要额外下载插件。可以保留PDF文件的原始布局、图像。文本、矢量图形,软件内置直观操作界面,方便操作。
第四款 iPubsoft PDF to HTML Converter
iPubsoft PDF to HTML Converter这款软件小编主要介绍一个特点,这款软件将PDF格式转换为网页格式后,可以使PDF文件可以被搜索引擎搜索和索引。还可以部分转换PDF文件页面,保留原始图像、文本、表格、图像、超链接等等。
第五款 BlueFox Free PDF to HTML Converter
BlueFox Free PDF to HTML Converter这款软件,小编觉得比较有特点的是可以将文章转换多种语言的PDF文件,可以使全球PDF文件发行更有效,如果没明白的话,小编举个例子就是如果你的PDF文件具有英语内容也是可以轻松转换。
以上就是小编为大家盘点的五款PDF转换为HTML的软件了,每个软件都有自己很独特的方向,小编的话比较喜欢全面的软件,所以使用第二款软件比较多,如果想要部分转换可以选择其他软件。
如果还有想看的盘点,欢迎给小编留言。小编看到后会帮您安排盘点哦!
*请认真填写需求信息,我们会在24小时内与您取得联系。