一个支持将html转为PDF、图片，且支持PDF加水

一个支持将html转为PDF、图片，且支持PDF加水印的项目

信首发于微信公众号「GitHub精选」，欢迎大家关注。

大家好，我是章鱼猫。

今天给大家推荐的这个开源项目是来自于读者的投稿，我超级喜欢这个开源项目。尤其是做小程序开发的时候，经常遇到将内容生成图片分享到朋友圈。这个开源项目就能够解决你的问题，可以将 html 转为图片，还可以转为 PDF ，还支持加水印。

这个开源项目就是：Doctron，它是基于 Docker、无状态、简单、快速、高质量的文档转换服务。目前支持将 html 转为 pdf、图片 (使用 chrome (Chromium) 浏览器内核，保证转换质量)。支持 PDF 添加水印。

作者认为目前开源界没有较好的服务器端 HTML 转 PDF、图片的工具，像 wkhtmltopdf、dompdf、mpdf 等这些比较出名的转换工具，对一些简单 CSS 样式的 HTML 转换能做到不失真，对一些有复杂 CSS 样式的 HTML 不能做到所见即所得。Doctron 使用 chrome 内核恰巧弥补了这些缺点。

开源项目作者还提供了体验网站：

您可以打开下面的链接在线体验转换质量，由于服务器配置较低，以及网络原因，转换可能会慢一点，实际部署到服务器速度会不一样。

项目体验地址：http://doctron.lampnick.com/

开源项目特性如下：

使用 chrome 内核保证高质量将 HTML 转为 pdf / 图片。
简易部署 (提供 docker 镜像，Dockerfile 以及 k8s yaml 配置文件)。
支持丰富的转换参数。
转为 pdf 和图片支持自定义大小。
无状态服务支持。

安装和使用步骤如下：

开源项目地址：https://github.com/lampnick/doctron

开源项目作者：lampnick

公众号：「GitHub 精选」，值得你关注，每天都分享开源项目，挖掘开源的价值。

迎点击右上角关注小编，除了分享技术文章之外还有很多福利，私信学习资料可以领取包括不限于Python实战演练、PDF电子文档、面试集锦、学习资料等。

前言

将图片的每个像素用文字代替，最后生成一个HTML文档，在浏览器中可以显示出图像，只不过图像全是由文字组成的。

实现这样的效果并不复杂，只不过是用标签代替像素而已，接下来我会演示如何用 PIL/Pillow 库去实现这样的效果。

PIL 图像处理库

PIL（Python Imaging Library）是 Python 平台的图像处理标准库。不过 PIL 暂不支持 Python3，可以用 Pillow 代替，API是相同的。

安装 PIL 库

如果你安装了 pip 的话可以直接输入 pip install PIL 命令安装 Pillow。

或者在 PyCharm 中打开 [File] >> [settings] >> [project github] >> [project interpreter] 添加标准库：

PIL 使用方法

图片处理过程

图片转换成网页的过程，可以分成五个步骤。首先要选择一个合适的HTML模板，控制好字体的大小和字符间的间距。

然后通过 Python 的网络访问模块，根据URL获取图片。接着使用 PIL 模块载入二进制图片，将图片压缩到合适的尺寸。

遍历图片的每一个像素，得到该像素的颜色值，应用到HTML的标签上。最后把字符串信息输出到文件中，生成HTML文档。

定制模板

大括号代表一个占位符，最后会被替换成实际内容，双大括号中的内容则不会被替换。

获取图片

通过 URL 得到 byte 数组形式的图片。

from urllib import request
url='https://pic.cnblogs.com/avatar/875028/20160405220401.png'
binary=request.urlopen(url).read()

处理图片

byte 类型的图片需要通过 BytesIO 转换为 string 类型，才能被 PIL 处理。

from PIL import Image
from io import BytesIO
img=Image.open(BytesIO(binary))
img.thumbnail((100, 100)) # 图片压缩

生成HTML

使用<font>标签包裹文字，并根据相应像素的RGB值，设置<font>标签的color属性。

piexl=img.load() # 获取像素信息
width, height=img.size # 获取图像尺寸
body, word='', '博客园'
font='<font color="{color}">{word}</font>'
for y in range(height):
 for x in range(width):
 r, g, b=piexl[x, y] # 获取像素RGB值
 body +=font.format(
 color='#{:02x}{:02x}{:02x}'.format(r, g, b),
 word=word[((y * width + x) % len(word))]
 )
 body +='\n<br />\n'

导出网页

向HTML模板中填充处理完成的数据，使用文件流将字符串以utf8格式输出到文档。

html=TEMPLATE.format(title=word, body=body)
fo=open('index.html', 'w', encoding='utf8')
fo.write(html)
fo.close()

img2html

wo把上面五个步骤封装了起来，这样一来就可以很方便的调用了。

from io import BytesIO
from PIL import Image
from PIL import ImageFilter
from urllib import request
TEMPLATE='''
<!DOCTYPE html>
<html>
<head>
 <meta charset="UTF-8">
 <title>{title}</title>
 <style>
 body {{
 line-height: 1em;
 letter-spacing: 0;
 font-size: 0.6rem;
 background: black;
 text-align: center;
 min-width: {size}em;
 }}
 </style>
</head>
<body>
 {body}
</body>
</html>
'''
class Converter(object):
 def __init__(self, word='田', size=100):
 self.word, self.size=word, size
 self.font='<font color="{color}">{word}</font>'
 # 读取url内容
 def __network(self, url):
 return request.urlopen(url).read()
 # 处理图片信息
 def __handle(self, binary):
 img=Image.open(BytesIO(binary)) # 打开制图片
 img.thumbnail((self.size, self.size)) # 压缩图片
 img.filter(ImageFilter.DETAIL) # 图片增强
 return img
 # 分析图片像素
 def __analysis(self, img):
 body=''
 piexls=img.load()
 width, height=img.size
 for y in range(height):
 for x in range(width):
 r, g, b=piexls[x, y]
 body +=self.font.format(
 color='#{:02x}{:02x}{:02x}'.format(r, g, b),
 word=self.word[((y * width + x) % len(self.word))]
 )
 body +='\n<br />\n'
 return body
 # 写入文件内容
 def __writefile(self, file, str):
 fo=open(file, 'w', encoding='utf8')
 try:
 fo.write(str)
 except IOError:
 raise Exception
 finally:
 fo.close()
 # 生成html文档
 def buildDOC(self, url, output):
 try:
 binary=self.__network(url)
 img=self.__handle(binary)
 html=TEMPLATE.format(
 title=self.word,
 body=self.__analysis(img),
 size=self.size
 ) # 向模板中填充数据
 self.__writefile(output, html)
 except Exception as err:
 print('Error:', err)
 return False
 else:
 print('Successful!')
 return True

导入 img2html.Converter，调用 buildDOC(url, out) 方法

程序会在当前目录生成 index.html 文件，需要用浏览器打开后才可以看到效果。

from img2html import Converter
conv=Converter('卷福', 120)
url='http://www.sznews.com/ent/images/attachement/jpg/site3/20140215/001e4f9d7bf91469078115.jpg'
out='index.html'
conv.buildDOC(url, out)

转换效果

理化老师在日常教学中，经常要撰写各种公式，但由于公式并非简单的字符，并不能直接在Word中输入，所以输入那些非常见的公式，对老师们来说是个让人头痛的难题。不过我们可以借助Mathpix快速将手写的公式扫描识别，再通过LaTeX编辑处理，最后再导入大家常用的Office软件中。

快速识别数理化公式

Mathpix可以到mathpix.com下载（支持Windows、苹果及Linux），安装启动后就可以使用它的OCR识别功能了。由于Mathpix使用的是在线识别的方式，因此在使用过程中请确保本机联网。

首先将需要输入的公式写在普通的白纸上，为了识别更为准确，书写时一定要注意公式的规范、工整，字体清晰。然后使用微信拍摄传输到电脑上，在电脑微信端打开书写的公式图片（图1）。

图1 截图识别

此时按下Ctrl+Alt+M组合键进行截图，Mathpix即会快速识别，并自动输出可编辑的公式。

精确修正识别误差

Mathpix对手写公式的识别还有丝许误差，如本例中的平均速度V的上划线以及“t/2”都没有正确识别（图2）。

图2 查看识别结果

不过Mathpix的识别结果是可以编辑的LaTeX语法，我们可以直接双击下方的命令，然后在编辑窗口进行修改。熟悉LaTeX语法朋友可以看到，公式中的各种位置的字符是通过可以编辑的语法命令组成的。比如我们要将V更改为平均速度，那么只要在t字母之前输入“\overline{V}”代

对于“1/2t”的修改，按提示将原来语法中的t更改为“{\frac{t}{2}}”，这样就可以获得准确的公式了。完成上述的修改后点击“Copy Png”，将当前公式复制为图片并粘贴到Word等软件中即可使用了（图4）。

图4 复制图片到Word中

平时很多公式，老师们是通过互联网的搜索获取的，我们同样可以在打开的网页中直接进行截取并识别，然后在Mathpix中进行精确修改，从而将网上的图片公式快速转化为可编辑的公式了（图5）。

图5 识别网页公式

直接手工输入公式

既然Mathpix的公式实际是由命令代码组成的，那么我们直接编辑代码也可以生成各种想要的公式。同时按下Ctrl+Alt+M组合键激活Mathpix，接着在其编辑窗口输入自己需要生成的公式代码，主窗口上方即可显示相应的公式了（图6）。LATEX数学公式基本语法可以打开www.cnblogs.com/houkai/p/3399646.html查看，大家可以根据其中的介绍自己“写”出各种需要的格式。

图6 输入代码生成公式

小提示：

★除了对公式进行识别外，Mathpix还可以对其他外文语言进行识别。比如一些无法编辑的英文PDF文档，或者某些图片上的文字需要转化为可编辑的文字。同上打开PDF文档后按下Ctrl+Alt+M组合键激活截图，截取PDF或者图片上的英文语句后就会自动转化为可以编辑的文本，按提示将其复制到记事本或者Word中进行编辑即可，同样对于其他我们无法识别的语言文本，如某些图片上的法语、德语，使用Mathpix进行识别后复制到百度翻译进行翻译即可（图7）。

图7 识别英文语句

通过上述介绍可以知道，Mathpix是通过扫描图片公式变为可编辑的LATEX语法实现公式的编辑和输入的，它和Word里的插入公式不同。在Word里我们只能输入有限、系统预置的公式，并且只能进行简单的编辑。虽然Word还提供一个手写输入公式的方法让我们实现自定义输入，但是和Mathpix相比，识别率更低，显然无法和直接可以编辑的LATEX语法相比，强烈建议经常需要输入公式的教师们使用Mathpix进行公式的识别和输入（图8）。

图8 Word中手写输入公式识别率低

在线咨询

上一篇：WebBrowser控件自动提交表单
下一篇：Shopify如何调取开放接口实现页面更新

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。