把HTML网页下载为单文件，可离线访问

网页下载下来使用，在日常工作中使用频率还是很高的，有时候确实能解一时之急，我自己就有很窘迫的经历。

我开会的时候，都会把准备好的文档存在局域网，到会议室直接打开就能直接用了。有一次到分公司，由于分公司刚刚成立，内网还没有和母公司连通。结果这下子懵逼了，上不去内网，看不到文档。又是叫同事发过来，又是提发送文件的安全申请，让人着急。

如果把网站保存下来，放在自己的电脑中，既不用担心信息泄露问题，又不用为了看不了文档而着急。

遇到问题，记录下来，然后解决问题，程序员的解决思路永远是自己创造轮子的，接下来就是不断的探索解决方案。

其实下载网页的方式有很多种，其中有几种办法使用的比较多，例如：如果你用Chrome，直接按 Ctrl+s 就可实现。使用这种方法，Chrome会把整个网站，按照编译完成的源码目录结构保存下来。像下面这样：

下载完成的文件直接点击 xxx.html 可以直接离线访问，但是这种方式对目录的依赖结构比较高，怎么理解呢？就是 html 文件和对应文件名的文件夹必须在同一个目录中，才能正常使用。拷贝到其他机器的时候必须要两个同时拷贝才可以，否则就会排版错乱。

如果有十个或者更多的网页需要拷贝或者删除，就会很麻烦，例如我想在其中找到其中几个，复制到其他地方，很容易弄错顺序。

HTML 是一种纯文本格式，它用于排版文字。纯文本文档的意思就是，文档中只包含文字内容，不包含二进制内容，举个例子：打印出的A4纸，只有文字没有图片。而 HTML 想要显示照片等二进制信息，通常都会链接到其他文件，也就是上面文件夹里面的内容。

不过 Chrome 下载文件这种方式也有优点，下载下来的文件可以保持独立性，比如说，我需要这个网页中的一张图片，那么就可以直接到文件夹里面寻找了。

另外还有一种办法，也有很多人再使用。Chrome 在打印网页的时候，会把网页转成 PDF ，然后在进行打印。那么就给我们提供了很明确的思路，把网页直接保存为 PDF ，这样保存下来的网页就只有一个文件。

使用Chrome，直接按下Ctrl+p就可以。然后目标打印机选择另存为 PDF 。

这个功能很多浏览器都支持

但是这种办法也有很明显的缺点，由于 PDF 是静态文档，网页上的一些动画可能不会正常显示，而且排版也有可能会错乱，这完全靠运气。个人觉得这不是一种很靠谱的方法。

这时候主角来了！有一个工具既可以把网页保存为 html 又可以保持是单文件。他就是 monolith ，你可以在 github 上面找到它，但是源码并没有编译为可执行文件，我把它编译了一下，下面会放上来链接，https://github.com/leconio/Repos/raw/master/monolith.7z。

那么下面就简单说说使用方法：如果你下载我的链接，那么里面有三个文件：

第一个是Mac平台编译出来的，使用方式为：

./monolith 网站地址 > xxx.html

默认情况下 monolith 会把生成的 html 输出到标准输出流，也就是当前终端。使用 > 我们把输出的内容重定向并覆盖到文件。

执行完成之后，在这个目录下面就会有一个对应的文件：xxx.html 。

另外两个是 Windows 平台使用的。为了简化使用，我写了一个 CMD 脚本。直接点击 monolith.cmd ，然后粘贴地址就可以完成下载。

下载完成之后，在本地你会发现只有一个 html 文件。我们打开之后，发现图片和JS等信息都在，而且排版正常。那么就要思考了，我们之前说过，HTML 是放置纯文本信息的，那么图片在哪里呢？

答案显而易见，就在 HTML 文件里面。为了方便小图片传输，有一种叫 Base64 的东西，它可以把二进制信息变成成纯文本。这在使用 Json 传递数据的今天十分常见，它可以减少一次请求（题外话），这里就是用的这个原理。monolith 把图片等二进制内容转为了纯文本，保存在 HTML 文件中。我们在下载的文件源码可以看到：

对比源代码，src 信息已经变成了 base64 格式的图片，就是那串乱码。复制那串乱码，从网上搜一个 base64 转图片工具，粘贴进去，这时会发现就是我们看到的那张图片。这样一来，无论这个网站上有多少个文件，都会保存到一个 HTML 文件里面，而且还能离线使用。

当然，base64 编码的图片比原生图片略大，这可能也是你现在在担心的问题。不过 monolith 会特殊处理文件体积。我们可以看看 Chrome 直接下载和使用 monolith 下载体积相差多少。我们把两种方式下载的网页都进行了 7-Zip 压缩。

我们可以看到，使用 monolith 下载会比 Chrome 直接下载小一倍还多！

最后要说的是局限性，无论那种方法，都几乎不能把视频网站中的视频下载下来。因为现在的视频地址都是 Token 加密的，同理，使用 Token 加密的其他请求信息也无法下载。

比如你可以试试下载其他网站的首页，Logo 和视频都是下载不了的。但是也有解决办法，那就是另外一个领域的事情了，以后有机会说给大家听。

如果这篇文章对您或者您的朋友有帮助，感谢您关注，转发。

融界2024年1月16日消息，据国家知识产权局公告，中信银行股份有限公司申请一项名为“一种基于iText的支持生僻字转换方法及系统”的专利，公开号CN117408230A，申请日期为2023年10月。

专利摘要显示，本发明提供了一种基于iText的支持生僻字转换方法及系统，涉及人工智能技术领域。其中，所述方法包括：获得生僻字字库；获得常规字字库；将所述生僻字字库与所述常规字字库进行组合，获得字库集合；根据所述字库集合对HTML进行字体样式设定，获得HTML信息；将所述字库集合设置到iText中，调用所述iText对所述HTML信息进行PDF转换，获得转换文件。解决了现有技术中存在遇到生成含有生僻字的HTML转换PDF场景时，无法正常完成生僻字转换，出现生僻字变为乱码，且使用升级现有中文字字库的方法不能随时新增生僻字，灵活性差的技术问题。

本文源自金融界

ord作为使用率最高的一款办公软件，它的优势是全球公认的。但是有时候经常会发现别人传过来的文件都PDF格式的，没办法编辑。正是因为PDF有着兼容性最好、色彩还原度最高、打印效果最好、支持平台最多、阅读性最佳等五最优势。所以PDF转Word成了职场中必备的一个技能。虽然说的这么高大尚，其实我们只需借助一款PDF转换器就能解决的事情。

PDF转换器可以支持PDF转Word、PDF转Excel、PDF转PPT、PDF转HTML、PDF转图片等10几种格式之间的互转。而且操作简单，操作效率高，转换效果好。所以人手一款PDF转换器可以说是至关重要的。

在面对pdf文件的时候我们都想将其转换成word文档的格式，因为这样就可以对pdf文件进行编辑啦，但是有不少朋友在将pdf转word的时候会出现乱码的问题，这是怎么回事呢？相信这个乱码是大家一直被疑惑的问题，甚至很多人会购买会员后吐槽转换器差，转换都乱码等等现象。今天我来为大家揭晓最常简单的几种原因：

转换乱码

WHY?

原因一、说明你的pdf文档是扫描版的，也就是由扫描图片制成的pdf文档，由于一般的pdf转换软件无法识别，使用造成出现乱码或者是出现文字重叠；

原因二、pdf文件是不是内嵌了很多字体，如果你PDF文件中内嵌的某个或者某些字体在你的操作系统中没有，那么转换出来的word文件一般都会出现乱码。虽然说有些文字配上某些字体经过特殊处理会变得风非常有艺术感，但是为了避免不必要的麻烦，我们尽量使用系统常用的几款字体；

字体

原因三、特殊符号一箩筐。这里特别要提醒的是这个全角字符。可能你一时间觉得没有问题。但是细心的朋友肯定会发现这些文字的占位符跟平常的不一样，位置都偏宽了些。虽然在阅读上可能没有很大的区别，但是在转换过程中这也是很大的一方面原因之一。所以我们要养成良好的编辑习惯：半角输入。

特殊符号

原因四、特殊文字个性化十足，经过拼凑组合成一个艺术感很强的图形，很多输入法会有这个功能。

特殊文字

还有几年前的火星文迅速火热起来。有时候甚至你自己都不认识的字。

原因五：外文文档，外文就是指非中文、英文的这些文字。可能有些人是做贸易的，跟其他一些国家进行沟通、或者签合同会使用到，或者是一些外语爱好者、外语培训的情况会出现。

外文

当然别以为只有外国的，我们国内的蒙古文、藏文、维吾尔文、苗文等最为特色代表的。

原因六、网络上经过某些编辑器，很好的的格式经过编辑直接复制黏贴过来的特殊的格式，虽然你在编辑的时候可能觉得并没有不妥。但是经过转换之后可能就会出现这种乱码情况。

特殊格式

学会排查以上几种原因，基本可以完美解决PDF转换乱码。假如您还是没办法解决，请提交人工转换。

假如你学习到了这个新技能不妨转发推荐给你的小伙伴。并动动小指头收藏，以免下次走丢。

我们将定期更新Word、Excel、PPT等操作技巧。pdf转换器供在线免费的PDF转word、PDF转Excel、PDF转PPT服务。

在线咨询

上一篇：「HTML一」 html基础
下一篇：防止网站被iframe内框架调用的方法

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

把HTML网页下载为单文件，可离线访问

您的项目需求