整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

把HTML网页下载为单文件,可离线访问

网页下载下来使用,在日常工作中使用频率还是很高的,有时候确实能解一时之急,我自己就有很窘迫的经历。

我开会的时候,都会把准备好的文档存在局域网,到会议室直接打开就能直接用了。有一次到分公司,由于分公司刚刚成立,内网还没有和母公司连通。结果这下子懵逼了,上不去内网,看不到文档。又是叫同事发过来,又是提发送文件的安全申请,让人着急。

如果把网站保存下来,放在自己的电脑中,既不用担心信息泄露问题,又不用为了看不了文档而着急。

遇到问题,记录下来,然后解决问题,程序员的解决思路永远是自己创造轮子的,接下来就是不断的探索解决方案。

其实下载网页的方式有很多种,其中有几种办法使用的比较多,例如:如果你用Chrome,直接按 Ctrl+s 就可实现。使用这种方法,Chrome会把整个网站,按照编译完成的源码目录结构保存下来。像下面这样:

下载完成的文件直接点击 xxx.html 可以直接离线访问,但是这种方式对目录的依赖结构比较高,怎么理解呢?就是 html 文件和对应文件名的文件夹必须在同一个目录中,才能正常使用。拷贝到其他机器的时候必须要两个同时拷贝才可以,否则就会排版错乱。

如果有十个或者更多的网页需要拷贝或者删除,就会很麻烦,例如我想在其中找到其中几个,复制到其他地方,很容易弄错顺序。

HTML 是一种纯文本格式,它用于排版文字。纯文本文档的意思就是,文档中只包含文字内容,不包含二进制内容,举个例子:打印出的A4纸,只有文字没有图片。而 HTML 想要显示照片等二进制信息,通常都会链接到其他文件,也就是上面文件夹里面的内容。

不过 Chrome 下载文件这种方式也有优点,下载下来的文件可以保持独立性,比如说,我需要这个网页中的一张图片,那么就可以直接到文件夹里面寻找了。

另外还有一种办法,也有很多人再使用。Chrome 在打印网页的时候,会把网页转成 PDF ,然后在进行打印。那么就给我们提供了很明确的思路,把网页直接保存为 PDF ,这样保存下来的网页就只有一个文件。

使用Chrome,直接按下Ctrl+p就可以。然后目标打印机选择 另存为 PDF 。

这个功能很多浏览器都支持

但是这种办法也有很明显的缺点,由于 PDF 是静态文档,网页上的一些动画可能不会正常显示,而且排版也有可能会错乱,这完全靠运气。个人觉得这不是一种很靠谱的方法。

这时候主角来了!有一个工具既可以把网页保存为 html 又可以保持是单文件。他就是 monolith ,你可以在 github 上面找到它,但是源码并没有编译为可执行文件,我把它编译了一下,下面会放上来链接,https://github.com/leconio/Repos/raw/master/monolith.7z。

那么下面就简单说说使用方法:如果你下载我的链接,那么里面有三个文件:

第一个是Mac平台编译出来的,使用方式为:

./monolith 网站地址 > xxx.html

默认情况下 monolith 会把生成的 html 输出到标准输出流,也就是当前终端。使用 > 我们把输出的内容重定向并覆盖到文件。

执行完成之后,在这个目录下面就会有一个对应的文件:xxx.html 。

另外两个是 Windows 平台使用的。为了简化使用,我写了一个 CMD 脚本。直接点击 monolith.cmd ,然后粘贴地址就可以完成下载。

下载完成之后,在本地你会发现只有一个 html 文件。我们打开之后,发现图片和JS等信息都在,而且排版正常。那么就要思考了,我们之前说过,HTML 是放置纯文本信息的,那么图片在哪里呢?

答案显而易见,就在 HTML 文件里面。为了方便小图片传输,有一种叫 Base64 的东西,它可以把二进制信息变成成纯文本。这在使用 Json 传递数据的今天十分常见,它可以减少一次请求(题外话),这里就是用的这个原理。monolith 把图片等二进制内容转为了纯文本,保存在 HTML 文件中。我们在下载的文件源码可以看到:

对比源代码,src 信息已经变成了 base64 格式的图片,就是那串乱码。复制那串乱码,从网上搜一个 base64 转图片工具,粘贴进去,这时会发现就是我们看到的那张图片。这样一来,无论这个网站上有多少个文件,都会保存到一个 HTML 文件里面,而且还能离线使用。

当然,base64 编码的图片比原生图片略大,这可能也是你现在在担心的问题。不过 monolith 会特殊处理文件体积。我们可以看看 Chrome 直接下载和使用 monolith 下载体积相差多少。我们把两种方式下载的网页都进行了 7-Zip 压缩。

我们可以看到,使用 monolith 下载会比 Chrome 直接下载小一倍还多!

最后要说的是局限性,无论那种方法,都几乎不能把视频网站中的视频下载下来。因为现在的视频地址都是 Token 加密的,同理,使用 Token 加密的其他请求信息也无法下载。

比如你可以试试下载其他网站的首页,Logo 和视频都是下载不了的。但是也有解决办法,那就是另外一个领域的事情了,以后有机会说给大家听。

如果这篇文章对您或者您的朋友有帮助,感谢您关注,转发。

融界2024年1月16日消息,据国家知识产权局公告,中信银行股份有限公司申请一项名为“一种基于iText的支持生僻字转换方法及系统”的专利,公开号CN117408230A,申请日期为2023年10月。

专利摘要显示,本发明提供了一种基于iText的支持生僻字转换方法及系统,涉及人工智能技术领域。其中,所述方法包括:获得生僻字字库;获得常规字字库;将所述生僻字字库与所述常规字字库进行组合,获得字库集合;根据所述字库集合对HTML进行字体样式设定,获得HTML信息;将所述字库集合设置到iText中,调用所述iText对所述HTML信息进行PDF转换,获得转换文件。解决了现有技术中存在遇到生成含有生僻字的HTML转换PDF场景时,无法正常完成生僻字转换,出现生僻字变为乱码,且使用升级现有中文字字库的方法不能随时新增生僻字,灵活性差的技术问题。

本文源自金融界

ord作为使用率最高的一款办公软件,它的优势是全球公认的。但是有时候经常会发现别人传过来的文件都PDF格式的,没办法编辑。正是因为PDF有着兼容性最好、色彩还原度最高、打印效果最好、支持平台最多、阅读性最佳等五最优势。所以PDF转Word成了职场中必备的一个技能。虽然说的这么高大尚,其实我们只需借助一款PDF转换器就能解决的事情。

PDF转换器可以支持PDF转Word、PDF转Excel、PDF转PPT、PDF转HTML、PDF转图片等10几种格式之间的互转。而且操作简单,操作效率高,转换效果好。所以人手一款PDF转换器可以说是至关重要的。

在面对pdf文件的时候我们都想将其转换成word文档的格式,因为这样就可以对pdf文件进行编辑啦,但是有不少朋友在将pdf转word的时候会出现乱码的问题,这是怎么回事呢?相信这个乱码是大家一直被疑惑的问题,甚至很多人会购买会员后吐槽转换器差,转换都乱码等等现象。今天我来为大家揭晓最常简单的几种原因:

转换乱码

WHY?

原因一、说明你的pdf文档是扫描版的,也就是由扫描图片制成的pdf文档,由于一般的pdf转换软件无法识别,使用造成出现乱码或者是出现文字重叠;

原因二、pdf文件是不是内嵌了很多字体,如果你PDF文件中内嵌的某个或者某些字体在你的操作系统中 没有,那么转换出来的word文件一般都会出现乱码。虽然说有些文字配上某些字体经过特殊处理会变得风非常有艺术感,但是为了避免不必要的麻烦,我们尽量使用系统常用的几款字体;

字体

原因三、特殊符号一箩筐。这里特别要提醒的是这个全角字符。可能你一时间觉得没有问题。但是细心的朋友肯定会发现这些文字的占位符跟平常的不一样,位置都偏宽了些。虽然在阅读上可能没有很大的区别,但是在转换过程中这也是很大的一方面原因之一。所以我们要养成良好的编辑习惯:半角输入。

特殊符号

特殊符号

原因四、特殊文字个性化十足,经过拼凑组合成一个艺术感很强的图形,很多输入法会有这个功能。

特殊文字

还有几年前的火星文迅速火热起来。有时候甚至你自己都不认识的字。

原因五:外文文档,外文就是指非中文、英文的这些文字。可能有些人是做贸易的,跟其他一些国家进行沟通、或者签合同会使用到,或者是一些外语爱好者、外语培训的情况会出现。

外文

当然别以为只有外国的,我们国内的蒙古文、藏文、维吾尔文、苗文等最为特色代表的。

原因六、网络上经过某些编辑器,很好的的格式经过编辑直接复制黏贴过来的特殊的格式,虽然你在编辑的时候可能觉得并没有不妥。但是经过转换之后可能就会出现这种乱码情况。

特殊格式

学会排查以上几种原因,基本可以完美解决PDF转换乱码。假如您还是没办法解决,请提交人工转换。

假如你学习到了这个新技能不妨转发推荐给你的小伙伴。并动动小指头收藏,以免下次走丢。

我们将定期更新Word、Excel、PPT等操作技巧。pdf转换器供在线免费的PDF转word、PDF转Excel、PDF转PPT服务。