网页设计师给自己的儿子取名为“HTML”

英国《太阳报》报道，菲律宾一位网页设计师为了向自己的职业致敬，给自己的儿子取名为“Hypertext Mark-up Language（超文本标记语言）”。这位叫做Mac Pascual的父亲表示，给新生儿取个独一无二的名字是他们家族的传统。他对自己的工作充满热情，决定给自己的宝宝取名为HTML。据媒体报道，这个宝宝出生在当地的布拉坎医疗集团合作医院，体重2.25公斤。

6月10日，HTML的姑姑Salie Rayo Pascual拍下了这个可爱侄子的照片，并把照片发布到了Facebook上，标题是“HTML，欢迎来到这个世界”。这篇帖子很快引起了网友们的关注，大家纷纷评论并转发了这个帖子。不过，还是有一些社交媒体用户对这个奇特的名字进行了一番嘲笑，并嘲讽般地建议他给未来的孩子用一些其他的编码缩写来当名字，比如“Results-based management system”、“JavaScript”，或者是“Cascading Style Sheets（CSS）”。还有人对宝宝的名字表示了担忧评论道：“将来，他可能会成为被欺负和被嘲笑的对象。”

HTML的爸爸解释说，他自己的名字“Mac”就是“Macaroni'85”的缩写，而他姐姐的名字是“Spaghetti'88（意大利面）”的缩写。他的姐姐有两个孩子，分别叫“Cheese Pimiento（辣椒奶酪）”和“Parmesan Cheese（帕尔玛奶酪）”，所以他们的小名分别是“Chippy”和“Peewee”。HTML和其他名字不同寻常的婴儿一样，从出生起就成为了人们讨论的话题。特斯拉的首席执行官Elon Musk和Claire Boucher（Grimes）就给自己的儿子取名为“X ? A-12 Musk”，因而上了新闻头条。今年早些时候，模特兼女演员Emily Ratajkowski 通过社交媒体宣布，她将给自己刚出生的宝宝取名为“Sylvester Apollo Bear”。（中国青年网编译报道）

来源：中国青年网

何保持页面样式基本不变的前提下将HTML页面导出为PDF，下面提供一些示例代码，纯属个人原创，如对你有帮助请记得加关注、加收藏、点赞、转发、分享~谢谢~~

基本思路：保持页面样式基本不变，使用 `html2canvas` 将页面转换为图片，然后再通过 `jspdf` 将图片分页导出为PDF文件（中间会遇到图片或文字等内容在分页处被切割开的问题，如何解决了？详见末尾干货)

上基础代码：下面为项目中实际代码截取

<div>
    <!-- 要打印的内容区 -->
    <div ref="contentRef">
        <div class="print-item print-out-flow">这是脱离文档流的内容区域</div>
        <div class="print-item">这是一行内容，也是最小叶子元素内容</div>
    </div>
    <!-- 打印内容容器 -->
    <div ref="printContainerRef" class="print-container"></div>
</div>

/**
  * 1.使用一个隐藏div装载有滚动条的div.innerHTML
  * 2.隐藏div使用position: absolute, z-index: -999, left: -9999px, width: 900px 控制让用户无感知
  * 3.根据需要覆写隐藏div内html样式(例如textarea多行显示有问题, 可以新增一个隐藏的div
  *    包裹textarea的绑定值, 然后在打印样式中覆写样式, 隐藏textarea并显示对应div)
  */
handleExport() {
   // 下面是VUE组件内获取DOM元素代码，将内容放置到打印区（定义的隐藏DIV）中
    const contentRef = this.$refs.contentRef as HTMLElement;
    const printContainerRef = this.$refs.printContainerRef as HTMLElement;
    // 打印区的需额外处理绝对定位值, 调整使得第一个元素的.top值为0, 以便于页面计算
    printContainerRef.innerHTML = contentRef.innerHTML;	
    
    // 所有叶子div元素加上 print-item 样式名, 脱离文档流的额外添加 print-out-flow
    handlePrintItem(printContainerRef);  // 解决多页内容可能被切割问题
    
    html2canvas(printContainerRef, {allowTaint: false, useCORS: true}).then((canvas: any) => {
      const contentHeight = canvas.height;
      const contentWidth = canvas.width;
      // pdf每页显示的内容高度
      const pageHeight = contentWidth / 595.28 * 841.89;
      // 未生成pdf的页面高度
      let offsetHeight = contentHeight;
      // 页面偏移值
      let position = 0;
      // a4纸的尺寸[595.28, 841.89], canvas图片按a4纸大小缩放后的宽高
      const imgWidth = 595.28;
      const imgHeight = 595.28 / contentWidth * contentHeight;

      const dataURL = canvas.toDataURL('image/jpeg', 1.0);
      const doc = new jsPDF('p', 'pt', 'a4');

      if (offsetHeight < pageHeight) {
        doc.addImage(dataURL, 'JPEG', 0, 0, imgWidth, imgHeight);
      } else {
        while (offsetHeight > 0) {
          doc.addImage(dataURL, 'JPEG', 0, position, imgWidth, imgHeight);
          offsetHeight -= pageHeight;
          position -= 841.89;

          if (offsetHeight > 0) {
            doc.addPage();
          }
        }
      }

      doc.save(this.generateReportFileName());
      printContainerRef.innerHTML = '';
    });
}

上干货代码：上面分页导出PDF可能网上能看到类型代码，但绝对找不到下面的代码，纯手搓解决分页元素被切开问题（思路：获取自身定位，如自己刚好在被分页处，则加上一定的margin-top值将内容向下移）

/** 
 * 处理打印元素项, 修复分页后被切割的元素
 * @param printContainerRef 打印内容div容器
 * @param itemClassName 打印最小元素标识类名
 * @param outFlowClassName 脱离文档流的元素标识类名
 */
export function handlePrintItem(
  printContainerRef: HTMLElement,
  itemClassName: string = 'print-item',
  outFlowClassName: string = 'print-out-flow'
): void {
  const rootClientRect = printContainerRef.getBoundingClientRect();
  // 初始化页面相关数据
  const totalHeight = rootClientRect.height;  // 内容总高度
  const a4PageHeight = (printContainerRef.clientWidth / 595.28) * 841.89; // a4纸高度
  let pageNum = Math.ceil(totalHeight / a4PageHeight);  // 总页数
  let addPageHeight = 0;  // 修正被分割元素而增加的页面高度总和
  let currentPage = 1;  // 当前正在处理切割的页面
  const splitItemObj: { [key: number]: HTMLElement[] } = {};  // 内容中各页被切割元素存储对象

  const printItemNodes: NodeListOf<HTMLElement> = printContainerRef.querySelectorAll(`.${itemClassName}`);
  for (let item of printItemNodes) {
    // 如果当前页已经是最后一页, 则中断判断
    if (currentPage >= pageNum) {
      break;
    }

    // 获取元素绝对定位数据
    const clientRect = item.getBoundingClientRect();
    let top = clientRect.top;
    const selfHeight = clientRect.height;
    // 如果当前元素距离顶部高度大于当前页面页脚高度, 则开始判断下一页页脚被切割元素
    if (top > currentPage * a4PageHeight) {
      // 换页前修正上一页被切割元素
      addPageHeight += fixSplitItems(currentPage, a4PageHeight, splitItemObj[currentPage], outFlowClassName);
      pageNum = Math.ceil((totalHeight + addPageHeight) / a4PageHeight);
      top = item.getBoundingClientRect().top;
      currentPage++;
    }
    // 如果元素刚好处于两页之间, 则记录该元素
    if (top > (currentPage - 1) * a4PageHeight && top < currentPage * a4PageHeight && top + selfHeight > currentPage * a4PageHeight) {
      if (!splitItemObj[currentPage]) {
        splitItemObj[currentPage] = [];
      }
      splitItemObj[currentPage].unshift(item);
      // 如果当前元素是最后一个元素, 则直接处理切割元素, 否则交由处理下一页元素时再处理切割
      if (item === printItemNodes[printItemNodes.length - 1]) {
        fixSplitItems(currentPage, a4PageHeight, splitItemObj[currentPage], outFlowClassName);
      }
    }
  }
}

/**
  * 修复当前页所有被切割元素
  * @param currentPage 当前页
  * @param pageHeight 每页高度
  * @param splitElementItems 当前被切割元素数组
  * @param outFlowClassName 脱离文档流的样式类名
  */
function fixSplitItems(
  currentPage: number,
  pageHeight: number,
  splitElementItems: HTMLElement[],
  outFlowClassName: string
): number {
  if (!splitElementItems || !splitElementItems.length) {
    return 0;
  }

  const yMargin = 5;  // y方向距离页眉的距离
  const splitItemsMinTop = getSplitItemsMinTop(splitElementItems);
  if (!splitItemsMinTop) {
    return 0;
  }

  let fixHeight = currentPage * pageHeight - splitItemsMinTop + yMargin;
  const outFlowElement = splitElementItems.find((item) => item.classList.contains(outFlowClassName));
  if (outFlowElement && outFlowElement.parentElement) {
    const parentPreviousElement = outFlowElement.parentElement.previousElementSibling as HTMLElement;
    fixHeight += getMarinTopNum(parentPreviousElement, outFlowElement.parentElement);
    outFlowElement.parentElement.style.marginTop = `${fixHeight}px`;
    return fixHeight;
  }

  splitElementItems.forEach((splitElement) => {
    splitElement.style.marginTop = `${fixHeight}px`;
  });
  return fixHeight;
}

/**
  * 获取被切割元素数组中最小高度值（如一行有多个元素被切割，则选出距离顶部最小的高度值）
  * @param splitElementItems 当前被切割元素数组
  */
function getSplitItemsMinTop(
  splitElementItems: HTMLElement[]
): number | undefined {
  // 获取元素中最小top值作为基准进行修正
  let minTop: number | undefined;
  let minElement: HTMLElement | undefined;
  splitElementItems.forEach((splitElement) => {
    let top = splitElement.getBoundingClientRect().top;
    if (minTop) {
      minTop = top < minTop ? top : minTop;
      minElement = top < minTop ? splitElement : minElement;
    } else {
      minTop = top;
      minElement = splitElement;
    }
  });

  // 修正当前节点及其前面同层级节点的margin值
  if (minTop && minElement) {
    const previousElement = splitElementItems[splitElementItems.length - 1].previousElementSibling as HTMLElement;
    minTop -= getMarinTopNum(previousElement, minElement);
  }
  return minTop;
}

/**
  * 通过前一个兄弟元素和元素自身的位置确认一个距离顶部高度修正值
  * @param previousElement 前一个兄弟元素
  * @param curElement 当前元素
  */
function getMarinTopNum(previousElement: HTMLElement, curElement: HTMLElement): number {
  let preMarginNum = 0;
  let curMarginNum = 0;
  if (previousElement) {
    // 获取外联样式需要getComputedStyle(), 直接.style时对象的值都为空
    const previousMarginBottom = window.getComputedStyle(previousElement).marginBottom;
    preMarginNum = previousMarginBottom ? Number(previousMarginBottom.replace('px', '')) : 0;
  }
  const marginTop = window.getComputedStyle(curElement).marginTop;
  curMarginNum = marginTop ? Number(marginTop.replace('px', '')) : 0;
  return preMarginNum > curMarginNum ? preMarginNum : curMarginNum;
}

以上纯原创！欢迎加关注、加收藏、点赞、转发、分享（代码闲聊站）~

近临近开学了，大家都在忙着准备各种学习的资料，准备在新的学期好好学习，充实自己。小编身边的同学也是如此，最近，小编的同学小丽就遇到了一个很棘手的问题。

她想将一个网页的Python学习的教程打印下来，方便自己来学习，但是上千页的教程，如果通过手动的方式，一个一个的去转成pdf并保存到本地，实在是麻烦的不。

这就是一个html转pdf的问题，其实网上有很多不错的html资源，但是苦于学习起来，不方便！于是小编就跟小丽保证，这点小事包在我身上。今天，小编就跟分享一下如何用Python把html资料变成pdf。

01.抓取的学习资料

如今网上的在线学习资料可谓是多如牛毛，为了方便讲解，小编就利用python3.9.2的中文文档作为演示的例子，来将其抓取并保存到本地，其网页链接如下：

https://docs.python.org/zh-cn/3.9/tutorial/index.html

打开上述链接后，大家会在网页中找到不同内容的链接地址，包括了基础的python字符、python语法等内容。

02.获取网页链接

在上图中，我们需要格外关注的是红色方格标注的链接，每个链接都会跳转到对应的子网页中，而在子网页中，就是我们想要保存的内容。

可以看到，上图中，在python速览子页面中，包含了我们需要提取的文字内容。所以将html内容保存为pdf的第一步便是获取到子页面的链接。由于教程大都是固定内容，因此对于教程的网页，大都采用的是静态页面，在网页源代码中可以很轻松地找到子页面的网页链接。

对于子网页的链接抓取，程序如下图所示:

程序中，通过BeautifulSoup库来解析网页源代码，然后提取所有的子页面链接地址并返回，如果抓取失败，则直接返回None。

03.html转pdf

在得到子网页的链接后，接下来就是将html的子网页保存为pdf文件。小编使用的pdfkit库，pdfkit库可以将网页保存为pdf文档。首先小编来介绍一下pdfkit库的安装。

下载https://github.com/wkhtmltopdf/packaging/releases/download/0.12.6-1/wkhtmltox-0.12.6-1.mxe-cross-win64.7z 并解压到本地文件中。(后台输入：pdf) 直接获取。
将解压文件中的bin文件路径添加到系统变量Path中。
执行pip install pdfkit
执行pip install wkhtmltopdf

按照上述的操作流程，就可以安装pdfkit库。对于pdfkit库的使用，常见的用法有以下三种：

上面的程序主要完成以下几步：

首先需要指定wkhtmltopdf.exe文件的路径；

然后分别通过from_url、from_file和from_string的三种方式来保存为pdf文件；
需要注意的是，from_file和from_url中的第一个参数必须是一个html的字符串或者是html文档的列表；
但是小编通过程序运行发现，from_url第一个参数只能是html的字符串，不能是html的列表。

因此，pdfkit库只能将子网页保存为单独的pdf文档，无法直接通过pdfkit库将所有的子网页拼接成一个完整的pdf文档，小编通过PyPDF2库中的PdfFileMerger类来实现pdf文档的拼接。程序如下图所示。

程序中首先将所有的html网页保存为单独的pdf文档，然后通过PdfFileMerger类对象来实现pdf文档的拼接。最后就可以得到全部的pdf内容。最后我们通过视频的展示，来看一下程序的效果吧。

除此之外，程序不光可以抓取python3.9的中文文档，针对其他的在线文档，只需要对获取网页链接的程序进行修改即可抓取，例如对于Flask中文文档的抓取，程序只需要按照下图进行修改，即可将Flask的在线文档保存为PDF文档。

04.总结

学习Python其实非常有趣，也很有用。因为Python有大量的现成的库，可以帮助我们把工作中的很多琐碎的烦事轻松解决。小编将上述的程序稍加修改，很快就帮阿丽搞定了教程，保存为pdf发送给了她，小编与女神的关系更拉近了一步

在线咨询

上一篇：HTML 简介
下一篇：Jest直通车- react表单上传

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

网页设计师给自己的儿子取名为“HTML”

01.抓取的学习资料

02.获取网页链接

04.总结

您的项目需求