HtmlParse：一款超轻量级的HTML文件解析和爬取工具

tmlParse 是一款基于windwos平台的HTML文档解析工具，可快速构建DOM树，从而轻松实现网页元素的爬取工作。DOM树就是一个HTML文档的节点树，每个节点由：标签（Tag）、属性（Attribute）、文本（Text）三个值来描述。

所谓的HTML文档解析，指的就是如何构建一颗DOM树，只有成功构建出DOM树，才有可能进行后续的数据爬取和分析工作。显然，构建DOM树是比较复杂的过程，因为不是每一个HTML文档都会严格按照规范来书写，因此解析过程需要具有一定容错能力。此外，解析效率也是一个需要考虑的因素，也就是说最好通过一次文档扫描即可建立起DOM树，而不是反复扫描。

下面是HtmlParse介绍。

工具特点

1、绿色纯天然，无任何第三方依赖库，文件大小不到150K； 2、解析速度快，具有一定的HTML语法容错能力，可快速将HMTL文档解析为DOM树； 3、基于命令行参数，可通过不同参数获取指定TAG的属性值和文本内容，从而实现网页爬取功能； 4、可将爬取数据输出为json格式，方便第三方程序进一步分析和使用； 5、可爬取script脚本到指定的js文件中；

下载地址：http://softlee.cn/HtmlParse.zip

使用方法

HtmlParse HtmlPathFile -tag TagName [-attr] [Attribute] [-o] [JsonPathFile]

解析指定的HTML文档，并将文档中指定的标签及属性输出到指定文件中。

HtmlPathFile：必选参数，要解析的HTML文档路径名，如果文件路径中有空格，可使用双引号将文件路径包含；
-tag：必选参数，用于指定要抓取的HTML标签名称； -attr：可选参数，用于指定标签的属性值，如果不指定，则返回该标签的所有属性值； -o：可选参数，用于指定抓取内容输出的文件，可将抓取的内容保存为json格式的文件。如果该参数不指定，则进行控制台输出。如果抓取的是script、style则会保存为js格式文件。

如果要抓取doctype，可使用-tag doctype，将整个doctype内容获取。此时将会忽略-attr指定的任何属性值。

举例说明

1、爬取网页中所有超链接

HtmlParse c:/sina.html -tag a -attr href -o c:/sina.json

解析C盘下的sina.html文档，并提取该文档中的所有超链接到sina.json文件中。其中**-tag a -attr href，用于指定获取超链接标签a的href**属性。

2、爬取网页中所有图片链接

HtmlParse c:/sina.html -tag img -attr src -o c:/sina.json

解析C盘下的sina.html文档，并提取该文档中的所有图片链接到sina.json文件中。

3、爬取网页中所有脚本

HtmlParse c:/sina.html -tag script -o c:/sina.js

解析C盘下的sina.html文档，并提取该文档中的所有脚本函数到sina.js文件中。

输出内容

如果通过-o参数指定输出文件，则会生成一个json格式的文档。 TagName为爬取的标签名称，比如超链接的a，其值是一个json数组，数组中的每个内容为Json对象，每个Json对象，有属性和文本构成。如果-attr 指定了要爬取的属性，则AttrName为指定的属性名称，比如href或src。text为该标签的文本内容，有些标签不存在文本内容，比如img、meta等，则该值为空。json格式如下：

{
  "TagName":
  {
     {"AttrName":"AttrValue1", "text":"text1"}
     {"AttrName":"AttrValue1", "text":"text2"}
  }
}

下面是一个sina网页的所有超链接json

{
 "a": [{
  "href": "javascript：;",
  "text": "设为首页"
 }, {
  "href": "javascript：;",
  "text": "我的菜单"
 }, {
  "href": "https://sina.cn/",
  "text": "手机新浪网"
 }, {
  "href": "",
  "text": "移动客户端"
 }, {
  "href": "https://c.weibo.cn/client/guide/download",
  "text": "新浪微博"
 }, {
  "href": "https://so.sina.cn/palmnews/web-sinanews-app-download.d.html",
  "text": "新浪新闻"
 }, {
  "href": "https://finance.sina.com.cn/mobile/comfinanceweb.shtml",
  "text": "新浪财经"
 }, {
  "href": "https://m.sina.com.cn/m/sinasports.shtml",
  "text": "新浪体育"
 }, {
  "href": "https://tousu.sina.com.cn/about_app/index?frompage=heimaopc",
  "text": "黑猫投诉"
 }, {
  "href": "http://blog.sina.com.cn/lm/z/app/",
  "text": "新浪博客"
 }, {
  "href": "https://games.sina.com.cn/o/kb/12392.shtml",
  "text": "新浪游戏"
 }, {
  "href": "https://zhongce.sina.com.cn/about/app",
  "text": "新浪众测"
 }, {
  "href": "https://mail.sina.com.cn/client/mobile/index.php?suda-key=mail_app&suda-value=login",
  "text": "新浪邮箱客户端"
 }, {
  "href": "javascript：;",
  "text": "关闭置顶"
 }, {

来源：https://www.cnblogs.com/softlee/p/16374079.html

解析HTML文档，可以使用一些编程语言中的HTML解析库或工具。以下是一些常用的方法：

使用Python中的BeautifulSoup库：BeautifulSoup是一个功能强大的HTML解析库，可以帮助你从HTML文档中提取数据。你可以使用pip安装BeautifulSoup，然后使用它的解析器来解析HTML文档。

from bs4 import BeautifulSoup

# 读取HTML文档
with open('example.html', 'r') as file:
    html = file.read()

# 创建BeautifulSoup对象
soup = BeautifulSoup(html, 'html.parser')

# 使用BeautifulSoup对象提取数据
# 例如，提取所有的链接
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

使用JavaScript中的DOM解析器：如果你在浏览器环境中，可以使用JavaScript的DOM解析器来解析HTML文档。你可以使用document对象来访问和操作HTML元素。

// 读取HTML文档
var html = document.documentElement.innerHTML;

// 使用DOM解析器提取数据
// 例如，提取所有的链接
var links = document.getElementsByTagName('a');
for (var i = 0; i < links.length; i++) {
    console.log(links[i].getAttribute('href'));
}

使用其他编程语言的HTML解析库：除了Python和JavaScript，还有许多其他编程语言也有自己的HTML解析库，例如Java中的Jsoup、Ruby中的Nokogiri等。你可以根据自己的编程语言选择适合的HTML解析库来解析HTML文档。

无论你选择哪种方法，解析HTML文档的关键是了解HTML的结构和标签，并使用相应的解析器或工具来提取所需的数据。

当你解析HTML文档时，你可能会遇到以下一些常见的任务和技术：

选择器：使用选择器可以方便地定位和提取HTML文档中的特定元素。例如，你可以使用CSS选择器来选择具有特定类名或ID的元素，或者使用XPath来选择具有特定属性或层次结构的元素。
提取数据：一旦你定位到了要提取的元素，你可以使用相应的方法或属性来获取元素的文本内容、属性值或其他相关信息。例如，你可以使用getText()方法来获取元素的文本内容，使用getAttribute()方法来获取元素的属性值。
遍历文档：HTML文档通常是一个树状结构，你可以使用遍历方法来访问和操作文档中的不同元素。例如，你可以使用递归或循环来遍历文档的子元素、父元素或兄弟元素。
处理嵌套结构：HTML文档中的元素可能会有嵌套的结构，你需要处理这些嵌套关系来正确地提取数据。例如，你可以使用递归方法来处理嵌套的列表、表格或嵌套的div元素。
处理特殊情况：在解析HTML文档时，可能会遇到一些特殊情况，例如处理动态生成的内容、处理特殊字符或处理错误的HTML结构。你需要根据具体情况选择合适的方法来处理这些特殊情况。

总的来说，解析HTML文档需要一定的HTML知识和编程技巧。你需要了解HTML的结构和标签，选择合适的解析器或工具，使用选择器来定位元素，提取所需的数据，并处理特殊情况。通过不断练习和实践，你将能够更熟练地解析HTML文档并提取所需的数据。

览器解析HTML文件的过程是网页呈现的关键步骤之一。具体介绍如下：

HTML文档的接收和预处理

网络请求处理：当用户输入URL或点击链接时，浏览器发起HTTP请求，服务器响应并返回HTML文件。此过程中，浏览器需要处理DNS查询、建立TCP连接等底层网络通信操作。
预解析优化：为了提高性能，现代浏览器在主线程解析HTML之前会启动一个预解析线程，提前下载HTML中链接的外部CSS和JS文件。这一步骤确保了后续渲染过程的顺畅进行。

解析为DOM树

词法分析和句法分析：浏览器的HTML解析器通过词法分析将HTML文本标记转化为符号序列，然后通过句法分析器按照HTML规范构建出DOM树。每个节点代表一个HTML元素，形成了多层次的树状结构。
生成对象接口：生成的DOM树是页面元素的结构化表示，提供了操作页面元素的接口，如JavaScript可以通过DOM API来动态修改页面内容和结构。

CSS解析与CSSOM树构建

CSS文件加载与解析：浏览器解析HTML文件中的<link>标签引入的外部CSS文件和<style>标签中的内联CSS，生成CSSOM树。CSSOM树反映了CSS样式的层级和继承关系。
CSS属性计算：包括层叠、继承等，确保每个元素对应的样式能够被准确计算。这些计算过程为后续的布局提供必要的样式信息。

JavaScript加载与执行

阻塞式加载：当解析器遇到<script>标签时，它会停止HTML的解析，转而先加载并执行JavaScript代码。这是因为JS可能会修改DOM结构或CSSOM树，从而影响已解析的部分。
异步和延迟加载：为了不影响页面的初步渲染，可以采用async或defer属性来异步加载JS文件，这样可以在后台进行JS的加载和执行，而不阻塞HTML解析。

渲染树的构建

合并DOM树和CSSOM树：有了DOM树和CSSOM树后，浏览器将它们组合成渲染树，这个树只包含显示界面所需的DOM节点及对应的样式信息。
不可见元素的排除：渲染树会忽略例如<head>、<meta>等不可见元素，只关注<body>内的可视化内容。

布局计算（Layout）

元素位置和尺寸确定：浏览器从渲染树根节点开始，递归地计算每个节点的精确位置和尺寸，这个过程也被称为“回流”或“重排”，是后续绘制的基础。
布局过程的优化：现代浏览器会尽量优化布局过程，例如通过流式布局的方式减少重复计算，确保高效地完成布局任务。

绘制（Paint）

像素级绘制：绘制是一个将布局计算后的各元素绘制成像素点的过程。这包括文本、颜色、边框、阴影以及替换元素的绘制。
层次化的绘制：为了高效地更新局部内容，浏览器会将页面分成若干层次（Layer），对每一层分别进行绘制，这样只需更新变化的部分。

因此，我们开发中要注意以下几点：

避免过度使用全局脚本：尽量减少使用全局脚本或者将它们放在文档底部，以减少对HTML解析的阻塞。
合理组织CSS和使用CSS预处理器：合理组织CSS文件的结构和覆盖规则，利用CSS预处理器进行模块化管理。
利用浏览器缓存机制：通过设置合理的缓存策略，减少重复加载相同资源，提升二次访问的体验。
优化图片和多媒体资源：适当压缩图片和优化多媒体资源的加载，减少网络传输时间和渲染负担。

综上所述，浏览器解析HTML文件是一个复杂而高度优化的过程，涉及从网络获取HTML文档到最终将其渲染到屏幕上的多个步骤。开发者需要深入理解这些步骤，以优化网页性能和用户体验。通过合理组织HTML结构、优化资源加载顺序、减少不必要的DOM操作和合理安排CSS和JavaScript的加载与执行，可以显著提升页面加载速度和运行效率。

在线咨询

上一篇：蓝易云 - HTTP/HTTPS以及XSS攻击详解
下一篇：HTML常用字体标签：揭秘HTML字体标签，让你的网页“字”得其乐！

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。