HtmlParse：一款超轻量级的HTML文件解析和爬取工具

tmlParse 是一款基于windwos平台的HTML文档解析工具，可快速构建DOM树，从而轻松实现网页元素的爬取工作。DOM树就是一个HTML文档的节点树，每个节点由：标签（Tag）、属性（Attribute）、文本（Text）三个值来描述。

所谓的HTML文档解析，指的就是如何构建一颗DOM树，只有成功构建出DOM树，才有可能进行后续的数据爬取和分析工作。显然，构建DOM树是比较复杂的过程，因为不是每一个HTML文档都会严格按照规范来书写，因此解析过程需要具有一定容错能力。此外，解析效率也是一个需要考虑的因素，也就是说最好通过一次文档扫描即可建立起DOM树，而不是反复扫描。

下面是HtmlParse介绍。

工具特点

1、绿色纯天然，无任何第三方依赖库，文件大小不到150K； 2、解析速度快，具有一定的HTML语法容错能力，可快速将HMTL文档解析为DOM树； 3、基于命令行参数，可通过不同参数获取指定TAG的属性值和文本内容，从而实现网页爬取功能； 4、可将爬取数据输出为json格式，方便第三方程序进一步分析和使用； 5、可爬取script脚本到指定的js文件中；

下载地址：http://softlee.cn/HtmlParse.zip

使用方法

HtmlParse HtmlPathFile -tag TagName [-attr] [Attribute] [-o] [JsonPathFile]

解析指定的HTML文档，并将文档中指定的标签及属性输出到指定文件中。

HtmlPathFile：必选参数，要解析的HTML文档路径名，如果文件路径中有空格，可使用双引号将文件路径包含；
-tag：必选参数，用于指定要抓取的HTML标签名称； -attr：可选参数，用于指定标签的属性值，如果不指定，则返回该标签的所有属性值； -o：可选参数，用于指定抓取内容输出的文件，可将抓取的内容保存为json格式的文件。如果该参数不指定，则进行控制台输出。如果抓取的是script、style则会保存为js格式文件。

如果要抓取doctype，可使用-tag doctype，将整个doctype内容获取。此时将会忽略-attr指定的任何属性值。

举例说明

1、爬取网页中所有超链接

HtmlParse c:/sina.html -tag a -attr href -o c:/sina.json

解析C盘下的sina.html文档，并提取该文档中的所有超链接到sina.json文件中。其中**-tag a -attr href，用于指定获取超链接标签a的href**属性。

2、爬取网页中所有图片链接

HtmlParse c:/sina.html -tag img -attr src -o c:/sina.json

解析C盘下的sina.html文档，并提取该文档中的所有图片链接到sina.json文件中。

3、爬取网页中所有脚本

HtmlParse c:/sina.html -tag script -o c:/sina.js

解析C盘下的sina.html文档，并提取该文档中的所有脚本函数到sina.js文件中。

输出内容

如果通过-o参数指定输出文件，则会生成一个json格式的文档。 TagName为爬取的标签名称，比如超链接的a，其值是一个json数组，数组中的每个内容为Json对象，每个Json对象，有属性和文本构成。如果-attr 指定了要爬取的属性，则AttrName为指定的属性名称，比如href或src。text为该标签的文本内容，有些标签不存在文本内容，比如img、meta等，则该值为空。json格式如下：

{
  "TagName":
  {
     {"AttrName":"AttrValue1", "text":"text1"}
     {"AttrName":"AttrValue1", "text":"text2"}
  }
}

下面是一个sina网页的所有超链接json

{
 "a": [{
  "href": "javascript：;",
  "text": "设为首页"
 }, {
  "href": "javascript：;",
  "text": "我的菜单"
 }, {
  "href": "https://sina.cn/",
  "text": "手机新浪网"
 }, {
  "href": "",
  "text": "移动客户端"
 }, {
  "href": "https://c.weibo.cn/client/guide/download",
  "text": "新浪微博"
 }, {
  "href": "https://so.sina.cn/palmnews/web-sinanews-app-download.d.html",
  "text": "新浪新闻"
 }, {
  "href": "https://finance.sina.com.cn/mobile/comfinanceweb.shtml",
  "text": "新浪财经"
 }, {
  "href": "https://m.sina.com.cn/m/sinasports.shtml",
  "text": "新浪体育"
 }, {
  "href": "https://tousu.sina.com.cn/about_app/index?frompage=heimaopc",
  "text": "黑猫投诉"
 }, {
  "href": "http://blog.sina.com.cn/lm/z/app/",
  "text": "新浪博客"
 }, {
  "href": "https://games.sina.com.cn/o/kb/12392.shtml",
  "text": "新浪游戏"
 }, {
  "href": "https://zhongce.sina.com.cn/about/app",
  "text": "新浪众测"
 }, {
  "href": "https://mail.sina.com.cn/client/mobile/index.php?suda-key=mail_app&suda-value=login",
  "text": "新浪邮箱客户端"
 }, {
  "href": "javascript：;",
  "text": "关闭置顶"
 }, {

来源：https://www.cnblogs.com/softlee/p/16374079.html

TML即一切，所有打算进行Web编程的人都应该熟悉HTML，并了解如何解析HTML。尤其对前端工程师来说这更是基础，本文我们就来介绍一下JS下常见的HTML解析库。

DOMParser

JavaScript和jQuery的DOM操作功能非常适合简单HTML片段的解析。在实际编程中，如果要以编程方式解析DOM完整HTML或XML，则需要一个更好的解决方案，那就是DOMParser，它是所有现代数浏览器都支持的功能。

通过使用DOMParser，可以轻松解析HTML文档。但是，一般需要通过欺骗浏览器来实现解析，比如，通过向当前文档添加新元素。

DOMParser的用法非常简单明了：

let domParser = new DOMParser();
let doc = domParser.parseFromString(stringContainingXMLSource, "application/xml");
domParser = new DOMParser();
doc = domParser.parseFromString(stringContainingSVGSource, "image/svg+xml");
domParser = new DOMParser();
doc = domParser.parseFromString(stringContainingHTMLSource, "text/html");

Cheerio

专为服务器设计的核心jQuery的快速，灵活和精致的实现。

Cheerio看起来像jQuery，但是不支持浏览器。Cheerio可以解析HTML并使其易于操作，但不会像浏览器中那样解释HTML，解析出与浏览器不同的内容，并且解析的结果不会直接发送给用户。

Cheerio实现了jQuery子集，去掉了jQuery中所有与DOM不一致或者是用来填补浏览器的东西，重现了jQuery最美妙的API

由于使用了极其简洁而又标准的DOM模型， Cheerio对文档的转换，操作，渲染都极其的高效。

JavaScript开发人员都应该熟悉Cheerio的语法和用法：

var chro = require('cheerio'),
$ = chio.load('<h1 class="title">Hello World!</h1>');
$('h1.title').text('Hello Chongchong!');
$('h1').attr('id', 'welcome');
$.html();
结果：
<h1 class="title" id=" welcome ">Hello Chongchong!</h1>

jsdom

jsdom是很多Web标准（尤其是WHATWG DOM和 HTML 标准）纯JavaScript实现，可与Node.js结合使用。jsdom项目的目标是模拟Web浏览器的子集，从而满足测试和抓取实际的Web应用程序。

jsdom不仅仅是HTML解析器，它还可以当成浏览器。在解析的上下文中，如果要解析的数据中省略了必要的标记，它会自动添加必要的标记。例如，如果没有html标签，它将像浏览器一样隐式地添加它。

还可以选择指定一些属性，例如文档，引荐来源网址或用户代理的URL。如果需要解析包含本地URL的链接，则该URL特别有用。

由于它实际上与解析无关，因此只提到jsdom具有（虚拟）控制台，对cookie的支持等。总之，需要模拟浏览器环境

它还可以处理外部资源。如有需求jsdom可以用来加载并执行JS脚本。

const jsdom = require("jsdom");
const { JSDOM } = jsdom;
const dom = new JSDOM('<!DOCTYPE html><p>Hello, Chongchong!</p>');
console.log(dom.window.document.querySelector("p").textContent);

结果：

"Hello, Chongchong!"

parse5

parse5提供了处理HTML时所需的几乎所有内容。Parse5库，目标是构建其他工具，但也可以实现HTML解析以完成简单任务。Parse5易于使用，但是并不提供浏览器为提供的操作DOM的方法（例如getElementById）。

parse5衍生出了一系列采用它的令人印象深刻的项目：jsdom，Angular2和Polymer。如果需求为对HTML的高级操作或解析的可靠基础，那么显然这是一个不错的选择。

const parse5 = require('parse5');

const document = parse5.parse('<!DOCTYPE html><html><head></head><body>Hello Chongchong!</body></html>');

console.log(document.childNodes[1].tagName);

总结

本文我们介绍几个JS下常见的Html解析库。根据标准，实际的HTML格式语法格式是需要容错的。当时这在库很难简单完美的实现。如果你有更好的推荐，欢迎和大家一起分享。

yHTML 是个快速 HTML 解析器，使用线程来实现一个类似纯 C99库，无任何外部依赖。

MyHTML 当前版本是 1.0.1，扩展了一个 MyCSS 开源库。MyCSS 是个快速的 CSS 解析器，GitHub 地址：

MyHTML 主要特性：

异步解析，构建树和指数
和 HTML5 规范完全一致
两个 API – 高和低水平
操作元素：添加，修改，删除和其他
操作元素属性：添加，修改，删除和其他
支持 39 种字符编码 encoding.spec.whatwg.org
支持字符编码检测
支持单模解析
支持无 POSIX 线程构建
支持片段解析
支持 parsing by chunks
无外部依赖
C99 支持
通过了所有 html5lib-tests

扩展库

MyCSS— Fast C/C++ CSS Parser (Cascading Style Sheets Parser)

支持的 InputStream 编码

X_USER_DEFINED, UTF_8, UTF_16LE, UTF_16BE, BIG5, EUC_KR, GB18030, IBM866, ISO_8859_10, ISO_8859_13, ISO_8859_14, ISO_8859_15, ISO_8859_16, ISO_8859_2, ISO_8859_3, ISO_8859_4, ISO_8859_5, ISO_8859_6, ISO_8859_7, ISO_8859_8, KOI8_R, KOI8_U, MACINTOSH, WINDOWS_1250, WINDOWS_1251, WINDOWS_1252, WINDOWS_1253, WINDOWS_1254, WINDOWS_1255, WINDOWS_1256, WINDOWS_1257, WINDOWS_1258, WINDOWS_874, X_MAC_CYRILLIC, ISO_2022_JP, GBK, SHIFT_JIS, EUC_JP, ISO_8859_8_I

支持 UTF-8 编码

可检测的字符编码

UTF-8, UTF-16LE, UTF16BE 和 russian windows-1251, koi8-r, iso-8859-5, x-mac-cyrillic, ibm866

构建和安装

Make

make

MyHTML_OPTIMIZATION_LEVEL=-O2set compiler optimization level. Default: -O2
MyHTML_BUILD_WITHOUT_THREADS=YESbuild without POSIX Threads. Default: NO

示例

make MyHTML_BUILD_WITHOUT_THREADS=NO

cp lib/* /usr/local/lib cp -r include/* /usr/local/include

CMake

在 myhtml/project 目录：

cmake .make sudo make install

MyHTML_OPTIMIZATION_LEVEL=-O2set compiler optimization level. Default: -O2
CMAKE_INSTALL_LIBDIR=libset path to install created library. Default: lib
MyHTML_BUILD_SHARED=ONbuild shared library. Default: ON
MyHTML_BUILD_STATIC=ONbuild static library. Default: ON
MyHTML_INSTALL_HEADER=OFFinstall header files. Default OFF
MyHTML_BUILD_WITHOUT_THREADS=YESbuild without POSIX Threads. Default: NO
MyHTML_EXTERN_MALLOC=my_malloc_funcset extern malloc function. Default: UNDEFINED
MyHTML_EXTERN_REALLOC=my_realloc_funcset extern realloc function. Default: UNDEFINED
MyHTML_EXTERN_CALLOC=my_calloc_funcset extern calloc function. Default: UNDEFINED
MyHTML_EXTERN_FREE=my_free_funcset extern free function. Default: UNDEFINED

示例

cmake . -DCMAKE_INSTALL_LIBDIR=lib64 -DMyHTML_INSTALL_HEADER=ON

程序构建示例

构建共享库

gcc -Wall -Werror -O2 -lmyhtml your_program.c -o your_program

构建静态库

gcc -Wall -Werror -O2 your_program.c /path/to/libmyhtml_static.a -o your_program

其他语言绑定

简单示例

#include <stdio.h>#include <stdlib.h>#include <string.h>#include <myhtml/api.h>int main(int argc, const char * argv[]) { char html = "<div><span>HTML</span></div>"; // basic init myhtml_t* myhtml = myhtml_create; myhtml_init(myhtml, MyHTML_OPTIONS_DEFAULT, 1, 0); // first tree init  myhtml_tree_t* tree = myhtml_tree_create; myhtml_tree_init(tree, myhtml); // parse html myhtml_parse(tree, MyHTML_ENCODING_UTF_8, html, strlen(html)); // release resources myhtml_tree_destroy(tree); myhtml_destroy(myhtml); return 0; }

MyHTML 遵循 LGPL 开源授权协议.

微信订阅号：开源派（opensourcepie）

↓点击阅读原文,查看相关链接

在线咨询

上一篇：html页面中css缩放图片的方法
下一篇：超实用的文档转换工具-SWFTools：实现PDF转换为SWF

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商