整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

C 解析HTML类库组件-Html Agility

C 解析HTML类库组件-Html Agility Pack

tml Agility Pack是什么

Html Agility Pack是一个HTML解析器,用于读/写DOM对象,支持普通的xpath或xslt。

它是一个.NET开源库,提供解析HTML文件,具有一定的容错机制。

使用简单,解析速度快,一般使用在抓取网页数据中。

Github开源地址

https://github.com/zzzprojects/html-agility-pack

NuGet

https://www.nuget.org/packages/HtmlAgilityPack/

Stack Overflow Support

https://stackoverflow.com/questions/tagged/html-agility-pack

C# HTML Parser Examples

// From File

var doc=new HtmlDocument();

doc.Load(filePath);

// From String

var doc=new HtmlDocument();

doc.LoadHtml(html);

// From Web

var url="http://html-agility-pack.net/";

var web=new HtmlWeb();

var doc=web.Load(url);

tmlParse 是一款基于windwos平台的HTML文档解析工具,可快速构建DOM树,从而轻松实现网页元素的爬取工作。DOM树就是一个HTML文档的节点树,每个节点由:标签(Tag)、属性(Attribute)、文本(Text)三个值来描述。

所谓的HTML文档解析,指的就是如何构建一颗DOM树,只有成功构建出DOM树,才有可能进行后续的数据爬取和分析工作。显然,构建DOM树是比较复杂的过程,因为不是每一个HTML文档都会严格按照规范来书写,因此解析过程需要具有一定容错能力。此外,解析效率也是一个需要考虑的因素,也就是说最好通过一次文档扫描即可建立起DOM树,而不是反复扫描。

下面是HtmlParse介绍。

工具特点

1、绿色纯天然,无任何第三方依赖库,文件大小不到150K; 2、解析速度快,具有一定的HTML语法容错能力,可快速将HMTL文档解析为DOM树; 3、基于命令行参数,可通过不同参数获取指定TAG的属性值和文本内容,从而实现网页爬取功能; 4、可将爬取数据输出为json格式,方便第三方程序进一步分析和使用; 5、可爬取script脚本到指定的js文件中;

下载地址:http://softlee.cn/HtmlParse.zip

使用方法

HtmlParse HtmlPathFile -tag TagName [-attr] [Attribute] [-o] [JsonPathFile]

解析指定的HTML文档,并将文档中指定的标签及属性输出到指定文件中。

HtmlPathFile:必选参数,要解析的HTML文档路径名,如果文件路径中有空格,可使用双引号将文件路径包含;

-tag:必选参数,用于指定要抓取的HTML标签名称; -attr:可选参数,用于指定标签的属性值,如果不指定,则返回该标签的所有属性值; -o:可选参数,用于指定抓取内容输出的文件,可将抓取的内容保存为json格式的文件。 如果该参数不指定,则进行控制台输出。 如果抓取的是script、style则会保存为js格式文件。

如果要抓取doctype,可使用-tag doctype,将整个doctype内容获取。此时将会忽略-attr指定的任何属性值。

举例说明

1、爬取网页中所有超链接

HtmlParse c:/sina.html -tag a -attr href -o c:/sina.json

解析C盘下的sina.html文档,并提取该文档中的所有超链接到sina.json文件中。其中**-tag a -attr href,用于指定获取超链接标签ahref**属性。

2、爬取网页中所有图片链接

HtmlParse c:/sina.html -tag img -attr src -o c:/sina.json

解析C盘下的sina.html文档,并提取该文档中的所有图片链接到sina.json文件中。

3、爬取网页中所有脚本

HtmlParse c:/sina.html -tag script -o c:/sina.js

解析C盘下的sina.html文档,并提取该文档中的所有脚本函数到sina.js文件中。

输出内容

如果通过-o参数指定输出文件,则会生成一个json格式的文档。 TagName为爬取的标签名称,比如超链接的a,其值是一个json数组,数组中的每个内容为Json对象,每个Json对象,有属性和文本构成。如果-attr 指定了要爬取的属性,则AttrName为指定的属性名称,比如href或src。text为该标签的文本内容,有些标签不存在文本内容,比如img、meta等,则该值为空。json格式如下:

{
  "TagName":
  {
     {"AttrName":"AttrValue1", "text":"text1"}
     {"AttrName":"AttrValue1", "text":"text2"}
  }
}

下面是一个sina网页的所有超链接json

{
 "a": [{
  "href": "javascript:;",
  "text": "设为首页"
 }, {
  "href": "javascript:;",
  "text": "我的菜单"
 }, {
  "href": "https://sina.cn/",
  "text": "手机新浪网"
 }, {
  "href": "",
  "text": "移动客户端"
 }, {
  "href": "https://c.weibo.cn/client/guide/download",
  "text": "新浪微博"
 }, {
  "href": "https://so.sina.cn/palmnews/web-sinanews-app-download.d.html",
  "text": "新浪新闻"
 }, {
  "href": "https://finance.sina.com.cn/mobile/comfinanceweb.shtml",
  "text": "新浪财经"
 }, {
  "href": "https://m.sina.com.cn/m/sinasports.shtml",
  "text": "新浪体育"
 }, {
  "href": "https://tousu.sina.com.cn/about_app/index?frompage=heimaopc",
  "text": "黑猫投诉"
 }, {
  "href": "http://blog.sina.com.cn/lm/z/app/",
  "text": "新浪博客"
 }, {
  "href": "https://games.sina.com.cn/o/kb/12392.shtml",
  "text": "新浪游戏"
 }, {
  "href": "https://zhongce.sina.com.cn/about/app",
  "text": "新浪众测"
 }, {
  "href": "https://mail.sina.com.cn/client/mobile/index.php?suda-key=mail_app&suda-value=login",
  "text": "新浪邮箱客户端"
 }, {
  "href": "javascript:;",
  "text": "关闭置顶"
 }, {

来源:https://www.cnblogs.com/softlee/p/16374079.html

HTML(HyperText Markup Language,中文:超文本标记语言)是一种用于创建网页结构和内容的标记语言。它由一系列标签组成,这些标签描述了网页中的各个元素和其它相关信息。通过使用HTML标签和属性,开发人员可以定义文本、图像、链接、表格、表单等元素,并控制它们的外观和行为。本文主要介绍HTML的基本概念、历史背景和用途。


参考文档:https://www.cjavapy.com/article/3297/


HTML实例:


<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>CJAVAPY编程之路(cjavapy.com)</title>
</head>
<body>
 
<h1>我的第一个标题</h1>
 
<p>我的第一个段落。</p>
 
</body>
</html>


HTML文档的后缀名可以是.html或.htm,都可以使用,没有区别。


注意:对于中文网页需要使用<meta charset="utf-8"> 声明编码,否则会出现乱码。有些浏览器(如 360 浏览器)会设置 GBK 为默认编码,则你需要设置为<meta charset="gbk"> 。


1、HTML的基本概念


1)标签(Tag)


HTML使用标签来定义网页中的各个元素。标签通常以尖括号< >的形式出现,如<p>表示段落,<img>表示图像等。标签可以包含属性,用于提供额外的信息或控制元素的行为。


2)元素(Element)


一个完整的HTML元素由开始标签、内容和结束标签组成。例如,<p>这是一个段落</p>就是一个完整的段落元素。


3)属性(Attribute)


HTML标签可以具有属性,用于提供元素的额外信息或控制元素的行为。属性以键值对的形式出现,例如<img src="image.jpg">中的src属性指定了图像的源文件。


4)文档结构


一个HTML文档由<html>、<head>和<body>等标签组成。其中,<html>标签用于定义整个HTML文档的根元素,<head>标签用于定义文档的头部信息,如标题和样式表链接,<body>标签用于定义文档的主体内容。


5)块级元素和内联元素


HTML元素可以被分类为块级元素和内联元素。块级元素以块的形式显示,独占一行或一块空间,如<p>、<div>等。内联元素以行内的方式显示,不会独占一行,如<span>、<a>等。


6)嵌套


HTML元素可以嵌套在其他元素内部,形成一个层次结构。例如,<div>元素可以包含<p>元素,<p>元素可以包含<span>元素。


7)<!DOCTYPE> 声明


HTML文档的开头通常会包含一个DOCTYPE声明,用于指定文档的HTML版本。


例如:


<!DOCTYPE html>
<!DOCTYPE HTML>
<!doctype html>
<!Doctype Html>


2、HTML与Web 浏览器


HTML(HyperText Markup Language)是一种用于创建网页结构和内容的标记语言,而Web浏览器(如谷歌浏览器,Internet Explorer,Firefox,Safari)是用于显示和解释HTML文档的应用程序。Web浏览器通过解析HTML文档,将其转换为可视化的网页。浏览器会读取HTML文档中的标签和内容,并根据这些标签和内容的定义,渲染出网页的结构和样式。HTML提供了各种标签和属性,用于定义文本、图像、链接、表格、表单等在网页中的展示和交互方式。浏览器在解析HTML时,会根据标签和属性的定义,将文本显示为段落、标题或其他格式,显示图像、链接,并响应用户的交互操作。


通过HTML和Web浏览器的结合,用户可以在浏览器中访问和浏览各种网页内容,包括网页文本、图像、视频、音频等多媒体元素,并与网页进行交互,如点击链接、填写表单、提交数据等。


大部分浏览器中,直接输出中文会出现中文乱码的情况,需要在头部将字符声明为 UTF-8 或 GBK。


<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>
页面标题</title>
</head>
<body>
 
<h1>我的第一个标题</h1>
 
<p>我的第一个段落。</p>
 
</body>
</html>


3、HTML版本及历史背景


HTML有多个版本,每个版本都有不同的特性和改进。


版本

发布时间

HTML

1991

HTML+

1993

HTML 2.0

1995

HTML 3.2

1997

HTML 4.01

1999

XHTML 1.0

2000

HTML5

2014


1)HTML 1.0


HTML 1.0是最早的HTML版本,于1993年发布。它只包含一些基本的标签和属性,用于创建简单的文本和链接。HTML 1.0的目标是定义一种通用的超文本标记语言。


2)HTML 2.0


HTML 2.0于1995年发布,是对HTML 1.0的改进和扩展。它引入了一些新的标签和属性,如图像标签和表格标签,以支持更丰富的内容展示。


3)HTML 3.2


HTML 3.2于1997年发布,是对HTML 2.0的进一步改进。它引入了一些新的标签和属性,如表单标签和框架标签,以支持交互性和页面布局。


4)HTML 4.01


HTML 4.01于1999年发布,是对HTML 3.2的修订和扩展。它引入了更多的标签和属性,如层标签和样式表,以支持更灵活的页面设计和样式控制。


5)XHTML 1.0


XHTML(eXtensible HyperText Markup Language)是基于XML的HTML版本。XHTML 1.0于2000年发布,它严格遵循XML的语法规则,要求所有标签和属性都要正确嵌套和闭合。


6)HTML5


HTML5是HTML的最新版本,于2014年正式发布。HTML5引入了许多新的特性和API,如语义化标签、多媒体支持、Canvas绘图、本地存储等。HTML5还支持响应式设计,以适应不同设备和屏幕尺寸。


4、HTML用途


HTML是构建网页结构和内容的基础语言,它提供了丰富的标签和属性,使得开发者可以创建各种类型的网页,并实现不同的功能和效果。HTML用于定义网页的整体结构,包括标题、段落、列表、标题、导航菜单等元素。通过使用不同的HTML标签和属性,可以将文本、图像、音频、视频等内容组织起来,并构建页面的层次结构。HTML可以用于展示文本内容和多媒体元素,如图像、音频和视频。通过使用适当的HTML标签和属性,可以插入和显示各种类型的媒体内容,从而使网页更加丰富和吸引人。HTML提供了创建表单的标签和元素,可以用于收集用户的输入数据。通过使用表单元素如文本框、复选框、单选按钮和下拉列表等,用户可以输入数据并提交给服务器进行处理。


参考文档:https://www.cjavapy.com/article/3297/