net下功能强大的HTML解析库HtmlAgilit

net下功能强大的HTML解析库HtmlAgilityPack，数据抓取必备

tmlAgilityPack是一个.NET平台下的HTML解析库，它可以将HTML文本转换为DOM文档对象，方便我们对HTML文本进行操作和分析。HtmlAgilityPack支持XPath语法，可以通过XPath表达式来获取DOM节点，同时还提供了一些方便的API，可以实现HTML文本的解析、修改、生成等功能。本文将详细介绍HtmlAgilityPack的使用及使用方法。

一、HtmlAgilityPack的安装

HtmlAgilityPack是一个NuGet包，可以通过Visual Studio的NuGet包管理器来安装。具体步骤如下：

打开Visual Studio，打开要安装HtmlAgilityPack的项目。
在“解决方案资源管理器”中右键单击项目，选择“管理NuGet程序包”。
在“NuGet程序包管理器”中搜索“HtmlAgilityPack”，选择“安装”。
等待安装完成。

安装完成后，就可以在项目中使用HtmlAgilityPack了。

二、HtmlAgilityPack的使用

加载HTML文本

使用HtmlAgilityPack解析HTML文本的第一步是将HTML文本加载到一个HtmlDocument对象中。可以通过以下代码来实现：

HtmlDocument doc=new HtmlDocument();
doc.LoadHtml(htmlText);

其中，htmlText是要解析的HTML文本。LoadHtml方法会将HTML文本解析成一个DOM文档对象，并存储在doc对象中。

获取DOM节点

HtmlAgilityPack提供了一些方法来获取DOM节点，例如GetElementById、GetElementsByTagName、SelectSingleNode、SelectNodes等。这些方法都接受一个XPath表达式作为参数，用来指定要获取的节点。以下是一些示例代码：

// 获取id为"content"的节点
HtmlNode contentNode=doc.GetElementById("content");

// 获取所有的a标签
HtmlNodeCollection aNodes=doc.DocumentNode.SelectNodes("//a");

// 获取第一个p标签
HtmlNode pNode=doc.DocumentNode.SelectSingleNode("//p");

其中，XPath表达式的语法与XML的XPath语法相同。在这里不再详细介绍。

修改DOM节点

HtmlAgilityPack提供了一些方法来修改DOM节点，例如SetAttributeValue、InnerHtml、OuterHtml等。以下是一些示例代码：

// 修改id为"content"的节点的class属性
contentNode.SetAttributeValue("class", "new-class");

// 修改第一个p标签的内容
pNode.InnerHtml="这是新的内容";

// 修改第一个a标签的href属性
HtmlNode aNode=aNodes[0];
aNode.SetAttributeValue("href", "http://www.example.com");

生成HTML文本

HtmlAgilityPack还可以将DOM文档对象转换为HTML文本。可以通过以下代码来实现：

string newHtmlText=doc.DocumentNode.OuterHtml;

其中，OuterHtml属性返回DOM文档对象的HTML文本表示。

三、HtmlAgilityPack的功能实例

下面将通过一些具体的实例来演示HtmlAgilityPack的使用方法。

获取页面标题

以下代码演示了如何获取页面标题：

HtmlDocument doc=new HtmlDocument();
doc.LoadHtml(htmlText);

HtmlNode titleNode=doc.DocumentNode.SelectSingleNode("//title");
string title=titleNode.InnerHtml;

其中，htmlText是要解析的HTML文本。首先，将HTML文本加载到一个HtmlDocument对象中。然后，通过XPath表达式“//title”获取页面标题节点。最后，通过InnerHtml属性获取标题的内容。

获取页面中的所有图片

以下代码演示了如何获取页面中的所有图片：

HtmlDocument doc=new HtmlDocument();
doc.LoadHtml(htmlText);

HtmlNodeCollection imgNodes=doc.DocumentNode.SelectNodes("//img");
foreach (HtmlNode imgNode in imgNodes)
{
    string src=imgNode.GetAttributeValue("src", "");
    Console.WriteLine(src);
}

首先，将HTML文本加载到一个HtmlDocument对象中。然后，通过XPath表达式“//img”获取所有图片节点。最后，遍历所有图片节点，获取每个节点的src属性。

获取页面中的所有链接

以下代码演示了如何获取页面中的所有链接：

HtmlDocument doc=new HtmlDocument();
doc.LoadHtml(htmlText);

HtmlNodeCollection aNodes=doc.DocumentNode.SelectNodes("//a");
foreach (HtmlNode aNode in aNodes)
{
    string href=aNode.GetAttributeValue("href", "");
    Console.WriteLine(href);
}

首先，将HTML文本加载到一个HtmlDocument对象中。然后，通过XPath表达式“//a”获取所有链接节点。最后，遍历所有链接节点，获取每个节点的href属性。

修改页面中的所有链接

以下代码演示了如何将页面中的所有链接修改为指定的链接：

HtmlDocument doc=new HtmlDocument();
doc.LoadHtml(htmlText);

HtmlNodeCollection aNodes=doc.DocumentNode.SelectNodes("//a");
foreach (HtmlNode aNode in aNodes)
{
    aNode.SetAttributeValue("href", "http://www.example.com");
}

string newHtmlText=doc.DocumentNode.OuterHtml;

首先，将HTML文本加载到一个HtmlDocument对象中。然后，通过XPath表达式“//a”获取所有链接节点。最后，遍历所有链接节点，将它们的href属性修改为指定的链接。最后，通过OuterHtml属性将修改后的DOM文档对象转换为HTML文本。

本文介绍了HtmlAgilityPack的使用及使用方法。HtmlAgilityPack是一个功能强大、易用性高的HTML解析库，可以方便地对HTML文本进行操作和分析。通过本文的介绍，读者可以了解HtmlAgilityPack的基本用法，并可以根据需要自行扩展。

个问题是我们作为程序员几乎每天都要进行的操作，那它有多少种方式呢，我们这里就这点来说一说。

解析的四种方式

官方解析
谷歌 Gson 解析
阿里巴巴 FastJson 解析
Jackson 解析

案例实操

这里我们就只讨论对象与 json 如何互相转换。

这里我们先创建好 Maven 项目，方便引入依赖，通过单元测试来实际检验我们不同的解析方式。

下面我们都使用 User 对象，先创建好我们需要的类。

User.java

package org.example;

public class User {

    private String name;
    private String sex;
    private Integer age;

    public User() {
    }

    public User(String name, String sex, Integer age) {
        this.name=name;
        this.sex=sex;
        this.age=age;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name=name;
    }

    public String getSex() {
        return sex;
    }

    public void setSex(String sex) {
        this.sex=sex;
    }

    public Integer getAge() {
        return age;
    }

    public void setAge(Integer age) {
        this.age=age;
    }

    @Override
    public String toString() {
        return "User{" +
                "name='" + name + '\'' +
                ", sex='" + sex + '\'' +
                ", age=" + age +
                '}';
    }
    
}

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152

官方解析

官方提供的 json 解析方式，比较繁琐，所以用的人比较少。

第一步，引入依赖：

<!--json官方-->
<dependency>
    <groupId>org.json</groupId>
    <artifactId>json</artifactId>
    <version>20160810</version>
</dependency>
123456

第二步，编写测试代码：

package org.example;

import org.json.JSONObject;
import org.springframework.stereotype.Component;

/**
 * 官方解析
 */
@Component
public class JsonTest1 {

    /**
     * 对象转json
     * @param user
     * @return
     */
    public String userToJson(User user){
        JSONObject jsonObject=new JSONObject(user);
        String jsonStr=jsonObject.toString();
        return jsonStr;
    }

    /**
     * json转对象
     * @param json
     * @return
     */
    public User userFromJson(String json){
        JSONObject jsonObject=new JSONObject(json);
        String name=jsonObject.getString("name");
        String sex=jsonObject.getString("sex");
        int age=jsonObject.getInt("age");
        User user=new User(name,sex,age);
        return user;
    }

}
12345678910111213141516171819202122232425262728293031323334353637

第三步，单元测试：

package org.example;

import org.junit.Test;
import org.junit.runner.RunWith;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.test.context.ContextConfiguration;
import org.springframework.test.context.junit4.SpringJUnit4ClassRunner;

@RunWith(SpringJUnit4ClassRunner.class)
@ContextConfiguration(locations="classpath:spring.xml")
public class JsonTest1Test {

    @Autowired
    private JsonTest1 jsonTest1;

    @Test
    public void userToJson() {
        User user=new User("秦明", "man", 18);
        String json=jsonTest1.userToJson(user);
        System.out.println(json);
    }

    @Test
    public void userFromJson() {
        String json="{\"sex\":\"man\",\"name\":\"秦明\",\"age\":18}";
        User user=jsonTest1.userFromJson(json);
        System.out.println(user);
    }
}
1234567891011121314151617181920212223242526272829

第四步，查看结果：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NMZ83TVw-1598863238953)(https://imgkr.cn-bj.ufileos.com/76db02f6-dd02-4e23-a6dd-8ce988bc5c62.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YJyh0WBY-1598863238960)(https://imgkr.cn-bj.ufileos.com/847c4325-a895-4c13-b3d9-4f12e4876720.png)]

谷歌 Gson 解析

第一步，引入依赖：

<!--gson-->
<dependency>
    <groupId>com.google.code.gson</groupId>
    <artifactId>gson</artifactId>
    <version>2.8.5</version>
</dependency>
123456

第二步，编写测试代码：

package org.example;

import com.google.gson.Gson;
import org.springframework.stereotype.Component;

/**
 * gson解析
 */
@Component
public class JsonTest2 {

    /**
     * 对象转json
     * @param user
     * @return
     */
    public String userToJson(User user){
        Gson gson=new Gson();
        String json=gson.toJson(user);
        return json;
    }

    /**
     * json转对象
     * @param json
     * @return
     */
    public User userFromJson(String json){
        Gson gson=new Gson();
        User user=gson.fromJson(json, User.class);
        return user;
    }

}
12345678910111213141516171819202122232425262728293031323334

第三步，单元测试：同上（下面第三步和第四步和上面都一样，所以下面省略）

第四步，查看结果：同上

阿里巴巴 FastJson 解析

这个解析方式是由阿里巴巴开发出来的，效率最高，深受大家喜爱，功能强大，想要更深入学习的可以查看 FastJson 官网API。

第一步，引入依赖：

<!--fastjson-->
<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>fastjson</artifactId>
    <version>1.2.47</version>
</dependency>
123456

第二步，编写测试代码：

package org.example;

import com.alibaba.fastjson.JSONObject;
import org.springframework.stereotype.Component;

/**
 * fastjson解析
 */
@Component
public class JsonTest3 {

    /**
     * 对象转json
     * @param user
     * @return
     */
    public String userToJson(User user){
        String json=JSONObject.toJSONString(user);
        return json;
    }

    /**
     * json转对象
     * @param json
     * @return
     */
    public User userFromJson(String json){
        User user=JSONObject.parseObject(json,User.class);
        return user;
    }

}
1234567891011121314151617181920212223242526272829303132

Jackson 解析

这个解析方式是在目前我们使用最流行的一些框架比如 SSM、SpringBoot，其内部的 json 解析使用的就是 Jackson，但往往我们会另外引入 FastJson 来使用，因为速度更快。

第一步，引入依赖：

<!--jackson-->
<dependency>
    <groupId>com.fasterxml.jackson.core</groupId>
    <artifactId>jackson-databind</artifactId>
    <version>2.9.8</version>
</dependency>
123456

第二步，编写测试代码：

package org.example;

import com.fasterxml.jackson.core.JsonProcessingException;
import com.fasterxml.jackson.databind.ObjectMapper;
import org.springframework.stereotype.Component;

import java.io.IOException;

/**
 * jackson解析
 */
@Component
public class JsonTest4 {

    /**
     * 对象转json
     * @param user
     * @return
     */
    public String userToJson(User user) throws JsonProcessingException {
        ObjectMapper objectMapper=new ObjectMapper();
        String json=objectMapper.writeValueAsString(user);
        return json;
    }

    /**
     * json转对象
     * @param json
     * @return
     */
    public User userFromJson(String json) throws IOException {
        ObjectMapper objectMapper=new ObjectMapper();
        User user=objectMapper.readValue(json, User.class);
        return user;
    }

}
12345678910111213141516171819202122232425262728293031323334353637

扩展~JSON的诞生

JSON 的诞生是因为 XML 整合到 HTML 中各个浏览器实现的细节不尽相同，所以道格拉斯·克罗克福特（Douglas Crockford）和奇普·莫宁斯达（Chip Morningstar）一起从 JS 的数据类型中提取了一个子集，作为新的数据交换格式，因为主流的浏览器使用了通用的 JavaScript 引擎组件，所以在解析这种新数据格式时就不存在兼容性问题，于是他们将这种数据格式命名为 “JavaScript Object Notation”，缩写为 JSON，由此 JSON 便诞生了！

着岗位竞争的越来越激烈，而设计师掌握的技能要求也越多，设计师不光只会设计，而且也要懂（会）代码（会手写代码更会加金的），所以我们要做一位懂代码设计师，还好Jason在大学学过代码，毕业也做过一段时间的设计+前端，我将我在代码方面的知识总结分享给大家，赶紧往下看吧

基础认识

html语句是由标签+属性构成的

html 标签由开始标签和结束标签组成，开始标签是被括号包围的元素名，结束标签是被括号包围的斜杠和元素名，但某些 html 元素没有结束标签，比如 、<img>，这类标签称为单标签。

属性的语法

1、写在标签的<>内，而且在标签代码之后，如

2、属性名=""(一定得是英文的引号，不能是中文的引号。其实不用引号对于它的显示没有影响，但加上引号为标准做法)

如 align="center" align为属性名 center left right是属性值

3、有的标签没有任何属性（ ），有的标签虽然有属性，但可以不加上也不影响它的使用(),但有的标签则是必须与属性连用方能正常显示(<a></a>)

网页的基本结构

<html>

</html>

html，head，body 是html代码必不可少的三大标签，其中

html标签：用于定义html文件的标签，这个标签意味着这个文件是一个html文件

head标签：里面的内容不能再浏览器中直接呈现，但它会用后台运作的方式为html页面提供种种功能

body标签：里面出现的内容会在浏览器中得到直接呈现，供读者浏览

必须要记住的标签和属性

放在<head></head>之间的

<title> </title>

<title> </title>标签定义html文档的标题。<title>与</title>之间的内容将显示在浏览器窗口的标题栏。

<meta>标签

用来标记搜索引擎在搜索你的页面时所取出的关键词。

用来标记文档的作者。

用来标记你的页面的解码方式。

用来自动刷新网页

放在<body></body>之间的

与文字相关的标签

文字标题

<h#> ... </h#>

#=1, 2, 3, 4, 5, 6

段(paragraph)

空白占位符

换行

文字的分区显示

<div align=#> ... </div> (#=left, center, right)

显示斜体文本效果。

呈现粗体文本效果。

<big> 呈现大号字体效果。

呈现小号字体效果。

无序列表

无序列表是由<ul>和<li>元素定义的:

<ul>

<li>sports</li>

<li> drink </li>

<li> friends </li>

</ul>

<ul>和<li>中均可加入type属性，type的属性值有：disc(圆)、circle（圆圈）、square（方块）

有序列表 start 值为数字

有序列表由<ol>和<li>定义:

<ol>

<li>sports</li>

<li> drink</li>

<li> friends</li>

</ol>

....................................................................

我的微信公众号：UI严选 —越努力，越幸运

在线咨询

上一篇：前端开发：JavaScript 动画库
下一篇：8.Html 绝对与相对路径

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

net下功能强大的HTML解析库HtmlAgilit

解析的四种方式

案例实操

官方解析

谷歌 Gson 解析

阿里巴巴 FastJson 解析

Jackson 解析

扩展~JSON的诞生

您的项目需求