整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

net下功能强大的HTML解析库HtmlAgilit

net下功能强大的HTML解析库HtmlAgilityPack,数据抓取必备

tmlAgilityPack是一个.NET平台下的HTML解析库,它可以将HTML文本转换为DOM文档对象,方便我们对HTML文本进行操作和分析。HtmlAgilityPack支持XPath语法,可以通过XPath表达式来获取DOM节点,同时还提供了一些方便的API,可以实现HTML文本的解析、修改、生成等功能。本文将详细介绍HtmlAgilityPack的使用及使用方法。

一、HtmlAgilityPack的安装

HtmlAgilityPack是一个NuGet包,可以通过Visual Studio的NuGet包管理器来安装。具体步骤如下:

  1. 打开Visual Studio,打开要安装HtmlAgilityPack的项目。
  2. 在“解决方案资源管理器”中右键单击项目,选择“管理NuGet程序包”。
  3. 在“NuGet程序包管理器”中搜索“HtmlAgilityPack”,选择“安装”。
  4. 等待安装完成。

安装完成后,就可以在项目中使用HtmlAgilityPack了。

二、HtmlAgilityPack的使用

  1. 加载HTML文本

使用HtmlAgilityPack解析HTML文本的第一步是将HTML文本加载到一个HtmlDocument对象中。可以通过以下代码来实现:

HtmlDocument doc=new HtmlDocument();
doc.LoadHtml(htmlText);

其中,htmlText是要解析的HTML文本。LoadHtml方法会将HTML文本解析成一个DOM文档对象,并存储在doc对象中。

  1. 获取DOM节点

HtmlAgilityPack提供了一些方法来获取DOM节点,例如GetElementById、GetElementsByTagName、SelectSingleNode、SelectNodes等。这些方法都接受一个XPath表达式作为参数,用来指定要获取的节点。以下是一些示例代码:

// 获取id为"content"的节点
HtmlNode contentNode=doc.GetElementById("content");

// 获取所有的a标签
HtmlNodeCollection aNodes=doc.DocumentNode.SelectNodes("//a");

// 获取第一个p标签
HtmlNode pNode=doc.DocumentNode.SelectSingleNode("//p");

其中,XPath表达式的语法与XML的XPath语法相同。在这里不再详细介绍。

  1. 修改DOM节点

HtmlAgilityPack提供了一些方法来修改DOM节点,例如SetAttributeValue、InnerHtml、OuterHtml等。以下是一些示例代码:

// 修改id为"content"的节点的class属性
contentNode.SetAttributeValue("class", "new-class");

// 修改第一个p标签的内容
pNode.InnerHtml="这是新的内容";

// 修改第一个a标签的href属性
HtmlNode aNode=aNodes[0];
aNode.SetAttributeValue("href", "http://www.example.com");
  1. 生成HTML文本

HtmlAgilityPack还可以将DOM文档对象转换为HTML文本。可以通过以下代码来实现:

string newHtmlText=doc.DocumentNode.OuterHtml;

其中,OuterHtml属性返回DOM文档对象的HTML文本表示。

三、HtmlAgilityPack的功能实例

下面将通过一些具体的实例来演示HtmlAgilityPack的使用方法。

  1. 获取页面标题

以下代码演示了如何获取页面标题:

HtmlDocument doc=new HtmlDocument();
doc.LoadHtml(htmlText);

HtmlNode titleNode=doc.DocumentNode.SelectSingleNode("//title");
string title=titleNode.InnerHtml;

其中,htmlText是要解析的HTML文本。首先,将HTML文本加载到一个HtmlDocument对象中。然后,通过XPath表达式“//title”获取页面标题节点。最后,通过InnerHtml属性获取标题的内容。

  1. 获取页面中的所有图片

以下代码演示了如何获取页面中的所有图片:

HtmlDocument doc=new HtmlDocument();
doc.LoadHtml(htmlText);

HtmlNodeCollection imgNodes=doc.DocumentNode.SelectNodes("//img");
foreach (HtmlNode imgNode in imgNodes)
{
    string src=imgNode.GetAttributeValue("src", "");
    Console.WriteLine(src);
}

首先,将HTML文本加载到一个HtmlDocument对象中。然后,通过XPath表达式“//img”获取所有图片节点。最后,遍历所有图片节点,获取每个节点的src属性。

  1. 获取页面中的所有链接

以下代码演示了如何获取页面中的所有链接:

HtmlDocument doc=new HtmlDocument();
doc.LoadHtml(htmlText);

HtmlNodeCollection aNodes=doc.DocumentNode.SelectNodes("//a");
foreach (HtmlNode aNode in aNodes)
{
    string href=aNode.GetAttributeValue("href", "");
    Console.WriteLine(href);
}

首先,将HTML文本加载到一个HtmlDocument对象中。然后,通过XPath表达式“//a”获取所有链接节点。最后,遍历所有链接节点,获取每个节点的href属性。

  1. 修改页面中的所有链接

以下代码演示了如何将页面中的所有链接修改为指定的链接:

HtmlDocument doc=new HtmlDocument();
doc.LoadHtml(htmlText);

HtmlNodeCollection aNodes=doc.DocumentNode.SelectNodes("//a");
foreach (HtmlNode aNode in aNodes)
{
    aNode.SetAttributeValue("href", "http://www.example.com");
}

string newHtmlText=doc.DocumentNode.OuterHtml;

首先,将HTML文本加载到一个HtmlDocument对象中。然后,通过XPath表达式“//a”获取所有链接节点。最后,遍历所有链接节点,将它们的href属性修改为指定的链接。最后,通过OuterHtml属性将修改后的DOM文档对象转换为HTML文本。

本文介绍了HtmlAgilityPack的使用及使用方法。HtmlAgilityPack是一个功能强大、易用性高的HTML解析库,可以方便地对HTML文本进行操作和分析。通过本文的介绍,读者可以了解HtmlAgilityPack的基本用法,并可以根据需要自行扩展。

个问题是我们作为程序员几乎每天都要进行的操作,那它有多少种方式呢,我们这里就这点来说一说。

解析的四种方式

  • 官方解析
  • 谷歌 Gson 解析
  • 阿里巴巴 FastJson 解析
  • Jackson 解析

案例实操

这里我们就只讨论对象与 json 如何互相转换。

这里我们先创建好 Maven 项目,方便引入依赖,通过单元测试来实际检验我们不同的解析方式。

下面我们都使用 User 对象,先创建好我们需要的类。

User.java

package org.example;

public class User {

    private String name;
    private String sex;
    private Integer age;

    public User() {
    }

    public User(String name, String sex, Integer age) {
        this.name=name;
        this.sex=sex;
        this.age=age;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name=name;
    }

    public String getSex() {
        return sex;
    }

    public void setSex(String sex) {
        this.sex=sex;
    }

    public Integer getAge() {
        return age;
    }

    public void setAge(Integer age) {
        this.age=age;
    }

    @Override
    public String toString() {
        return "User{" +
                "name='" + name + '\'' +
                ", sex='" + sex + '\'' +
                ", age=" + age +
                '}';
    }
    
}

12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152

官方解析

官方提供的 json 解析方式,比较繁琐,所以用的人比较少。

第一步,引入依赖:

<!--json官方-->
<dependency>
    <groupId>org.json</groupId>
    <artifactId>json</artifactId>
    <version>20160810</version>
</dependency>
123456

第二步,编写测试代码:

package org.example;

import org.json.JSONObject;
import org.springframework.stereotype.Component;

/**
 * 官方解析
 */
@Component
public class JsonTest1 {

    /**
     * 对象转json
     * @param user
     * @return
     */
    public String userToJson(User user){
        JSONObject jsonObject=new JSONObject(user);
        String jsonStr=jsonObject.toString();
        return jsonStr;
    }

    /**
     * json转对象
     * @param json
     * @return
     */
    public User userFromJson(String json){
        JSONObject jsonObject=new JSONObject(json);
        String name=jsonObject.getString("name");
        String sex=jsonObject.getString("sex");
        int age=jsonObject.getInt("age");
        User user=new User(name,sex,age);
        return user;
    }

}
12345678910111213141516171819202122232425262728293031323334353637

第三步,单元测试:

package org.example;

import org.junit.Test;
import org.junit.runner.RunWith;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.test.context.ContextConfiguration;
import org.springframework.test.context.junit4.SpringJUnit4ClassRunner;

@RunWith(SpringJUnit4ClassRunner.class)
@ContextConfiguration(locations="classpath:spring.xml")
public class JsonTest1Test {

    @Autowired
    private JsonTest1 jsonTest1;

    @Test
    public void userToJson() {
        User user=new User("秦明", "man", 18);
        String json=jsonTest1.userToJson(user);
        System.out.println(json);
    }

    @Test
    public void userFromJson() {
        String json="{\"sex\":\"man\",\"name\":\"秦明\",\"age\":18}";
        User user=jsonTest1.userFromJson(json);
        System.out.println(user);
    }
}
1234567891011121314151617181920212223242526272829

第四步,查看结果:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NMZ83TVw-1598863238953)(https://imgkr.cn-bj.ufileos.com/76db02f6-dd02-4e23-a6dd-8ce988bc5c62.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YJyh0WBY-1598863238960)(https://imgkr.cn-bj.ufileos.com/847c4325-a895-4c13-b3d9-4f12e4876720.png)]

谷歌 Gson 解析

第一步,引入依赖:

<!--gson-->
<dependency>
    <groupId>com.google.code.gson</groupId>
    <artifactId>gson</artifactId>
    <version>2.8.5</version>
</dependency>
123456

第二步,编写测试代码:

package org.example;

import com.google.gson.Gson;
import org.springframework.stereotype.Component;

/**
 * gson解析
 */
@Component
public class JsonTest2 {

    /**
     * 对象转json
     * @param user
     * @return
     */
    public String userToJson(User user){
        Gson gson=new Gson();
        String json=gson.toJson(user);
        return json;
    }

    /**
     * json转对象
     * @param json
     * @return
     */
    public User userFromJson(String json){
        Gson gson=new Gson();
        User user=gson.fromJson(json, User.class);
        return user;
    }

}
12345678910111213141516171819202122232425262728293031323334

第三步,单元测试:同上(下面第三步和第四步和上面都一样,所以下面省略)

第四步,查看结果:同上

阿里巴巴 FastJson 解析

这个解析方式是由阿里巴巴开发出来的,效率最高,深受大家喜爱,功能强大,想要更深入学习的可以查看 FastJson 官网API。

第一步,引入依赖:

<!--fastjson-->
<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>fastjson</artifactId>
    <version>1.2.47</version>
</dependency>
123456

第二步,编写测试代码:

package org.example;

import com.alibaba.fastjson.JSONObject;
import org.springframework.stereotype.Component;

/**
 * fastjson解析
 */
@Component
public class JsonTest3 {

    /**
     * 对象转json
     * @param user
     * @return
     */
    public String userToJson(User user){
        String json=JSONObject.toJSONString(user);
        return json;
    }

    /**
     * json转对象
     * @param json
     * @return
     */
    public User userFromJson(String json){
        User user=JSONObject.parseObject(json,User.class);
        return user;
    }

}
1234567891011121314151617181920212223242526272829303132

Jackson 解析

这个解析方式是在目前我们使用最流行的一些框架比如 SSM、SpringBoot,其内部的 json 解析使用的就是 Jackson,但往往我们会另外引入 FastJson 来使用,因为速度更快。

第一步,引入依赖:

<!--jackson-->
<dependency>
    <groupId>com.fasterxml.jackson.core</groupId>
    <artifactId>jackson-databind</artifactId>
    <version>2.9.8</version>
</dependency>
123456

第二步,编写测试代码:

package org.example;

import com.fasterxml.jackson.core.JsonProcessingException;
import com.fasterxml.jackson.databind.ObjectMapper;
import org.springframework.stereotype.Component;

import java.io.IOException;

/**
 * jackson解析
 */
@Component
public class JsonTest4 {

    /**
     * 对象转json
     * @param user
     * @return
     */
    public String userToJson(User user) throws JsonProcessingException {
        ObjectMapper objectMapper=new ObjectMapper();
        String json=objectMapper.writeValueAsString(user);
        return json;
    }

    /**
     * json转对象
     * @param json
     * @return
     */
    public User userFromJson(String json) throws IOException {
        ObjectMapper objectMapper=new ObjectMapper();
        User user=objectMapper.readValue(json, User.class);
        return user;
    }

}
12345678910111213141516171819202122232425262728293031323334353637

扩展~JSON的诞生

JSON 的诞生是因为 XML 整合到 HTML 中各个浏览器实现的细节不尽相同,所以道格拉斯·克罗克福特(Douglas Crockford)和 奇普·莫宁斯达(Chip Morningstar)一起从 JS 的数据类型中提取了一个子集,作为新的数据交换格式,因为主流的浏览器使用了通用的 JavaScript 引擎组件,所以在解析这种新数据格式时就不存在兼容性问题,于是他们将这种数据格式命名为 “JavaScript Object Notation”,缩写为 JSON,由此 JSON 便诞生了!

着岗位竞争的越来越激烈,而设计师掌握的技能要求也越多,设计师不光只会设计,而且也要懂(会)代码(会手写代码更会加金的),所以我们要做一位懂代码设计师,还好Jason在大学学过代码,毕业也做过一段时间的设计+前端,我将我在代码方面的知识总结分享给大家,赶紧往下看吧

基础认识

html语句是由标签+属性构成的

html 标签由开始标签和结束标签组成,开始标签是被括号包围的元素名,结束标签是被括号包围的斜杠和元素名,但某些 html 元素没有结束标签,比如 <br />、<img>,这类标签称为单标签。


属性的语法

1、写在标签的<>内,而且在标签代码之后,如<p *></p>

2、属性名=""(一定得是英文的引号,不能是中文的引号。其实不用引号对于它的显示没有影响,但加上引号为标准做法)

如 align="center" align为属性名 center left right是属性值

3、有的标签没有任何属性(<br>),有的标签虽然有属性,但可以不加上也不影响它的使用(<p></p>),但有的标签则是必须与属性连用方能正常显示(<a></a>)


网页的基本结构

<html>

<head></head>

<body></body>

</html>

html,head,body 是html代码必不可少的三大标签,其中

html标签:用于定义html文件的标签,这个标签意味着这个文件是一个html文件

head标签:里面的内容不能再浏览器中直接呈现,但它会用后台运作的方式为html页面提供种种功能

body标签:里面出现的内容会在浏览器中得到直接呈现,供读者浏览

必须要记住的标签和属性

放在<head></head>之间的

<title> </title>

<title> </title>标签定义html文档的标题。<title>与</title>之间的内容将显示在浏览器窗口的标题栏。


<meta>标签

<meta>标签类可以插入很多很有用的元素属性。常用的有以下四种:

<meta name="keywords" content="study,computer">

用来标记搜索引擎在搜索你的页面时所取出的关键词。

<meta name="author" content=“wutao">

用来标记文档的作者。

<meta http-equiv=“content-type” content=“text/html; charset=gb2312”>

用来标记你的页面的解码方式。

<meta http-equiv=“refresh” content=“5;url=http://www.xnc.edu.cn”>

用来自动刷新网页




放在<body></body>之间的

与文字相关的标签

文字标题

<h#> ... </h#>

#=1, 2, 3, 4, 5, 6

段(paragraph) <p>

空白占位符

换行<br>

文字的分区显示

<div align=#> ... </div> (#=left, center, right)

<i> 显示斜体文本效果。

<b> 呈现粗体文本效果。

<big> 呈现大号字体效果。

<small> 呈现小号字体效果。


无序列表

无序列表是由<ul>和<li>元素定义的:

<ul>

<li>sports</li>

<li> food </li>

<li> drink </li>

<li> friends </li>

</ul>

<ul>和<li>中均可加入type属性,type的属性值有:disc(圆)、circle(圆圈)、square(方块)

有序列表 start 值为数字

有序列表由<ol>和<li>定义:

<ol>

<li>sports</li>

<li> drink</li>

<li> friends</li>

</ol>

....................................................................

我的微信公众号:UI严选 —越努力,越幸运