使用python的正则表达式的匹配规则P来匹配HTML标签及内容

意事项：P为大写

代码如下所示：

import re #必须导入内置的正则表达式re模块
str='<html><p1><b>zhangsan</b></p1></html>' #设置字符串为html3个标签以及标签内部内容，并赋值给str
pattern1=re.compile(r'<(?P<name1>\w+)><(?P<name2>\w+)><(?P<name3>\w+)>(.+)</(?P=name3)></(?P=name2)></(?P=name1)>')
#上面这行是设置html3个标签以及标签内部内容的正则表达式匹配规则
result1=re.match(pattern1,str) #代表从头开始在字符串str中按照匹配规则pattern1进行匹配，并将匹配结果赋值给result1
print("result1:",result1) #打印匹配的结果result1的值
print("result1.span():",result1.span()) #打印匹配的结果result1所在的起始位置和结束位置
print("result1.group():",result1.group()) #按照分组原则打印匹配的结果result1的分组值

代码运行结果如下：

result1: <re.Match object; span=(0, 37), match='<html><p1><b>zhangsan</b></p1></html>'>

result1.span(): (0, 37)

result1.group(): <html><p1><b>zhangsan</b></p1></html>

图片示例如下：

着互联网的迅猛发展，信息的获取变得越来越重要。在这个信息爆炸的时代，如何高效地采集文章列表成为了许多人关注的焦点。在这里，我们为您提供了最全面的采集文章列表正则代码，助您事半功倍。

一、匹配标题

在采集文章列表中，首先需要匹配标题。以下是一个简单而有效的正则表达式示例：

<title>(.*?)<\/title>

这个正则表达式可以匹配HTML页面中的标题标签，并提取出其中的内容。

二、提取链接

采集文章列表还需要提取链接。以下是一个常用的正则表达式示例：

(.*?)<\/a>

这个正则表达式可以匹配HTML页面中的链接标签，并提取出其中的链接地址和链接文本。

三、过滤无效链接

在采集文章列表时，经常会遇到一些无效链接，我们需要对其进行过滤。以下是一个简单而实用的正则表达式示例：

^(https?|ftp)://[^\s/$.?#].[^\s]*$

这个正则表达式可以过滤掉不符合URL规则的链接。

四、提取日期

采集文章列表中，经常需要提取发布日期。以下是一个常用的正则表达式示例：

\d{4}-\d{2}-\d{2}

这个正则表达式可以匹配日期格式为YYYY-MM-DD的字符串。

五、提取作者

有时候，我们还需要提取文章列表中的作者信息。以下是一个简单的正则表达式示例：

<span class="author">(.*?)<\/span>

这个正则表达式可以匹配HTML页面中的作者标签，并提取出其中的内容。

六、分页处理

在采集文章列表时，通常会遇到分页的情况。以下是一个常用的正则表达式示例：

下一页<\/a>

这个正则表达式可以匹配HTML页面中下一页链接标签，并提取出其中的链接地址。

七、异常处理

在采集文章列表过程中，可能会遇到一些异常情况，比如网页无法访问或者超时等。对于这些情况，我们可以使用异常处理机制进行处理，保证采集任务的稳定进行。

八、其他注意事项

在采集文章列表时，还需要注意一些细节问题。比如设置合适的请求头、处理编码问题、合理设置请求间隔等等。

通过以上8点内容，我们详细介绍了如何使用正则表达式采集文章列表。这些正则代码将极大地提高您的工作效率，助您事半功倍。无论您是研究人员、程序员还是数据分析师，掌握这些技巧都会对您的工作产生积极的帮助。

在这个信息时代，采集文章列表成为了许多人必备的技能。相信通过我们提供的最全面的采集文章列表正则代码，您一定能够更加高效地获取所需信息。让我们一起迎接信息时代的挑战吧！

试一个正则，差不多能匹配所有的url。

测试url的数组

$url_arr=array(
"https://www.a12.com/url/Url-4-PU-UK-ug-AC/123.html",
"https://www.a12.com/url/url-4-pu-uk-ug-ac/123.html",
"http://www.a12.com",
"https://pan.baidu.com/s/1e11w",
"pan.baidu.com/s/1E11W",
"pan.baidu.com/s/1e11w",
'ftp://166.111.161.47',
'ftp.math.cuhk.edu.hk',
'www.baidu',
);

正则

$reg='/^((https?|ftp|news):\/\/)?([a-z]([a-z0-9\-]*[\.。])+([a-z]{2}|aero|arpa|biz|com|coop|edu|';
$reg.='gov|info|int|jobs|mil|museum|name|nato|net|org|pro|travel)|(([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}';
$reg.='([0-9]|[1-9][0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5]))(\/[a-z0-9_\-\.~]+)*(\/([a-z0-9_\-\.]*)(\?[a-z0-9+_\-\.%=&]*)?)?(#[a-z][a-z0-9_]*)?$/';

便利匹配

$str='';

foreach ($url_arr as $k => $v) {

$str .= preg_match($reg,$v);

}

var_dump($str);

结果

在线咨询

上一篇：HTML5中Nav元素的正确打开方式
下一篇：超详细MP4格式分析

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商

使用python的正则表达式的匹配规则P来匹配HTML标签及内容

测试url的数组

正则

便利匹配

结果

您的项目需求