整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

PHP中使用DOMDocument来处理HTML、XML文档

实从PHP5开始,PHP就为我们提供了一个强大的解析和生成XML相关操作的类,也就是我们今天要讲的 DOMDocument 类。不过我估计大部分人在爬取网页时还是会喜欢用正则去解析网页内容,学了今天的这个类下回就可以尝试下使用这个PHP自带的方式来进行解析分析了。

解析HTML

// 解析 HTML
$baidu = file_get_contents('https://www.baidu.com');

$doc = new DOMDocument();
@$doc->loadHTML($baidu);

// 百度输出框
$inputSearch = $doc->getElementById('kw');
var_dump($inputSearch);

// object(DOMElement)#2 
//     ....

echo $inputSearch->getAttribute('name'), PHP_EOL; // wd

// 获取所有图片的链接
$allImageLinks = [];
$imgs = $doc->getElementsByTagName('img');
foreach($imgs as $img){
    $allImageLinks[] = $img->getAttribute('src');
}

print_r($allImageLinks);

// Array
// (
//     [0] => //www.baidu.com/img/baidu_jgylogo3.gif
//     [1] => //www.baidu.com/img/bd_logo.png
//     [2] => http://s1.bdstatic.com/r/www/cache/static/global/img/gs_237f015b.gif
// )

// 利用 parse_url 分析链接
foreach($allImageLinks as $link){
    print_r(parse_url($link));
}

// Array
// (
//     [host] => www.baidu.com
//     [path] => /img/baidu_jgylogo3.gif
// )
// Array
// (
//     [host] => www.baidu.com
//     [path] => /img/bd_logo.png
// )
// Array
// (
//     [scheme] => http
//     [host] => s1.bdstatic.com
//     [path] => /r/www/cache/static/global/img/gs_237f015b.gif
// )

是不是感觉好清晰,好有面向对象的感觉。就像第一次使用 ORM库 来进行数据库操作一样的感觉。我们一段一段来看。

$baidu = file_get_contents('https://www.baidu.com');

$doc = new DOMDocument();
@$doc->loadHTML($baidu);

首先是加载文档内容,这个比较好理解,直接使用 loadHTML() 方法加载 HTML 内容。它还提供了其它的几个方法,分别是:load() 从一个文件加载XML;loadXML() 从字符串加载XML;loadHTMLFile() 从文件加载HTML。

// 百度输出框
$inputSearch = $doc->getElementById('kw');
var_dump($inputSearch);

// object(DOMElement)#2 
//     ....

echo $inputSearch->getAttribute('name'), PHP_EOL; // wd

接下来我们使用和前端 JS 一样的 DOM 操作API来操作HTML里面的元素。这个例子中就是获取百度的文本框,直接使用 getElementById() 方法获得id为指定内容的 DOMElement 对象。然后就可以获取它的值、属性之类的内容了。

// 获取所有图片的链接
$allImageLinks = [];
$imgs = $doc->getElementsByTagName('img');
foreach($imgs as $img){
    $allImageLinks[] = $img->getAttribute('src');
}

print_r($allImageLinks);

// Array
// (
//     [0] => //www.baidu.com/img/baidu_jgylogo3.gif
//     [1] => //www.baidu.com/img/bd_logo.png
//     [2] => http://s1.bdstatic.com/r/www/cache/static/global/img/gs_237f015b.gif
// )

// 利用 parse_url 分析链接
foreach($allImageLinks as $link){
    print_r(parse_url($link));
}

// Array
// (
//     [host] => www.baidu.com
//     [path] => /img/baidu_jgylogo3.gif
// )
// Array
// (
//     [host] => www.baidu.com
//     [path] => /img/bd_logo.png
// )
// Array
// (
//     [scheme] => http
//     [host] => s1.bdstatic.com
//     [path] => /r/www/cache/static/global/img/gs_237f015b.gif
// )

这一段例子则是获取HTML文档中所有的图片链接。相比正则来说,是不是方便很多,而且代码本身就是自解释的,不用考虑正则的匹配失效的问题。配合另外一个PHP中自带的 parse_url() 方法也能非常方便地对链接进行分析,提取自己想要的内容。

XML的解析和对HTML的解析也是类似的,都使用 DOMDocument 和 DOMElement 提供的这个方法接口就可以很方便的进行解析了。那么我们想要生成一个标准格式的XML呢?当然也非常的简单,不需要再去拼接字符串了,使用这个类一样的进行对象化的操作。

生成一个XML

// 生成一个XML文档
$xml = new DOMDocument('1.0', 'UTF-8');

$node1 = $xml->createElement('First', 'This is First Node.');
$node1->setAttribute('type', '1');

$node2 = $xml->createElement('Second');
$node2->setAttribute('type', '2');
$node2_child = $xml->createElement('Second-Child', 'This is Second Node Child.');
$node2->appendChild($node2_child);

$xml->appendChild($node1);
$xml->appendChild($node2);
print $xml->saveXML();

/*
<?xml version="1.0" encoding="UTF-8"?>
<First type="1">This is First Node.</First>
<Second type="2"><Second-Child>This is Second Node Child.</Second-Child></Second>
*/

其实只要有一点点的前端 JS 的基础都不难看出这段代码的含义。使用 createElement() 方法创造 DOMElement 对象,然后就可以为它添加属性和内容。使用 appendChild() 方法就可以为当前的 DOMElement 或者 DOMDocument 添加下级节点。最后使用 saveXML() 就能够生成标准的XML格式内容了。

总结

通过上面两个简单的小例子,相信大家已经对这个 DOMDocument 操作XML类文件解析的方式非常感兴趣了。不过相对于正则解析的方式它们的性能有多大的差异并没有找到相关的测试,不过一般正常的情况下网站的HMTL文档都不会太大,毕竟各个网站也会考虑自身的加载速度,如果文档非常大的话用户体验也会很差,所以这套接口用来进行日常爬虫的分析处理工作基本是没有任何问题的。

测试代码: https://github.com/zhangyue0503/dev-blog/blob/master/php/202002/source/PHP%E4%B8%AD%E4%BD%BF%E7%94%A8DOMDocument%E6%9D%A5%E5%A4%84%E7%90%86HTML%E3%80%81XML%E6%96%87%E6%A1%A3.php

参考文档: https://www.php.net/manual/zh/class.domdocument.php


用AJAX实现的PHP RSS阅读器示例

示例代码:

```html
<!DOCTYPE html>
<html>
<head>
<title>AJAX RSS阅读器</title>
<script>
function loadRSS(url) {
var xmlhttp;
if (window.XMLHttpRequest) {
xmlhttp = new XMLHttpRequest();
} else {
xmlhttp = new ActiveXObject("Microsoft.XMLHTTP");
}
xmlhttp.onreadystatechange = function() {
if (xmlhttp.readyState == 4 && xmlhttp.status == 200) {
document.getElementById("rssFeed").innerHTML = xmlhttp.responseText;
}
}
xmlhttp.open("GET", "read_rss.php?url=" + url, true);
xmlhttp.send();
}
</script>
</head>
<body>
<h2>RSS阅读器示例</h2>
<form>
<select onchange="loadRSS(this.value)">
<option value="">选择一个RSS源</option>
<option value="https://example.com/rss1">RSS源1</option>
<option value="https://example.com/rss2">RSS源2</option>
<option value="https://example.com/rss3">RSS源3</option>
</select>
</form>
<div id="rssFeed"></div>
</body>
</html>
```

使用心得:

在开发过程中,我发现使用AJAX实现的PHP RSS阅读器可以方便地从不同的RSS源中获取并展示内容。

1. 在示例代码中,我使用了一个下拉菜单来选择不同的RSS源。当用户选择一个RSS源时,就会调用`loadRSS()`函数,将选中的URL作为参数传递给服务器端的读取脚本。

2. 通过AJAX,可以将选中的URL发送到服务器端,并接收服务器返回的RSS内容。在示例代码中,我使用了`XMLHttpRequest`对象来实现异步通信,并通过`responseText`属性获取服务器返回的RSS内容。

3. 在示例代码中,我将获取到的RSS内容展示在页面上的`rssFeed`元素中。用户可以通过选择不同的RSS源,实时获取并查看对应的内容。

在开发过程中遇到的问题和解决的bug:

在使用AJAX实现的PHP RSS阅读器的过程中,我曾遇到过一些问题和bug。其中一次遇到的问题是无法正确解析RSS内容。这可能是由于RSS源的格式不正确或解析代码有误导致的。解决这个问题的方法是检查RSS源的格式,并确保解析代码正确地处理和展示内容。

另外,我还遇到过一些其他的问题,比如RSS源无法访问、RSS内容显示不全等。这些问题通常可以通过检查RSS源链接、优化解析代码等方式来解决。

总结:

使用AJAX实现的PHP RSS阅读器可以方便地从不同的RSS源中获取并展示内容。在开发过程中,需要注意RSS源的格式和解析代码的正确性。在遇到问题时,可以通过检查RSS源链接、优化解析代码等方式来解决。

(注:以上内容为笔记,非官方文档)

我是永不低头的熊,喜欢美食、健身,当然也喜欢写代码,每天不定时更新各类编程相关的文章,希望你在码农这条路上不再孤单!

一章起了个头,这一章咱们亲身做一下这个API的基础结构。

我们给它叫做“老赵API系统”。

首先,我们要做的这个API系统是私有的,不开源的,不分发给其它人一起用(当然你非要大力推广,也随便你)。

其次,我故意遗漏了一个小小的点子,这个点子我自己用,我也是怕我这个办法泄露后会有安全问题。

就当是抛砖引玉吧。

先说要注意的几点:

0、不要使用默认首页

1、不使用SESSION和COOKIE

2、每次访问都需要验证用户名密码

3、任何单个文件都不允许能正常运行

4、任何单个文件都不允许能单独实现任何功能

5、未验证成功身份时不输出任何错误提示

相信很多高人一看这几条就会知道我要怎么做。也会有一部分人会嗤之以鼻说太初级。

管他呢,反正这是我自己摸索出来的,就是黑客黑我也只能在操作系统方面下手,在我这套系统里他永远不可能有成功的访问请求。

下面详细说:

0、不要使用默认首页。

如果你的环境里首页设置了很多,比如index.php,index.html,default.html,default.php之类的,那么你API的接口文件一定不能用这些,比如你可以用iLaoZhao_XX_api.php,这谁猜得到?

1、不使用SESSION和COOKIE。

COOKIE是用明文存在于用户端的,很容易查看和修改,这个大家都清楚。而PHP的SESSION也依赖于COOKIE来存储一个SESSION_ID。并且我们的API要每次访问就返回一次数据,很多访问方法并不会存储COOKIE,这会导致SESSION失效。

2、每次访问都验证用户名密码。

现在流行那个啥叫Token的方式,我懒得研究,倒不如每次都验证用户名和密码,这样等密码泄露后只要我改一个密码,他那边立马就不能用了。都不用等他那边信息过期。当然我们不能明文传递这些东西,需要做一定加密处理。

3、任何单个文件都不允许能正常运行。

资源文件夹不能有任何可执行文件。并且尽量多分几个文件,所有的文件相互依赖,并且把它们互相组织起来的文件又是另一个单独文件,这样即便别人知道了我们的文件路径和文件名,当访问这个文件时,也无法正常运行。

4、任何单个文件都不允许能单独实现任何功能。

某个文件要实现功能,必须依赖其它文件内的函数或类,并且当前文件不能知道这些函数和类具体在哪个文件里实现的。这样即便这个文件的源代码泄露,对方也不知道里面的依赖关系,不会连累到其它文件。

5、未验证成功身份时不输出任何错误提示。

在用户名密码出错时,系统不要输出任何有用的信息,或者输出一个假的404信息,这样别人在试探我们的系统时,根本不知道是哪一步出错了,而我们的客户端可以根据里面的暗语来判断状态。

我做一个小例子来说明一下,这个小例子只是抛砖引玉,并不是我最终的代码样子。

文件树结构:

老赵API文件树结构

根目录下只有一个文件夹,整个API系统都通过一个接口文件"DaYeLaiWanA.php"来调用。

怎么样,不知道文件结构的人根本猜不对你有哪些文件,也就不能访问任何文件。

下面的代码没有使用太先进的语法,比如类和对象啊命名空间啊啥的,新版本PHP添了好多特性,但我比较倾向于不去使用它们,我要尽量的让代码对环境没有要求,在尽可能多的版本环境下都能运行。

毕竟我们要的是安全,而不是让所有人能读懂我们的代码。

我们要尽可能的不使用教科书上的通用的写法,尽可能搞一套自己的写法。

下面是DaYeLaiWanA.php的代码:

<?php
//接口文件,单独调用这个文件没任何作用,参数必须得对,差一个字母这个文件都运行不出个毛线来。
//而参数是你自己定的,可随意加密修改。

//当然你还可以把这个路径也放到变量里,然后藏起来。
include "./iLaoZhao_funs/postget.php"; //没有依赖,但也不实现任何具体功能
include "./iLaoZhao_funs/login.php"; //依赖pdo,dbfuns,postget和接口文件
include "./iLaoZhao_funs/curl.php"; //没有依赖,但也不实现任何具体功能
include "./iLaoZhao_funs/dbfuns.php"; //依赖pdo和接口文件
//上面这些文件里涉及到安全的功能都有依赖,并且他们不知道要用的函数在哪
//全靠这个接口文件把它们组合到一起
//并且上面的函数里也会用到接口文件的函数(就是下面那个)
//这些因素缺一不可,只能由接口文件来整合他们
//上面这些文件和其它的API文件,都无法单独运行。不是缺这就是缺那。

//下面这俩函数是故意没单独放文件里的,为的就是其它文件缺少这个接口文件时在调用这个函数时会出错。
function output2Die($msg, $code = -1, $data = ''){
    $dieMsg['code'] = $code;
    $dieMsg['msg'] = $msg;
	$dieMsg['data'] = $data;
    echo json_encode($dieMsg);
    die();
}

function isPhone($phonenumber)
{
    return preg_match("/^1[3-9]\d{9}$/", $phonenumber);
}

$area = POST("area");//要使用的API种类
$class = POST("class");//要使用的API小分类
$fun = POST("fun");//要使用的API功能

//清理POST
unset($_POST['area']);
unset($_POST['class']);
unset($_POST['fun']);

if ($class !== FALSE && $fun !== FALSE){
    
	if ($area == false){
		$area = "public";
	}
    
	//生成API文件全名,这里没加密,你可以自己变动这里。
    $incFile = dirname(__FILE__)."/{$area}/{$class}/{$fun}.php";

    if (file_exists($incFile)){ //检查API文件是否存在,其实不检查也行。
		include "./config/pdodb.php"; //创建数据库连接,依赖接口文件
        include $incFile;//将单独的API文件导入进来
    }else{
		//我因为调试的原因,显示了错误信息,要求高的可以去掉。
		output2Die("无效的请求", -1);
    }
}else{
	output2Die("无效的请求", -2);
}

文件我写了注释,方便大家看,实际在使用时不能有这些注释,这些注释只能方便别人破解我们的系统,并且这个接口文件尽可能进行代码混淆加密。

然后是一个获得当前用户信息的小例子API,这个API文件存在了/iLaoZhao_api/public/login/usrMsg.php里面。在调用时大概URL是这样:

https://你的域名/iLaoZhao_api/DaYeLaiWanA.php
POST数据为:{
key:"用户名密码时间加密字符串运算后的结果",
class:"login",
fun:"usrMsg",
userName:"该用户的用户名"
}

API代码内容usrMsg.php为:

<?php
//示例文件,得到当前用户的所有信息
//文件依赖:接口文件、数据库连接文件、dbfuns文件、login文件
//单独访问这个文件根本不能运行
//依赖关系完全靠接口文件处理

//这个API读取post参数中的userName
checkUserNamePassWord(); //检查用户名密码,不对真接就终止运行了,对了的话就可以运行下面的代码
$dbArr['userName'] = POST("userName");
if($dbArr['userName'] !== false){ //这一步没必要,能验证过上面那个函数,这个参数肯定存在,但我就是写了,就是玩儿
	//一定要用PDO的绑定功能访问数据库,这种方式能避免SQL注入。
	$sql = "select * from tb_users where users_userName = :userName";
	$rec = db_query($sql,$dbArr);
	if($rec['count'] > 0){
		output2Die("成功。",1,$rec);
	}else{
		output2Die("找不到该用户。",-1); //要求高的,不要输出错误信息。
	}
}
output2Die("失败",-2); //要求高的,不要输出错误信息。

这里面的checkUserNamePassWord()函数(在iLaoZhao_funs文件夹内的login.php文件里)也比较关键:

<?php
/**
 * 判断用户名密码的函数
 此函数不允许返回东西
 调用的时候直接调用
 用户正常自然没反应
 用户不正常,这个函数直接结束程序运行。
 */
function checkUserNamePassWord(){
	$keyStr = "这里是加密字符串,这个串只有你自己知道是什么。";
	
	$key = POST("key"); //这个key是客户端把用户名密码时间加密字符串运算后的结果

	//用当前日期当第二密钥,这个作用是每天的密钥都不一样。
	//即便被拦截了,也算不出规律来,当然源码泄露了就不行了。
	//不能太精确,因为客户端与服务器端的时间不可能完全一样。
	$keyStr_Today = date('Ymd',time());
	
	//访问数据库,一定要用PDO的这个参数方式。
	//这个方式在代入数据与直接写在SQL语句里不一样。
	//sql注入在这种使用方式下完全不会生效。
	$sqlPar['username'] = POST("userName"); //这个没加密的必要,这个在输入框里就能看到,而且也会在很多地方显示。
	if($sqlPar['username'] === false || $key === false){
		//非法调用
	}
	
	//不要在sql里直接比对用户名密码
	//而且传过来的数据也没有密码
	//要取出该用户的记录,然后计算后与传过来的加密身份信息对比
	$sql = "select * from tb_users where userName=:username"; //你可以在这limit 1
	$rec = db_query($sql, $sqlPar);
	if($rec['count'] > 0){
		
		$keyInDB = md5(md5($keyStr).md5($rec['rows'][0]['userName']).md5($keyStr_Today).md5($rec['rows'][0]['passWord']));
		//上面这句是加密方式,把加密字符串、用户名、当前日期、密码的MD5连接起来并再计算一次MD5
		//当然你还可以再加点别的东西,比如字符串反转,以及其它变量之类的。
		//上面这句计算出来的和$key中的一样时,说明密码是对的。
		if($key == $keyInDB){
			//用户名密码对
			//此时我们啥也不做
			//或者你想设置某些变量也行
		}else{
			//否则
			die(); //结束程序运行,
		}
	}
}

代码里都有注释,应该能看清楚。而且还有其它的自定义函数我就不放代码了。

这样我们在扩充API时只需要在对应路径下写PHP代码文件就行,而且很多函数可以直接使用,不用include任何文件。

而且这个系统内所有的文件在单独访问时都会出错(可以设置PHP不显示错误信息),而接口文件在参数不正确的情况下也不会有什么具体运行结果。

也没有默认的首页文档可以访问。

文件路径和文件名都没规律,在网上都查不到参考。

那么想黑掉这套API只有两个办法:

0、黑掉服务器操作系统,再从文件系统入手。

1、破解客户端代码或者拦截访问数据,找到访问规律。

这两点暂时无能为力解决。

**边写文档边写代码,头有点乱,可能有遗漏的东西,不知道大家能不能看懂。

**此API系统还有很多地方可以进一步加密处理,但我个人感觉没必要了。已经够可以了。

**此代码没有使用太先进的语法,比如类啊命名空间啊啥的,新版本PHP添了好多特性,但我比较倾向于不去使用它们,我要尽量的让代码对环境没有要求,在尽可能多的版本环境下都能运行。

毕竟我们要的是安全,而不是让所有人能读懂我们的代码。

有啥忘了的以后再补充吧。