Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结

几天小编连续写了四篇关于Python选择器的文章，分别用正则表达式、BeautifulSoup、Xpath、CSS选择器分别抓取京东网的商品信息。今天小编来给大家总结一下这四个选择器，让大家更加深刻的理解和熟悉Python选择器。

一、正则表达式

正则表达式为我们提供了抓取数据的快捷方式。虽然该正则表达式更容易适应未来变化，但又存在难以构造、可读性差的问题。当在爬京东网的时候，正则表达式如下图所示：

利用正则表达式实现对目标信息的精准采集

此外，我们都知道，网页时常会产生变更，导致网页中会发生一些微小的布局变化时，此时也会使得之前写好的正则表达式无法满足需求，而且还不太好调试。当需要匹配的内容有很多的时候，使用正则表达式提取目标信息会导致程序运行的速度减慢，需要消耗更多内存。

二、BeautifulSoup

BeautifulSoup是一个非常流行的 Pyhon 模块。该模块可以解析网页，并提供定位内容的便捷接口。通过'pip install beautifulsoup4'就可以实现该模块的安装了。

利用美丽的汤去提取目标信息

使用 BeautifulSoup的第一步是将己下载的 HTML 内容解析为 soup文档。由于大多数网页都不具备良好的HTML 格式，因此BeautifulSoup需要对实际格式进行确定。BeautifulSoup能够正确解析缺失的引号并闭合标签，此外还会添加＜html ＞和＜body＞标签使其成为完整的HTML文档。通常使用find() 和find_all()方法来定位我们需要的元素。如果你想了解BeautifulSoup全部方法和参数，可以查阅BeautifulSoup的官方文档。虽然BeautifulSoup在代码的理解上比正则表达式要复杂一些，但是其更加容易构造和理解。

三、Lxml

Lxml模块使用 C语言编写，其解析速度比 BeautiflSoup更快，而且其安装过程也更为复杂，在此小编就不赘述啦。XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

Xpath

使用 lxml 模块的第一步和BeautifulSoup一样，也是将有可能不合法的HTML 解析为统一格式。虽然Lxml可以正确解析属性两侧缺失的引号，并闭合标签，不过该模块没有额外添加＜html ＞和＜body＞标签。

在线复制Xpath表达式可以很方便的复制Xpath表达式。但是通过该方法得到的Xpath表达式放在程序中一般不能用，而且长的没法看。所以Xpath表达式一般还是要自己亲自上手。

四、CSS

CSS选择器表示选择元素所使用的模式。BeautifulSoup整合了CSS选择器的语法和自身方便使用API。在网络爬虫的开发过程中，对于熟悉CSS选择器语法的人，使用CSS选择器是个非常方便的方法。

CSS选择器

下面是一些常用的选择器示例。

选择所有标签：＊
选择＜a＞标签： a
选择所有class＝”link” 的元素： .l in k
选择 class＝”link” 的＜a＞标签： a.link
选择 id= " home ” 的＜a＞标签： a Jhome
选择父元素为＜a＞标签的所有＜ span＞子标签： a > span
选择＜a＞标签内部的所有＜span＞标签： a span
选择title属性为” Home ” 的所有＜a＞标签： a [title=Home]

五、性能对比

lxml 和正则表达式模块都是C语言编写的，而BeautifulSoup则是纯Python 编写的。下表总结了每种抓取方法的优缺点。

相对困难需要注意的是。lxml在内部实现中，实际上是将CSS选择器转换为等价的Xpath选择器。

六、总结

如果你的爬虫瓶颈是下载网页，而不是抽取数据的话，那么使用较慢的方法（如BeautifulSoup）也不成问题。如果只需抓取少量数据，并且想要避免额外依赖的话，那么正则表达式可能更加适合。不过，通常情况下，l xml是抓取数据的最好选择，这是因为该方法既快速又健壮，而正则表达式和BeautifulSoup只在某些特定场景下有用。

想学习更多Python网络爬虫与数据挖掘知识，可前往专业网站：http://pdcfighting.com/

时的工作中常会遇到一些系统集成的需求，需要在软件平台集成视频监控系统。而软件开发者往往不懂安防弱电系统，不知道如何在自己的软件界面中集成一些监控的实时画面。而监控厂家提供的SDK比较复杂，很难在短时间完成集成的任务。最终导致软件平台的一些功能无法实现，影响项目的质量。

本文提供的方法主要基于VLC播放器的ActiveX插件，通过这个插件，在网页中调用摄像机的RTSP流，实现图像的实时预览，音频的监听等等功能。文章以海康的IP网络摄像机为例给出具体的调用方法，供大家学习参照。

VLC软件下载

登录VLC官网 https://www.videolan.org/，选择windows（32位）版本下载。

下载VLC软件

VLC软件安装（务必勾选插件）

运行安装文件

选择软件安装位置

一定记得要勾选网页浏览器插件

完成安装

网页编辑

可选用记事本（notepad）或专业的编辑器，输入如下代码，保存为html网页文件。

<html>
<body>

<title>TESTVDEIO-1-TEST</title>
<head>
<table>
            <tbody>
            <caption>视频监控演示</caption>
        <tr>
            <td>
            <object type='application/x-vlc-plugin' pluginspage="http://www.videolan.org/" id='vlc' events='false' width="720" height="410">
    <param name='mrl' value='rtsp://admin:q66668888@172.16.200.88:554/h264/ch1/main/av_stream' />
    <param name='volume' value='50' />
    <param name='autoplay' value='true' />
    <param name='loop' value='false' />
    <param name='fullscreen' value='false' />
    <param name='controls' value='false' />
            </td>
            <td>
            <object type='application/x-vlc-plugin' pluginspage="http://www.videolan.org/" id='vlc' events='false' width="720" height="410">
    <param name='mrl' value='rtsp://admin:q66668888@172.16.200.89:554/h264/ch1/main/av_stream' />
    <param name='volume' value='50' />
    <param name='autoplay' value='true' />
    <param name='loop' value='false' />
    <param name='fullscreen' value='false' />
    <param name='controls' value='false' />
            </td>
        </tr>
         <tr>
            <td>
            <object type='application/x-vlc-plugin' pluginspage="http://www.videolan.org/" id='vlc' events='false' width="720" height="410">
    <param name='mrl' value='rtsp://admin:q66668888@172.16.200.89:554/h264/ch1/main/av_stream' />
    <param name='volume' value='50' />
    <param name='autoplay' value='true' />
    <param name='loop' value='false' />
    <param name='fullscreen' value='false' />
    <param name='controls' value='false' />
            </td>
            <td>
            <object type='application/x-vlc-plugin' pluginspage="http://www.videolan.org/" id='vlc' events='false' width="720" height="410">
    <param name='mrl' value='rtsp://admin:q66668888@172.16.200.88:554/h264/ch1/main/av_stream' />
    <param name='volume' value='50' />
    <param name='autoplay' value='true' />
    <param name='loop' value='false' />
    <param name='fullscreen' value='false' />
    <param name='controls' value='false' />
            </td>
        </tr>
    </tbody>
</table>
            </object>
</body>
</html>

代码编辑截图

海康威视RTSP调用格式

具体请参看海康专业文档

浏览器测试

先用Google Chrome浏览器测试，提示插件不支持。

Chrome浏览器提示插件不受支持

用微软IE测试，需要安装插件。

IE浏览器提示要安装ActiveX插件

确认安装插件

浏览器只显示了第一个画面。

IE浏览器显示不完整

用编辑器测试，2种内核都能正常显示。

编辑器里测试效果

改用360浏览器，呈现2X2的画面，实现最终的显示效果。

360浏览器显示的最终效果图

结语

本文参考了一些专业文章，就不一一列出了，在这一并谢过！

由于本人水平有限，有不对的地方敬请指正。文章旨在抛砖引玉，通过讨论，相互学习，共同进步。

我是WoNew弱电蜗牛，一名从业多年的弱电工程师，在头条传播弱电专业知识和行业信息，分享工作中的经验和心得。
喜欢我的文章或视频，欢迎点赞和转发。有疑问或建议，也欢迎留言，我会尽力解答。

习web前端，首先要学HTML。

关于HTML基础知识，首先是要掌握一些常用标签的使用和他们的各个属性，这些常用的标签我总结了一下有以下这些：

html：页面的根元素。head：页面的头部标签，是所有头部元素的容器。body：页面的主体标签，页面展现的内容就放置在这里面。title：页面的标题。

meta：位于文档的头部，提供页面的元信息，包括关键字、描述等等。link：定义文档与外部资源的关系，最常用的用途就是引入样式表。script：脚本标签，可以把js脚本代码放置在这个标签内，也可以使用这个标签的src属性引入一个外部标签。style：样式标签，可以把css代码写在这个标签中。

a：超链接，href属性代表要链接到的地方，target属性代表打开方式。img：图像标签，src属性表示图片的位置。form：表单元素，它内部的input、select、textarea等标签都是比较重要的。

div：定义文档中的分区或节，可以使用div来进行页面的布局等操作。另外还有ul、li、p、button、iframe、p、table等标签也很常用，nav、section、article、header、aside、footer等语义化标签也需要了解一下。

除了要了解上面这一些标签之外，还需要对一些新的HTML5的API有一定的了解：

audio、video标签。

Canvas：定义图形，比如图表和其他图像。

input标签的accept属性，email、phone、url等类型。

getElementByClassName根据class名来获取一个元素结点。

Multiple file selection多文件选择属性。

html的import、template

process标签，webGL等内容。

小编是一个有着5年工作经验的架构师，关于web前端，自己有做材料的整合，一个完整学习web前端的路线，学习材料和工具。需要的伙伴可以私信我，发送“前端”等3秒后就可以获取领取地址，免费送给大家。对于学习web前端有任何问题（学习方法，学习效率，如何就业）都可以问我。希望你也能凭自己的努力，成为下一个优秀的程序员！

还有一些要知道的知识点：

1.doctype的作用。2.unicode、utf8等编码的原理和区别。3.如何进行页面性能优化。4.png、jpg、webp、gif等图片格式的不同的优势。5.HTML行内元素与块级元素的区别。6.移动web端开发常用head标签。7.web语义化。8.浏览器中的缓存原理

在线咨询

上一篇：HTML中的JavaScript
下一篇：慢 SQL 分析与优化

您的项目需求

*请认真填写需求信息，我们会在24小时内与您取得联系。

整合营销服务商