整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

H5的爬虫设计示例

H5的爬虫设计示例

爬虫设计中,H5页面是指使用HTML5技术构建的网页。以下是几个关于H5的爬虫设计示例:

  1. 使用BeautifulSoup解析H5页面:
python复制代码import requests  from bs4 import BeautifulSoup    url='http://example.com'  # 目标H5页面的URL  response=requests.get(url)  soup=BeautifulSoup(response.text, 'html.parser')    # 使用BeautifulSoup解析H5页面的内容  # ...
  1. 使用Scrapy框架爬取H5页面:

首先,确保已经安装了Scrapy框架。然后,创建一个新的Scrapy项目,并在spiders目录下创建一个新的爬虫文件,例如h5_spider.py。在爬虫文件中,可以使用Scrapy提供的API来爬取H5页面。

python复制代码import scrapy    class H5Spider(scrapy.Spider):      name='h5'      allowed_domains=['example.com']  # 允许爬取的域名      start_urls=['http://example.com']  # 起始URL        def parse(self, response):          # 使用response对象处理H5页面的内容          # ...
  1. 使用Selenium模拟浏览器行为获取H5页面:

对于动态加载的H5页面,使用常规的爬虫方法可能无法获取完整的内容。在这种情况下,可以使用Selenium模拟浏览器的行为来获取完整的H5页面。首先,确保已经安装了Selenium库。然后,使用以下代码示例:

python复制代码from selenium import webdriver  from selenium.webdriver.chrome.options import Options  import time    url='http://example.com'  # 目标H5页面的URL  chrome_options=Options()  chrome_options.add_argument('--headless')  # 在后台运行浏览器,不弹出窗口  driver=webdriver.Chrome(options=chrome_options)  # 创建浏览器实例  driver.get(url)  # 打开目标页面  time.sleep(2)  # 等待页面加载完成,根据实际情况调整等待时间  html=driver.page_source  # 获取完整的H5页面内容  driver.quit()  # 关闭浏览器实例    # 处理获取到的H5页面内容  # ...

这些示例展示了使用不同方法来爬取H5页面的基本思路。根据具体的页面结构和需求,你可能需要进一步调整代码以处理页面内容

种抓取其中数据的方法。首先是正则表达式,然后是流行的BeautifulSoup模块,最后是强大的lxml模块。

1 正则表达式

如果你对正则表达式还不熟悉,或是需要一些提示,那么你可以查阅https://docs.python.org/2/howto/regex.html获得完整介绍。即使你使用过其他编程语言的正则表达式,我依然推荐你一步一步温习一下Python中正则表达式的写法。

由于每章中都可能构建或使用前面章节的内容,因此我建议你按照类似本书代码库的文件结构进行配置。所有代码都可以从代码库的code目录中运行,以便导入工作正常。如果你希望创建一个不同的结构,请注意需要变更所有来自其他章的导入操作(比如下述代码中的from chp1.advanced_link_crawler)。

当我们使用正则表达式抓取国家(或地区)面积数据时,首先需要尝试匹配``元素中的内容,如下所示。

>>> import re
>>> from chp1.advanced_link_crawler import download
>>> url='http://example.python-scraping.com/view/UnitedKingdom-239'
>>> html=download(url)
>>> re.findall(r'(.*?)', html)
['<img />
',
 '244,820 square kilometres',
 '62,348,447',
 'GB',
 'United Kingdom',
 'London',
 '<a>EU</a>
',
 '.uk',
 'GBP',
 'Pound',
 '44',
 '@# #@@|@## #@@|@@# #@@|@@## #@@|@#@ #@@|@@#@ #@@|GIR0AA',
 '^(([A-Z]d{2}[A-Z]{2})|([A-Z]d{3}[A-Z]{2})|([A-Z]{2}d{2} [A-Z]{
2})|([A-Z]{2}d{3}[A-Z]{2})|([A-Z]d[A-Z]d[A-Z]{2}) |([A-Z]{2}d[A-Z]
d[A-Z]{2})|(GIR0AA))$',
 'en-GB,cy-GB,gd',
 '<div><a>IE </a></div>
']

从上述结果中可以看出,多个国家(或地区)属性都使用了``标签。如果我们只想抓取国家(或地区)面积,可以只选择第二个匹配的元素,如下所示。

>>> re.findall('(.*?)', html)[1]
'244,820 square kilometres'

虽然现在可以使用这个方案,但是如果网页发生变化,该方案很可能就会失效。比如表格发生了变化,去除了第二个匹配元素中的面积数据。如果我们只在当下抓取数据,就可以忽略这种未来可能发生的变化。但是,如果我们希望在未来某一时刻能够再次抓取该数据,就需要给出更加健壮的解决方案,从而尽可能避免这种布局变化所带来的影响。想要该正则表达式更加明确,我们可以将其父元素``也加入进来,由于该元素具有ID属性,所以应该是唯一的。

>>> re.findall('<label for="places_area">Area: </label>
(.*?)', html)
['244,820 square kilometres']

这个迭代版本看起来更好一些,但是网页更新还有很多其他方式,同样可以让该正则表达式无法满足。比如,将双引号变为单引号,`标签之间添加多余的空格,或是变更area_label`等。下面是尝试支持这些可能性的改进版本。

>>> re.findall('''.*?<tds>(.*?)''', html)
['244,820 square kilometres']

虽然该正则表达式更容易适应未来变化,但又存在难以构造、可读性差的问题。此外,还有很多其他微小的布局变化也会使该正则表达式无法满足,比如在`标签里添加title属性,或者tr、td`元素修改了它们的CSS类或ID。

从本例中可以看出,正则表达式为我们提供了抓取数据的快捷方式,但是该方法过于脆弱,容易在网页更新后出现问题。幸好,还有更好的数据抽取解决方案,比如我们将在本章介绍的其他抓取库。

2 Beautiful Soup

Beautiful Soup

是一个非常流行的Python库,它可以解析网页,并提供了定位内容的便捷接口。如果你还没有安装该模块,可以使用下面的命令安装其最新版本。

pip install beautifulsoup4

使用Beautiful Soup的第一步是将已下载的HTML内容解析为soup文档。由于许多网页都不具备良好的HTML格式,因此Beautiful Soup需要对其标签开合状态进行修正。例如,在下面这个简单网页的列表中,存在属性值两侧引号缺失和标签未闭合的问题。

<ul>
 <li>Area
 </li><li>Population
</li></ul>

如果Population列表项被解析为Area列表项的子元素,而不是并列的两个列表项的话,我们在抓取时就会得到错误的结果。下面让我们看一下Beautiful Soup是如何处理的。

>>> from bs4 import BeautifulSoup
>>> from pprint import pprint
>>> broken_html='<ul><li>Area</li><li>Population</li></ul>
'
>>> # parse the HTML
>>> soup=BeautifulSoup(broken_html, 'html.parser')
>>> fixed_html=soup.prettify()
>>> pprint(fixed_html)
<ul>
 <li>
 Area
 </li><li>
 Population
 </li>
</ul>

我们可以看到,使用默认的html.parser并没有得到正确解析的HTML。从前面的代码片段可以看出,由于它使用了嵌套的li元素,因此可能会导致定位困难。幸运的是,我们还有其他解析器可以选择。我们可以安装LXML(2.2.3节中将会详细介绍),或使用html5lib。要想安装html5lib,只需使用pip。

pip install html5lib

现在,我们可以重复这段代码,只对解析器做如下变更。

>>> soup=BeautifulSoup(broken_html, 'html5lib')
>>> fixed_html=soup.prettify()
>>> pprint(fixed_html)
 <ul>
 <li>
 Area
 </li>
 <li>
 Population
 </li>
 </ul>

此时,使用了html5lib的BeautifulSoup已经能够正确解析缺失的属性引号以及闭合标签,并且还添加了和标签,使其成为完整的HTML文档。当你使用lxml时,也可以看到类似的结果。

现在,我们可以使用find()和find_all()方法来定位我们需要的元素了。

>>> ul=soup.find('ul', attrs={'class':'country_or_district'})
>>> ul.find('li') # returns just the first match
<li>Area</li>
>>> ul.find_all('li') # returns all matches
[<li>Area</li>
, <li>Population</li>

想要了解可用方法和参数的完整列表,请访问Beautiful Soup的官方文档。

下面是使用该方法抽取示例网站中国家(或地区)面积数据的完整代码。

>>> from bs4 import BeautifulSoup
>>> url='http://example.python-scraping.com/places/view/United-Kingdom-239'
>>> html=download(url)
>>> soup=BeautifulSoup(html)
>>> # locate the area row
>>> tr=soup.find(attrs={'id':'places_area__row'})
>>> td=tr.find(attrs={'class':'w2p_fw'}) # locate the data element
>>> area=td.text # extract the text from the data element
>>> print(area)
244,820 square kilometres

这段代码虽然比正则表达式的代码更加复杂,但又更容易构造和理解。而且,像多余的空格和标签属性这种布局上的小变化,我们也无须再担心了。我们还知道即使页面中包含了不完整的HTML,Beautiful Soup也能帮助我们整理该页面,从而让我们可以从非常不完整的网站代码中抽取数据。

3 Lxml

Lxml

是基于libxml2这一XML解析库构建的Python库,它使用C语言编写,解析速度比Beautiful Soup更快,不过安装过程也更为复杂,尤其是在Windows中。最新的安装说明可以参考http://lxml.de/installation.html。如果你在自行安装该库时遇到困难,也可以使用Anaconda来实现。

你可能对Anaconda不太熟悉,它是由Continuum Analytics公司员工创建的主要专注于开源数据科学包的包和环境管理器。你可以按照其安装说明下载及安装Anaconda。需要注意的是,使用Anaconda的快速安装会将你的PYTHON_PATH设置为Conda的Python安装位置。

和Beautiful Soup一样,使用lxml模块的第一步也是将有可能不合法的HTML解析为统一格式。下面是使用该模块解析同一个不完整HTML的例子。

>>> from lxml.html import fromstring, tostring
>>> broken_html='<ul><li>Area</li><li>Population</li></ul>
'
>>> tree=fromstring(broken_html) # parse the HTML
>>> fixed_html=tostring(tree, pretty_print=True)
>>> print(fixed_html)
<ul>
 <li>Area</li>
 <li>Population</li>
</ul>

同样地,lxml也可以正确解析属性两侧缺失的引号,并闭合标签,不过该模块没有额外添加和标签。这些都不是标准XML的要求,因此对于lxml来说,插入它们并不是必要的。

解析完输入内容之后,进入选择元素的步骤,此时lxml有几种不同的方法,比如XPath选择器和类似Beautiful Soup的find()方法。不过,在本例中,我们将会使用CSS选择器,因为它更加简洁,并且能够在第5章解析动态内容时得以复用。一些读者可能由于他们在jQuery选择器方面的经验或是前端Web应用开发中的使用对它们已经有所熟悉。在本章的后续部分,我们将对比这些选择器与XPath的性能。要想使用CSS选择器,你可能需要先安装cssselect库,如下所示。

pip install cssselect

现在,我们可以使用lxml的CSS选择器,抽取示例页面中的面积数据了。

>>> tree=fromstring(html)
>>> td=tree.cssselect('tr#places_area__row > td.w2p_fw')[0]
>>> area=td.text_content()
>>> print(area)
244,820 square kilometres

通过对代码树使用cssselect方法,我们可以利用CSS语法来选择表格中ID为places_area__row的行元素,然后是类为w2p_fw的子表格数据标签。由于cssselect返回的是一个列表,我们需要获取其中的第一个结果,并调用text_content方法,以迭代所有子元素并返回每个元素的相关文本。在本例中,尽管我们只有一个元素,但是该功能对于更加复杂的抽取示例来说非常有用。

本文摘自:《用Python写网络爬虫(第2版)》

作者:[德]凯瑟琳 雅姆尔(Katharine Jarmul)、[澳]理查德 劳森(Richard Lawson)

译者:李斌



针对Python 3.6版本编写。


提供示例完整源码和实例网站搭建源码,确保用户能在本地成功复现爬取网站环境,并保障网站的稳定性与可靠性以及代码运行结果的可再现性。


Internet上包含了许多有用的数据,其中大部分是可以免费公开访问的。但是,这些数据不容易使用,它们内嵌在网站的架构和样式中,在提取时也需要多加小心。网络爬取技术作为一种收集和理解网络上海量信息的方式,正变得越来越有用。


本书是使用Python 3.6的新特性来爬取网络数据的入门指南。本书讲解了从静态网站提取数据的方法,以及如何使用数据库和文件缓存技术来节省时间并管理服务器负载,然后介绍了如何使用浏览器、爬虫和并发爬虫开发一个更为复杂的爬虫。


借助于PyQt和Selenium,你可以决定何时以及如何从依赖JavaScript的网站上爬取数据,以及更好地理解在受CAPTCHA保护的复杂网站上提交表单的方法。本书还讲解了使用Python包(比如mechanize)进行自动化处理的方法、使用Scrapy库创建基于类的爬虫的方法,以及如何在真实的网站上实施所学的爬虫技巧。


本书最后还涵盖了使用爬虫对网站进行测试、远程爬取技术、图像处理以及其他相关的主题。



TML5 对于初学者甚至是非程序员来说都有着十足的吸引力。实际上,只要你访问网站,就会和 HTML 打交道。如果能够熟悉一些关键的编程技巧,当你对网站做一些细节调整或优化基本的 Web 元素时就能节省大量的时间(甚至是金钱)。因此,本文精选了 10 个对于 Web 开发者来说非常实用的 HTML 编程技巧,而且它们不需要花太多时间精力就可以轻松掌握。

1. 可与本地缓存媒体资源交互

HTML5 FileSystem API 一开始被认为是 AppCache 的替代方案,用来实现资产的动态缓存。但是你知道吗,其实你还可以用它来实现与用户本地设备上存储文件的交互。

例如,你可以在应用中添加以下功能:

  • 断点上传器:将文件复制到一个本地沙箱中,然后分批上传。出现连接中断、浏览器崩溃故障后可以重新启动上传操作。
  • 为游戏、音乐播放器,照片编辑器等媒体密集型应用启用本地缓存。
  • 为内容查看创建离线模式,例如离线视频、电子邮件附件和文本等。

注意:FileSystem API 仅被 Chrome 支持。

如果你想尝试离线存储功能,还可以参考以下资源和代码教程:

  • Eric Bidelman:如何使用 HTML5 FileSystem API[1]。
  • 管理 HTML5 离线存储 [2]。
  • HTML5 中的脱机文件:FileSystem API[3]。


2. 进行自动表单验证

对于网站安全性和流畅的用户体验来说,表单验证非常重要。所以我们应该让用户更轻松地在你的网站上输入各种正确类型的值。

在 HTML5 中有几种新的输入类型可用,这些类型已经打包进了预定义的验证功能:

  • 'email'
  • 'url'
  • 'tel'

但当你需要用户提供某些标准输入未指定的数据时(例如一个包含特殊字符的用户名),往往就会出问题了。这就是“pattern”属性派上用场的时候。

Pattern 可让你定义自定义规则,然后使用正则表达式(RegEx)验证表单输入。RegEx 指定了<input>元素值将要检查的表达式。

下面是一个添加新规则的示例。例如,你要指定密码不应超过 15 个字符,并且只能包含小写字母:

<form action="/action_page.php">
Password: <input?type="password"?name="pw"?pattern="[a-z].{1,15,}">
<input?type="submit">
</form>

为了更好地说明规则,你还可以添加一条自定义消息,告诉用户为什么他们输入的密码不符合要求。只需再加上一行来自定义弹出消息即可:

<form action="/action_page.php">
Password: <input?type="password"?name="pw"?pattern="[a-z].{1,15,}"?title="One to fifteen characters, lowercase only".>>
<input?type="submit">
</form>

3. 为 HTML5 代码元素创建缩写

Emmet[4] 是一个很好用的文本编辑器插件,可以简化你的 HTML/CSS 编码流程。这个工具使用的语法类似于 CSS 的选择器,可让你为标准 HTML 代码元素创建各种缩写。

下面是一个例子。如果你输入:

div#header>h1.logo>a{website}

则会收到:

<div?id="header">
<h1?class="logo"><a?href="">website</a></h1>
</div>

你可以使用 cheat sheet[5] 中的多种已有组合,也可以为任意 HTML 标签创建自定义组合,然后按 Tab 或 Ctrl + E 将其添加到文本编辑器中。我自己是一名从事了多年开发的web前端老程序员,目前辞职在做自己的web前端私人定制课程,去年我花了一个月整理了一份最适合2019年学习的web前端学习干货,各种框架都有整理,送给每一位前端小伙伴,想要获取的可以关注我的头条号并在后台私信我:前端,即可免费获取。

4. 实现更优的视频传输

使用 video 标签,可以将支持视频播放的媒体播放器无缝嵌入到网页中。

你可以选择:

  • 使用 getUserMedia() 或 WebRTC 启用来自摄像头的实时流。
  • 使用 src 属性播放本地托管的视频:<video src="file.avi"/>。

此外,你必须为视频指定“控件”(例如播放、暂停和音量调节),否则用户将没有任何控件可用。这里的示例代码如下:

<video width="768"?height="432"?autoplay>
<source?src="video.mp4"?type="video/mp4">
</video>

为了进一步改善观看体验,你还可以尝试使用以下属性:

  • disablePictureInPicture[6]:禁止浏览器显示画中画上下文菜单或自动请求画中画。
  • loop:提示浏览器在结束播放后自动重播视频。
  • muted:自动使视频中的音频静音。
  • poster:将自定义图像显示为视频缩略图。否则,浏览器将显示视频的第一帧作为缩略图。
  • preload:向浏览器指示哪些参数将带来最佳的用户体验。你可以将它设置为 none(无预加载要求);metadata:仅会预取视频元数据;auto:即使用户不希望观看整个视频,也要下载全部视频数据。注意:autoplay 属性的优先级高于此属性。

你可以在这个 HTML 速查表 [7] 中找到更多使用方便的多媒体文件标签。

5. 改善图像的显示方式

<picture>标签有助于优化图像的显示方式。

它通常用于:

  • 样式:指定在各种条件下应如何显示媒体(例如,为较小的屏幕加载图像的较小版本)。这是创建响应式设计的关键一环。
  • 提升速度:根据用户的屏幕规格指定应加载的图像尺寸。
  • 浏览器支持:在各种类型的浏览器中提供不同的图像格式,以显示正确的内容。

示例:

<picture>
<source?media="(min-width: 846px)"?srcset="img_1.jpg">
<source?media="(min-width: 300 px)"?srcset="img_2.jpg">
<img?src="img_3.jpg"?alt="logo">
</picture>

<picture>标签包含两个附加子元素:

  • <source>:指定媒体元素的媒体资源。
  • <img>:定义一个图像。

要启用其他样式选项,请将以下属性添加到<source>元素:

  • srcset(必需):使用它来定义图像的目标 URL。
  • media(类似于媒体查询):是一个条件,用户代理为每个<source>元素评估这个条件。
  • sizes:指定宽度描述符。
  • type:提供 MIME 类型定义。

<img>元素可用来确保在不支持<picture>元素的浏览器中正确显示图像。

6. 提升首屏页面的加载速度

如果你希望你的网站在搜索结果中获得靠前的排名,并提供出色的用户体验,那么就需要重点关注页面的加载速度。

但是,要在 Google Page Insights 中拿到高分并不是那么容易。虽然这一工具的确会标出你的网站上应该修复的内容,但是对于从头开始对网站进行编码的人们并没有提供明确的优化指导。

谷歌对于首屏设计的官方建议 [8] 有些含糊不清:

  • 调整你的 HTML 结构,以首先加载关键的首屏内容。
  • 减少你的资源使用的数据量。

所以我们来将其分解为更可操作的几个步骤:

  • 确保你的 CSS 是内联的。
  • 尽量减少、合并和消除不必要的外部 CSS 文件。
  • 自动减少阻碍渲染的 CSS 数据。
  • 使用 CSS 媒体类型和媒体查询,将某些 CSS 资源指定为非渲染阻碍类型 [9]。
  • 将<content>部分放在<sidebar>之前。
  • 推迟加载 JavaScript。
  • 生成可嵌入的字体数据以加快字体加载速度,并选择 web 安全的字体 [10]。

然后再次运行检查任务,看看是否还有需要修复的内容。

7. 网站加速

只要将 .zip 文件而不是 index.html 文件发送给浏览器,就可以节省大量带宽和下载时间。

图片来自 betterexplained[11]

要设置 .gzip 压缩,你需要在 web 主机 / 服务器上找到 htaccess 文件,并使用以下代码对其进行修改:

<ifModule mod_gzip.c>
mod_gzip_on Yes
mod_gzip_dechunk Yes
mod_gzip_item_include?file?.(html?|txt|css|js|php|pl)$
mod_gzip_item_include handler ^cgi-script$
mod_gzip_item_include mime ^text/.*
mod_gzip_item_include mime ^application/x-javascript.*
mod_gzip_item_exclude mime ^image/.*
mod_gzip_item_exclude rspheader ^Content-Encoding:.*gzip.*
</ifModule>

如果这样做不起作用,请参考下面这些针对不同 web 服务器类型的教程:

  • Apache:https://httpd.apache.org/docs/current/mod/mod_deflate.html#enable
  • Litespeed:https://www.litespeedtech.com/support/wiki/doku.php/litespeed_wiki:config:gzip-compression
  • NGINX:https://docs.nginx.com/nginx/admin-guide/web-server/compression/

8. 利用 Microdata 进行 SEO

你可以使用 microdata 将额外的上下文编入网页。然后,网络爬虫就可以从你的页面中渲染微数据,并为用户提供更好的浏览体验,以更高的精确性对你的网站建立索引并为其提供更准确的搜索结果排名。

简而言之,Microdata 由名称 / 值(name/value)对组成,每一个项目(item)定义一组命名的属性(property)。

  • 项目具有项目类型、全局标识符和一个属性列表。要创建一个新项目,请使用 itemscope attribute。
  • 属性具有一个或多个值。要将属性分配给项目,请使用 itemprop attribute。


9. 使用 HTML5 本地存储代替 Cookie

Local Storage(也称为 DOM 存储)使你可以在本地存储用户数据,这样就无需通过 HTTP 网络请求发送数据了。它可以节省带宽并提升数据存储能力。看起来不错吧?

但是有一个重要的警告:本地存储仅能保存在客户端,而 cookie 既可以保存在服务器端也可以在客户端。因此,如果你的网站使用了服务器端的 Cookie 来基于已知的用户首选项自定义内容,则迁移到本地存储可能就需要重大的架构更改工作了。

但在比较简单的情况下(例如你使用 Cookie 来存储一些基本设置),本地存储可能是一个很好的替代品,尤其是在网络连接质量较差的区域。另外请记住,本地存储对于高敏感数据(例如财务信息)可能不是理想的选择,并且建议你对本地存储的所有数据都进行额外的加密。

Jenkov 详细介绍了如何设置和配置 HTML5 本地存储 [13]。

10. 编写有编号项目的降序列表

文章最后介绍一个非常简单的技巧:你可以使用<reversed>属性添加降序列表替代升序列表。

下面是一个示例代码片段:

<ol?reversed>
<li>Ready</li>
<li>Set</li>
<li>Go!</li>
</ol>

听起来可能没有多大意义,但是当你想在页面中添加一些时髦的样式时,它可能就会派上用场了。

小结

现在你应该掌握了这 10 个新的 HTML5 技巧和窍门,它们应该可以帮助你构建更快、更人性化和更有吸引力的网站。不过千万要记得,在开始实验之前先对你的网站进行备份!



原文链接:https://mp.weixin.qq.com/s/qtQZUvsnIn0nsFbG51lQQw

作者:前端工匠