整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

采集定制网页工具数据的方法(网页数据的采集工具)

信息爆炸的时代,获取和分析大量的网页数据是企业和个人进行市场调研、竞争分析等重要活动的基础。为了更高效地获取所需数据,许多人选择使用网页数据采集工具定制。今天小编就来和大家分享一下自己的经验,希望能给大家带来一些启发和帮助。

1.明确需求:在开始定制网页数据采集工具之前,首先要明确自己的需求。确定需要采集的网站、目标数据类型以及所需的采集频率等。只有清楚地定义了需求,才能更好地进行后续工作。

2.选择合适的工具:市面上有许多网页数据采集工具可供选择,如Python中的BeautifulSoup、Scrapy等,以及专业的商业软件。根据自身实际情况和技术水平,选择适合自己的工具。同时,也可以结合多种工具的优势进行定制开发。

3.编写采集规则:根据需求,编写相应的采集规则是定制网页数据采集工具的关键步骤。通过分析目标网页的HTML结构和元素特征,使用XPath或CSS选择器等方式提取所需数据。在编写规则时,要考虑到网页结构的变化和数据的动态更新,保证采集的准确性和稳定性。

4.处理反爬机制:为了防止被目标网站的反爬机制拦截,我们需要采取一些措施来规避。可以设置合理的请求头信息、使用代理IP进行访问、模拟人类操作行为等。这样可以提高采集的成功率,并降低被封禁的风险。

5.数据清洗和存储:采集回来的数据往往会包含各种噪声和冗余信息,需要进行数据清洗和预处理。可以使用正则表达式、字符串处理函数等方法进行数据清洗,去除无用字符、格式化数据等。同时,选择合适的数据库或文件格式来存储采集到的数据,方便后续分析和使用。

6.定期维护和更新:网页结构和数据源都可能会发生变化,因此定期维护和更新是非常重要的。及时调整采集规则,修复可能出现的错误,并保持与目标网站的同步。同时,也要关注目标网站是否有新的反爬机制出现,及时调整策略以确保持续稳定地进行数据采集。

7.合法合规操作:在进行网页数据采集时,要遵守相关法律法规和网站的使用协议,确保自己的操作合法合规。不得利用采集工具进行非法活动,如侵犯他人隐私、侵权等。同时,在采集过程中要遵守网站的访问频率限制,以免给目标网站带来过大的压力。

通过以上经验分享,相信大家对于网页数据采集工具定制有了更清晰的认识。在实际操作中,需要不断学习和探索,结合自身需求灵活运用各种技术手段,才能更好地应对复杂多变的数据采集任务。希望本文对大家有所帮助,祝愿大家在定制网页数据采集工具的道路上取得更好的成果!

任何问题可联系我,我们一起学习!:)

第一步:下载HTML页面

基本下载网页的能力包括针对 URL 进行 HTTP GET 请求。这是任何 web 浏览器的基本操作。让我们快速回顾一下此操作的不同部分,因为它有三个不同的元素:

使用 HTTP 协议。这涉及请求的结构方式。

使用 GET 方法,这是最常见的 HTTP 方法。我们将在访问 web API 的示例中进一步了解它。

完整的 URL 描述了页面的地址,包括服务器(例如:mypage.com)和路径(例如:/page)。

该请求将通过互联网路由到服务器,并由服务器进行处理,然后将返回响应。该响应将包含状态代码,通常是 200,如果一切正常,以及结果的正文,这通常是带有 HTML 页面的文本。

大部分请求自动处理了 HTTP 客户端。在这个示例中,我们将看到如何简单请求以获取 web 页面。

HTTP 请求和响应也可以包含头部信息。头部信息包含了关于请求本身的重要信息,例如请求的总大小,内容的格式,请求的日期以及使用的浏览器或服务器等。

准备工作

使用出色的 requests 模块,获取网页非常简单。安装模块:

$ echo "requests==2.23.0" >> requirements.txt

$ source .venv/bin/activate

(.venv) $ pip install -r requirements.txt

我们将下载位于 http://www.columbia.edu/~fdc/sample.html 的页面,因为它是一个简单的 HTML 页面,易于在文本模式下阅读。

操作步骤:

导入requests模块:

import requests

使用以下URL向服务器发出请求,需要一两秒钟的时间:

url = 'http://www.columbia.edu/~fdc/sample.html'

response = requests.get(url)

检查返回对象的状态码:

response.status_code

200

检查结果的内容:

response.text

'<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">

n<html>\n<head>\n

...

完整的HTML代码

...

<!-- close the <html> begun above -->\n'

检查正在进行和返回的标头:

response.request.headers

{'User-Agent': 'python-requests/2.22.0', 'Accept-Encoding': 'gzip,

deflate', 'Accept': '/', 'Connection': 'keep-alive'}

response.headers

{'Date': 'Fri, 24 Jan 2020 19:04:12 GMT', 'Server': 'Apache',

'Last-Modified': 'Wed, 11 Dec 2019 12:46:44 GMT', 'Accept-Ranges':

'bytes', 'Vary': 'Accept-Encoding,User-Agent', 'Content-Encoding':

'gzip', 'Content-Length': '10127', 'Keep-Alive': 'timeout=15,

max=100', 'Connection': 'Keep-Alive', 'Content-Type': 'text/

html', 'Set-Cookie': 'BIGipServerCUITwww.columbia.edu-80-

pool=1311259520.20480.0000; expires=Sat, 25-Jan-2020 01:04:12 GMT;

path=/; Httponly'}


它是如何工作的...

requests 的操作非常简单;在此情况下,使用 GET 方法在 URL 上执行请求。这将返回一个结果对象,可以进行分析。主要元素是状态代码和正文内容,可以表示为文本。

完整的请求可以在请求属性中检查:

response.request

<PreparedRequest [GET]>

response.request.url

http://www.columbia.edu/~fdc/sample.html'

完整的 requests 模块文档可以在这里找到:https://requests.readthedocs.io/en/master/。

在本章的过程中,我们将展示更多 requests 库的特点。

还有更多...

所有 HTTP 状态代码可以在此网页中查看:https://httpstatuses.com/。它们也在 http.HTTPStatus 枚举中描述,具有方便的常量名称,如 OK、NOT_FOUND 或 FORBIDDEN。

状态代码的一般结构是:

1XX - 关于协议的具体信息。

2XX - 成功。

3XX - 重定向。例如:URL 不再有效,并且可在其他地方找到。新的 URL 应该被包含在内。

4XX - 客户端错误。在向服务器发送信息时存在一些错误(例如,格式错误),或者客户端存在错误(例如,需要身份验证才能访问 URL)。

最著名的错误状态代码可能是 404,当描述 URL 的资源未找到时返回该代码。尝试通过执行 requests.get(http://www.columbia.edu/invalid) 进行测试。

5XX - 服务器错误。服务器端存在错误;例如,服务器可能不可用,或者处理请求时可能存在错误。

请求可以使用 HTTPS(安全 HTTP)协议。它与 HTTP 相同,但确保请求和响应的内容是私有的。requests 会自动处理它。

任何处理任何私人信息的网站都应该使用HTTPS来确保信息没有泄漏。HTTP容易被窃听。请在有可能的情况下使用HTTPS。

第二步:解析HTML

下载原始文本或二进制文件是一个好的起点,但是网络的主要语言是HTML。

HTML是一种结构化语言,定义了文档的不同部分,例如标题和段落。HTML也是分层的,定义了子元素。将原始文本解析为结构化文档的能力基本上是从网页自动提取信息的能力。例如,如果将某些文本放入特定的HTML元素中,例如class div或heading h3标记之后,则可能是相关的文本。

准备就绪

我们将使用优秀的Beautiful Soup模块将HTML文本解析为可以分析的内存对象。我们需要使用最新版本的beautifulsoup4包与Python 3兼容。将该包添加到您的requirements.txt文件中,并在虚拟环境中安装依赖项:

$ echo "beautifulsoup4==4.8.2" >> requirements.txt

$ pip install -r requirements.txt

如何完成它...

导入 BeautifulSoup 和 requests 模块:

import requests

from bs4 import BeautifulSoup

设置要下载和获取的页面的 URL:

URL = 'http://www.columbia.edu/~fdc/sample.html'

response = requests.get(URL)

response

<Response [200]>

解析已下载的页面:

page = BeautifulSoup(response.text, 'html.parser')

获取页面标题。查看它是否与浏览器中显示的相同:

page.title

<title>Sample Web Page</title>

>>> page.title.string

'Sample Web Page'

5. 找到页面中的所有 h3 元素,以确定现有部分:

>>> page.find_all('h3')

[<h3><a name="contents">CONTENTS</a></h3>, <h3><a name="basics">1.

Creating a Web Page</a></h3>, <h3><a name="syntax">2. HTML

Syntax</a></h3>, <h3><a name="chars">3. Special Characters</a></

h3>, <h3><a name="convert">4. Converting Plain Text to HTML</

a></h3>, <h3><a name="effects">5. Effects</a></h3>, <h3><a

name="lists">6. Lists</a></h3>, <h3><a name="links">7. Links</

a></h3>, <h3><a name="tables">8. Tables</a></h3>, <h3><a

name="install">9. Installing Your Web Page on the Internet</a></

h3>, <h3><a name="more">10. Where to go from here</a></h3>]

6. 提取特殊字符部分的文本。当遇到下一个 <h3> 标签时停止:

>>> link_section = page.find('h3', attrs={'id': 'chars'})

>>> section = []

for element in link_section.next_elements:

... if element.name == 'h3':

... break

... section.append(element.string or '')

...

result = ''.join(section)

result

'3. Special Characters\n\nHTML特殊“字符实体”以和号(&&)开头并以分号(;;)结束,例如"€€" = "€"。永远流行的“不换行空格”是 。有用于重音拉丁字母和其他西欧特殊字符的特殊实体名称,例如:\n\n\n\n\n\nää\na-umlaut\n\xa0ä\xa0\n\n\nÄÄ\nA-umlaut\n\xa0Ä\xa0\n\n\náá\na-acute\n\xa0á\xa0\n\nàà\na-grave\n\xa0à\xa0\n\nññ\nn-tilde\n\xa0ñ\xa0\n\nßß\nGerman double-s\n\xa0ß\xa0\n\nþþ\nIcelandic thorn\n\xa0þ\xa0\n\xa0þ\xa0\n\n\n\n\n示例:\n\n\n对于西班牙语,您需要:\nÁÁ (Á),\náá (á),\nÉÉ (É),\néé (é),\nÍÍ (Í),\níí (í),\nÓÓ (Ó),\nóó (ó),\nÚÚ (ú),\núú (ú),\nÑÑ (Ñ),\nññ (ñ);\n¿¿ (¿);\n¡¡ (¡)。\n例如:Añorarán = AñoraránAñorarán。\n\n\n对于德语,您需要:\nÄÄ (Ä),\nää (ä),\nÖÖ (Ö),\nöö (ö),\nÜÜ (ü),\nüü (ü),\nßß (ß)。\n例如:Grüße aus Köln = Grüße aus KölnGrüße aus Köln。\n\n\n\n点击此处\n点击此处\n以获取完整列表。建议页面编码为UTF-8,这样您也可以直接从键盘输入任何字符,无论是罗马字母、西里尔字母、阿拉伯字母、

它是如何工作的...

第一步是下载页面。然后,可以像第3步那样解析原始文本。

生成的页面对象包含了解析后的信息。

BeautifulSoup允许我们搜索HTML元素。它可以使用.find()搜索第一个HTML元素,或使用.find_all()返回一个列表。

在第5步中,它搜索了一个特定的标签<a>,该标签具有特定的属性id=chars。

然后,它继续迭代.next_elements,直到找到下一个h3标签,该标签标志着该节的结束。

提取每个元素的文本,最后组合成一个单一的文本。请注意,使用or可以避免存储None,当元素没有文本时返回None。

还有更多...

正则表达式可以用作.find()和.find_all()方法的输入。例如,此搜索使用h2和h3标记:

page.find_all(re.compile('^h(2|3)'))

[<h2>Sample Web Page</h2>, <h3 id="contents">CONTENTS</h3>, <h3

id="basics">1. Creating a Web Page</h3>, <h3 id="syntax">2. HTML Syntax</

h3>, <h3 id="chars">3. Special Characters</h3>, <h3 id="convert">4.

Converting Plain Text to HTML</h3>, <h3 id="effects">5. Effects</

h3>, <h3 id="lists">6. Lists</h3>, <h3 id="links">7. Links</h3>, <h3

id="tables">8. Tables</h3>, <h3 id="viewing">9. Viewing Your Web Page</

h3>, <h3 id="install">10. Installing Your Web Page on the Internet</h3>,

<h3 id="more">11. Where to go from here</h3>]

html.parser解析器是默认的解析器,但对于某些操作,它可能会有问题。例如,对于大页面,它可能会很慢,并且它可能会在渲染高度动态的网页时出现问题。您可以使用其他解析器,例如lxml,它更快,或html5lib,它将更接近浏览器的操作方式。它们是需要添加到requirements.txt文件中的外部模块。

HTML非常灵活,可以有多种结构。本篇案例是典型的,但其他选项可将相关部分组合在大的<div>标记或其他元素内,甚至可以使用原始文本。需要进行一些实验,才能找到提取网页中的精华部分的具体过程。不要害怕尝试!

另一个有用的查找参数是使用class_参数包含CSS类。这将在本书的后面展示。

完整的Beautiful Soup文档可以在此处找到:https://www.crummy.com/software/BeautifulSoup/bs4/doc/。

eautifulsoup介绍:

  1. 是一个高效的网页解析库,可以从HTML或XML文件中提取数据
  2. 支持不同的解析器,比如,对HTML解析,对XML解析,对HTML5解析
  3. 就是一个非常强大的工具,爬虫利器
  4. 一个灵活又方便的网页解析库,处理高效,支持多种解析器
  5. 利用它就不用编写正则表达式也能方便的实现网页信息的抓取


第一步:安装BeautifulSoup4,lxml

 pip install BeautifulSoup4
    BeautifulSoup 是一个可以从HTML或XML文件中提取数据的Python库
pip install lxml
    lxml 是一种使用 Python 编写的解析库,可以迅速、灵活地处理 XML 和 HTML


第二步:导包,from bs4 import BeautifulSoup


第三步:实例化对象

html = """
<html>
    <head>
        <title>The Dormouse's story</title>
    </head>
    <body>
        <p class="story">
            Once upon a time there were three little sisters; and their names were
            <a href="http://example.com/elsie" class="sister" id="link1">
                <span>Elsie</span>
            </a>
            <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> 
            and
            <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>
            and they lived at the bottom of a well.
        </p>
        <p class="story">...</p>
"""
soup = BeautifulSoup(html, 'lxml')  # h:要解析的内容  lxml:解析器
知识补充:print(soup.prettify())  # 代码补全


第四步:打印

一、通过标签选取,会返回包含标签本身及其里面的所有内容

# print(soup.head) # 包含head标签在内的所有内容
# print(soup.p) # 返回匹配的第一个结果

1.print(soup.head)打印结果:

<head>

<title>The Dormouse's story</title>

</head>

2.print(soup.p)打印结果:

<p class="title" name="dromouse"><b><span>The Dormouse's story</span></b></p>


二、打印标签中间的文本内容,不包含<>

# .string是属性,作用是获取字符串文本
print(soup.html.head.title.string)
print(soup.title.string)

打印结果都为:The Dormouse's story


三、打印标签名

 .name --获取标签本身名称  
 print(soup.title.name)

打印结果为:title


四、打印属性的值

.attrs[]  --通过属性拿属性的值 
print(soup.p.attrs['name'])# 获取p标签name属性的属性值
print(soup.a.attrs['id']) # 获取p标签id属性的属性值

print(soup.a['id']) #第二种写法
print(soup.p['class']) # 以列表得形式保存
print(soup.a['href'])  # 也是只返回第一个值

1.print(soup.p.attrs['name'])打印结果:

dromouse

2.print(soup.p.attrs['id'])和print(soup.a['id'])打印结果:

link1

3.print(soup.p['class'])打印结果:

['title', 'asdas']

4.print(soup.a['href'])打印结果:

http://example.com/elsie


五、打印父标签下的所有子标签

.contents 获取标签子节点,以列表形式返回
.children 获取子节点,返回的是一个list类型的迭代器

print(soup.body.contents)  # a是p的子节点,获取P标签所有子节点内容 返回一个list
print(soup.body.children) #返回的是一个list类型的迭代器

1.print(soup.body.contents)的打印结果:

['\n', <p class="title asdas" name="dromouse"><b><span>The Dormouse's story</span></b></p>, '\n', <p class="story">Once upon a time there were three little sisters; and their names were

<a class="sister" href="http://example.com/elsie" id="link1"><!-- Elsie --></a>,

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>, '\n', <p class="story">...</p>, '\n']

2.print(soup.body.children)的打印结果:

<list_iterator object at 0x000002035ECC7088>


.children 获取子节点讲解

1.和for循环一起使用

for i in soup.p.children:
print(i)

打印结果: