整合营销服务商

电脑端+手机端+微信端=数据同步管理

免费咨询热线:

Python网络爬虫:Requests库:get函数

Python网络爬虫:Requests库:get函数使用方法

equests库的七个主要方法:

r=requests.get(url) :

构造一个向服务器请求资源的Request对象(Request),并且get方法返回一个包含服务器资源的Response对象;

requests.get函数的完整参数如下:

requests.get(url, params=None, **kwargs)

url: 拟获取页面的url链接

params: url中额外参数,字典或字节流格式,可选

**kwargs: 12个 访问的参数

Requests库的2个重要的对象 RequestResponse对象(Response对象包含爬虫返回的所有内容)

>>> import requests #导入requests库
>>> r=requests.get("http://www.baidu.com") 
>>> print(r.status_code) #检测请求的状态码,200表示请求成功
200
>>> type(r)
<class 'requests.models.Response'>
>>> r.headers

Response对象的属性:

Response对象的处理流程如下图示:

理解Response的编码:

r.encoding:如果header中不存在charset,则认为编码为'ISO-8859-1'

r.apparent_encoding: 根据网页内容分析出的编码方式

需求:获取京东页面数据

import requests
resp=requests.get('http:www.jd.com/')
print(resp)

requests模块如何处理携带参数的get请求,返回携带参数的请求:

需求:指定一个词条,获取搜狗搜索结果所对应的页面数据

之前urllib模块处理url上参数有中文的需要处理编码,requests会自动处理url编码

发起带参数的get请求

params可以是传字典或者列表

def get(url, params=None, **kwargs):
  r"""Sends a GET request.
  :param url: URL for the new :class:`Request` object.
  :param params: (optional) Dictionary, list of tuples or bytes to send
    in the body of the :class:`Request`.
  :param \*\*kwargs: Optional arguments that ``request`` takes.
  :return: :class:`Response <Response>` object
  :rtype: requests.Response
import requests
# 指定url
url='https://www.sogou.com/web'
# 封装get请求参数
prams={
  'query':'周杰伦',
  'ie':'utf-8'
}
response=requests.get(url=url,params=prams)
page_text=response.text
with open("周杰伦.html","w",encoding="utf-8") as f:
  f.write(page_text)
  f.close()
print("ok")

利用requests模块自定义请求头信息,并且发起带参数的get请求

get方法有个headers参数 把请求头信息的字典赋给headers参数

、概述

本文的内容源自其他博客的总结,结构如下:

HTTP 的请求报文

GET 方法的特点

POST 方法的特点

GET 和 POST 的区别

二、HTTP 的请求报文

首先我们要解决的第一个问题是:GET 和 POST 是什么?

GET 和 POST 其实都是 HTTP 的请求方法。除了这 2 个请求方法之外,HTTP 还有 HEAD、PUT、DELETE、TRACE、CONNECT、OPTIONS 这 6 个请求方法。所以HTTP 的请求方法共计有 8 种,它们的描述如下所示:

接下来我们解决第二个问题:请求方法如何使用?

要解决这个问题,我们首先需要了解 HTTP 的请求报文结构:

?可以看到 HTTP 的请求报文由三部分构成:

  • 请求行:由请求方法(Method)、URL 字段和 HTTP 的协议版本组成,注意其中的空格、回车符和换行符均不可省略,所以我们的请求方法实际上就是位于请求行中的了。
  • 请求头部:位于请求行之后,个数可以为 0~若干个,每个请求头部都包含一个头部字段名和一个值,它们之间用冒号 ":" 分隔,在最后用回车符和换行符表示结束。
  • 请求数据:如果请求方法为 GET,那么请求数据为空。它主要是在 POST 中进行使用,适用于需要填表单(FORM)的场景。

我们通过一个实际的例子来看看 HTTP 的 GET 请求报文是什么样的,我们这里以访问 https://api.github.com/search/users?q=JakeWharton 为例,通过抓包我们得到的请求报文如下所示:

GET /search/users?q=JakeWharton HTTP/1.1
Host: api.github.com
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3
Accept-Encoding: gzip, deflate, br
Accept-Language: zh-CN,zh;q=0.9
Cookie: _octo=GH1.1.1623908978.1549006668; _ga=GA1.2.548087391.1549006688; logged_in=yes; dotcom_user=GoMarck; _gid=GA1.2.17634150.1554639136; _gat=1

我们重点看到请求行:

GET /search/users?q=JakeWharton HTTP/1.1

可以看到请求方法用的是 GET 请求,URL为 /search/users?q=JakeWharton,协议为 HTTP1.1。

请求行下面部分全都是请求头部,我们可以看到 host 为 api.github.com,连接方式为长连接等信息。值得注意的是我们这个例子中是不存在请求数据的。

接下来我们在来看一下 POST 请求的报文(该例子源自其他博客):

POST / HTTP/1.1
Host: www.wrox.com
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.7.6)
Gecko/20050225 Firefox/1.0.1
Content-Type: application/x-www-form-urlencoded
Content-Length: 40
Connection: Keep-Alive

name=Professional%20Ajax&publisher=Wiley

可以看到请求行中请求方法为 POST,URL 为空,协议版本也是 HTTP1.1。它和上面 GET 方法例子不一样的地方在于它的请求参数是位于请求数据中的,可以看到 name=Professional%20Ajax&publisher=Wiley 就是它的请求数据。并且我们要注意到在请求数据和请求头之间是空出一行的,这是必不可少的。

三、GET 方法的特点

1、前面的例子:https://api.github.com/search/users?q=JakeWharton 就是一个非常典型的 GET 请求的表现形式,即请求的数据会附在 URL 之后(放在请求行中),以 ? 分割 URL 和传输数据,多个参数用 & 连接。

2、除此之外,根据 HTTP 规范,GET 用于信息获取,而且应该是安全和幂等的 。

安全性指的是非修改信息,即该操作用于获取信息而非修改信息。换句话说,GET请求一般不应产生副作用,也就是说,它仅仅是获取资源信息,就像数据库查询一样,不会修改,增加数据,不会影响资源的状态。

幂等性 (Idempotence) 则指的是无论调用这个URL 多少次,都不会有不同的结果的 HTTP 方法。而在实际过程中,这个规定没有那么严格。例如在一个新闻应用中,新闻站点的头版不断更新,虽然第二次请求会返回不同的一批新闻,该操作仍然被认为是安全的和幂等的,因为它总是返回当前的新闻。

3、GET 是会被浏览器主动缓存的,如果下一次传输的数据相同,那么就会返回缓存中的内容,以求更快地展示数据。

4、GET 方法的 URL 一般都具有长度限制,但是需要注意的是 HTTP 协议中并未规定 GET 请求的长度。这个长度限制主要是由浏览器和 Web 服务器所决定的,并且各个浏览器对长度的限制也各不相同。

5、GET 方法只产生一个 TCP 数据包,浏览器会把请求头和请求数据一并发送出去,服务器响应 200 ok(返回数据)。

相关视频推荐

c++后台开发,如何让你的http web服务器做的与众不同

从50道腾讯面试题,分析腾讯c++后端工程的技能树

学习地址:C/C++Linux服务器开发/后台架构师【零声教育】-学习视频教程-腾讯课堂

需要C/C++ Linux服务器架构师学习资料加群812855908获取(资料包括C/C++,Linux,golang技术,Nginx,ZeroMQ,MySQL,Redis,fastdfs,MongoDB,ZK,流媒体,CDN,P2P,K8S,Docker,TCP/IP,协程,DPDK,ffmpeg等),免费分享

四、POST 方法的特点

  1. 根据 HTTP 规范,POST 表示可能修改变服务器上的资源的请求。例如我们在刷知乎的时候对某篇文章进行点赞,就是提交的 POST 请求,因为它改变了服务器中的数据(该篇文章的点赞数)。
  2. POST 方法因为有可能修改服务器上的资源,所以它是不符合安全和幂等性的。
  3. 从前面关于 POST 的请求报文也可以看出,POST 是将请求信息放置在请求数据中的,这也是 POST 和 GET 的一点不那么重要的区别。有一些博客的说法是 GET 请求的请求信息是放置在 URL 的而 POST 是放置在请求数据中的所以 POST 比 GET 更安全。其实这种说法很有问题,随便抓下包 POST 中的请求报文就暴露无疑了,这又何来安全之说?
  4. 因为 POST 方法的请求信息是放置在请求数据中的,所以它的请求信息是没有长度限制的。
  5. POST 方法会产生两个 TCP 数据包,浏览器会先将请求头发送给服务器,待服务器响应100 continue,浏览器再发送请求数据,服务器响应200 ok(返回数据)。这么看起来 GET 请求的传输会比 POST 快上一些(因为GET 方法只发送一个 TCP 数据包),但是实际上在网络良好的情况下它们的传输速度基本相同。

五、GET 和 POST 的区别

上面说了那么多 GET 方法和 POST 方法各自的特点,它们在外在的表现上似乎是有着诸多的不同,但是实际上,它们的本质是一样的,并无区别!!!

这似乎有些不可思议,但是我们重新回想一下 GET 和 POST 是什么?它们是 HTTP 请求协议的请求方法,而 HTTP 又是基于TCP/IP的关于数据如何在万维网中如何通信的协议,所以 GET/POST 实际上都是 TCP 链接。

也就是说,GET 和 POST 所做的事其实是一样的,如果你给 GET 加上请求数据,给 POST 加上 URL 参数,这在技术上是完全可行的,事实上确实有一些人为了贪图方便在更新资源时用了GET,因为用POST必须要到FORM(表单),这样会麻烦一点(但是强烈不建议这样子做!!!)。

既然 GET 和 POST 的底层都是 TCP,那么为什么 HTTP 还要特别将它们区分出来呢?

其实可以想象一下,如果我们直接使用 TCP 进行数据的传输,那么无论是单纯获取资源的请求还是修改服务器资源的请求在外观上看起来都是 TCP 链接,这样就非常不利于进行管理。所以在 HTTP 协议中,就会对这些不同的请求设置不同的类别进行管理,例如单纯获取资源的请求就规定为 GET、修改服务器资源的请求就规定为 POST,并且也对它们的请求报文的格式做出了相应的要求(例如请求参数 GET 位于 URL 而 POST 则位于请求数据中)。

当然,如果我们想将 GET 的请求参数放置在请求数据中或者将 POST 的请求数据放置在 URL 中,这是完全可以的,虽然这样子做并不符合 HTTP 的规范。但是这样子做是否能得到我们期望的响应数据呢?答案是未必,这取决于服务器的行为。

以 GET 方法在请求数据中放置请求参数为例,有些服务器会将请求数据中的参数读出,在这种情况下我们依然能获得我们期望的响应数据;而有些服务器则会选择直接忽略,这种情况下我们就无法获取期望的响应数据了。

所以,对于 GET 和 POST 的区别,总结来说就是:它们的本质都是 TCP 链接,并无区别。但是由于 HTTP 的规定以及浏览器/服务器的限制,导致它们在应用过程中可能会有所不同。

TTP中POST提交数据的四种方式详解

首先说一下为什么写这篇文章,以前写客户端的时候,要经常调用后端的接口,一般很多公司的接口,都是统一POST提交方式

服务端响应的是 JSON 格式字符串,方便统一管理,当时对POST不太清楚,开始的时候,不觉得有啥

但是真正等到自己写一个独立的技术社区的时候,也就是 www.helloworld.net ,需要上传,需要表单提交等

才发现,不懂这些,用到了的时候,很是费劲,很耽误时间。

下面就当是复习了,学习一下GET , POST 这两种最常用的提交方式

HTTP提交方式有哪些?

HTTP 请求方法有9种,分别是

序号

方法

描述

1

GET

请求指定的页面信息,并返回实体主体。

2

HEAD

类似于 GET 请求,只不过返回的响应中没有具体的内容,用于获取报头

3

POST

向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST 请求可能会导致新的资源的建立和/或已有资源的修改。

4

PUT

从客户端向服务器传送的数据取代指定的文档的内容。

5

DELETE

请求服务器删除指定的页面。

6

CONNECT

HTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。

7

OPTIONS

允许客户端查看服务器的性能。

8

TRACE

回显服务器收到的请求,主要用于测试或诊断。

9

PATCH

是对 PUT 方法的补充,用来对已知资源进行局部更新 。

最常用的还是 GET , POST

HTTP的组成部分

我们知道,http是一个通信协议,啥叫通信协议,通信嘛,就是两个人要沟通,协议嘛,就是怎么沟通

比如我说A,你知道我饿了想吃东西了,我再说 A 米饭, 你就知道我饿了,并且想吃米饭了。

对的,协议就是双方提前商量好的沟通的内容的格式

HTTP通信协议就是 HTTP客户端HTTP服务端 双方规定好的格式

那么这个HTTP消息,有哪几部分组成呢

很简单,HTTP消息包含两部分

  • 请求头
  • 请求体

比如我们在浏览器中发一个请求www.helloworld.net 回车,此时我们发的是GET请求

那么请求头是:

GET / HTTP/2
Host: www.helloworld.net
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:106.0) Gecko/20100101 Firefox/106.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,*/*;q=0.8
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate, br
Connection: keep-alive
Cookie: Hm_lvt_c7e77fd22dddf4a169b8d6f4807c5a4c=1668406379; Hm_lpvt_c7e77fd22dddf4a169b8d6f4807c5a4c=1668406379
Upgrade-Insecure-Requests: 1
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
If-None-Match: "d696-1nnZwKI6/LZalqvEzQx9IFil/tw"
TE: trailers

注意: HTTP 的GET请求,是没有请求体的,这也就是为什么有些公司统一封装请求为POST,而不是GET的原因了

因为POST是有请求体的,可以带大量的数据,GET因为没有请求体,携带参数只能放在URL中,能带的数据量是比较少的。

GET 请求方法

GET 访求方法最常用,也是最简单的一种,像其语义一样,GET 就是获取文件的意思

所以GET请求就是获取服务器上的某个资源 ,使用也很简单,我们记住下面两点就行了

  • GET 传参数只能在url后面带上参数,比如 http://www.helloworld.net?name=tom&age=23

服务器收到请求就可以解析出来url后面带的参数了,name=tom , age=23

  • 还有一点,很少有人说,就是上面我们说的,GET请求是没有请求体的

下面我们重点看一下POST请求

POST 请求方法

POST 是提交的意思,如果我们需要向服务器提交一些数据,就可以使用POST方法

虽然POST是提交的意思,协议规定的也是用POST提交数据,但是现在很多公司并没有这样搞

查询也会用POST,其实它只是个单词,服务端收到 请求后,是查询资源,还是删除资源,还是提交

都可以的,只是看你们公司前后端怎么规定即可。

下面我们看看POST有哪几种提交数据的方式

第一种application/x-www-form-urlencoded

这也是POST默认的一种方式 ,对应的请求头中的 Content-Type application/x-www-form-urlencoded

我们从浏览器中抓取www.helloworld.net 上的几个请求方式,为例,如下

## 请求头
POST /v1/special/getSpecialCateList HTTP/2
Host: tiger-api.helloworld.net
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:106.0) Gecko/20100101 Firefox/106.0
Accept: application/json, text/plain, */*
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate, br
Content-Type: application/x-www-form-urlencoded
Authorization: 
token: 
ts: 1668407094
sign: d41d8cd98f00b204e9800998ecf8427e
deviceType: pc
Origin: https://www.helloworld.net
Connection: keep-alive
Referer: https://www.helloworld.net/
Cookie: Hm_lvt_c7e77fd22dddf4a169b8d6f4807c5a4c=1668406379; Hm_lpvt_c7e77fd22dddf4a169b8d6f4807c5a4c=1668406398
Sec-Fetch-Dest: empty
Sec-Fetch-Mode: cors
Sec-Fetch-Site: same-site
Content-Length: 0

## 请求体
action=10&pageNum=1&pageSize=10&uuid=15139897

此种方式,一般是提交key, value 的值。

第二种:multipart/form-data

我之前把这种当作了上面的那种,后来写文件上传的时候,查了一下,原来 不是

这种提交方法一般是上传文件用的多。通常是用在客户端向服务端传送大文件数据,如:图片或者文件。

首先来解释下什么它的编码方式,首先会生成一个很长的 boundary 字符串分界线,表明下面的都是表单内容,然后紧接着跟的是表单中的第一个键值对中的名称,而后一个换行,跟着值。然后再生成一个boundary 字符串分界线,用于分割不同的键值。之后就重复以上操作,详细的流程请看下方的例子。

同样我们以 www.helloworld.net 举例,我们从里面找个接口,抓取一下,看看

# 请求头
POST http://www.helloworld.net/xyz HTTP/1.1
Host: www.helloworld.net
User-Agent: python-requests/2.24.0
Accept-Encoding: gzip, deflate
Accept: */*
Content-Type: multipart/form-data; boundary=e42346452as650adf2345fadade
Content-Length: 222
Connection: keep-alive

# 请求体
--e42346452as650adf2345fadade
Content-Disposition: form-data; name="field0"

value1
--e42346452as650adf2345fadade
Content-Disposition: form-data; name="field1"

value2
--e42346452as650adf2345fadade--
Content-Disposition: form-data; name="field2"; filename="filename"
Content-Type: text/plain

--e42346452as650adf2345fadade--

从上面我们可以知道,在请求头中的 Content-Type中,有一个 boundary=e42346452as650adf2345fadade

这个boundary后面的字符串都是随机生成的。用于请求体中数据的分段的。

其实就是个分隔符的作用。

第三种:application/json

这种就是我们现在用的最多的了,而且也非常方便

在请求头中设置 content-type=application/json,就表明请求体中的内容格式为json格式

同样的,服务端在响应的时候,顺应头中也会添加一个 content-type=application/json

同样的也是告诉客户端,我响应给你的响应体中的内容,格式同样为 json 格式

同的样我们也参照 www.helloworld.net 中的一个请求,如下

## 请求头
POST /v1/special/getSpecialList HTTP/2
Host: tiger-api.helloworld.net
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:106.0) Gecko/20100101 Firefox/106.0
Accept: application/json, text/plain, */*
Accept-Language: en-US,en;q=0.5
Accept-Encoding: gzip, deflate, br
Content-Type: application/json
Authorization: 
token: 
ts: 1668408188
sign: 08fab32346193fa92037b5ca5f9ed592
deviceType: pc
Content-Length: 30
Origin: https://www.helloworld.net
Connection: keep-alive
Referer: https://www.helloworld.net/
Cookie: Hm_lvt_c7e77fd22dddf4a169b8d6f4807c5a4c=1668406379,1668408042,1668408051; Hm_lpvt_c7e77fd22dddf4a169b8d6f4807c5a4c=1668408051
Sec-Fetch-Dest: empty
Sec-Fetch-Mode: cors
Sec-Fetch-Site: same-site
TE: trailers

## 请求体
action=10&pageNum=1&sortType=0

我们看一下响应体:

{
  "code": 1,
  "data": {
    "hasMore": false,
    "list": [
      {
        "uuid": "5441523000",
        "title": "区块链原理和应用",
        "totalCount": 0,
        "chapterCount": 1,
        "readCount": 0,
        "subscribeCount": 1,
        "createTime": "0001-01-01T00:00:00Z",
        "status": 0,
        "profile": "1037883613",
        "nicker": "小天",
        "avatar": "https://img-hello-world.oss-cn-beijing.aliyuncs.com/imgs/d04d513fbea19f6cb7c3b4beee3c7f5e.jfif",
        "subscribed": false
      },
      {
        "uuid": "bbatgp",
        "title": "C语言编程(初级)",
        "totalCount": 0,
        "chapterCount": 19,
        "readCount": 2938,
        "subscribeCount": 1,
        "createTime": "0001-01-01T00:00:00Z",
        "status": 0,
        "profile": "80662724",
        "nicker": "Suzhou",
        "avatar": "https://img-hello-world.oss-cn-beijing.aliyuncs.com/imgs/d04d513fbea19f6cb7c3b4beee3c7f5e.jfif",
        "subscribed": false
      }
    ]
  },
  "message": "获取数据成功",
  "errMessage": ""
}

第四种:text/xml

这个一直没有遇到过,很少用

其实就是请求消息中,请求体中的内容格式是纯文本xml格式

此种我们就不作介绍

有兴趣的可以下面自己查资料

综上所述,HTTP 的POST四种方法以及GET的简单介绍,我们总结如下:

  • GET请求只能在URL中携带参数,别说请求头中也能带参数,请求头中带参数,是所有的方法都可以的,不算是GET方法的
  • GET请求是没有请求体的
  • POST提交数据有四种方式,分别如下:
1. `application/x-www-form-urlencoded` , 也是默认的方式,主要提交的数据是key, value 形式的
  2. `multipart/form-data` ,此种方式 是客户端向服务端提交大数据用的,一般上传文件等用到。

? 注意这种方式,会在请求头中生成一个boundary字段,其对应的值是一个随机生成的字符串,用于分隔请求体中的数据用的

  1. application/json 此种方式,用的最多,也是最常用的方式,不过我在写www.helloworld.net的过程中,很少用这种方式
  2. 因为这种方式有一个缺点,就是服务端在解析的时候,需要创建大量的结构体或者类。所以最后选择了第一种的提交方式
  3. text/xml 这种就不怎么用了,请求体中是xml格式

简单的介绍了一下HTTP的GET,POST的一些知识,希望对你们有用。