Python使用Requests库抓取网页内容

Requests是Python一个用来抓取网页内容的一个库

下面是它的详细介绍

0x00、请求

下面是抓取网页内容的例子：

import requests    #引入requests库

a = requests.get("https://www.mmuaa.com/link")    #使用get方法抓取url

这样，就成功抓取到了"https://www.mmuaa.com/link"

我们可以使用下面的代码查看抓取结果

a.status_code    #抓取的HTTP状态码
a.text    #抓取到的内容

以上就是使用GET方法请求数据，同样的，我们可以使用POST、HEAD、OPTIONS、PUT

例如

a = requests.put("http://httpbin.org/put")
a = requests.delete("http://httpbin.org/delete")
a = requests.head("http://httpbin.org/get")
a = requests.options("http://httpbin.org/get")

等等...

0x01、参数

先举个例子：

import requests

g = {"type" : "1"}    #用字典的方式存储我们要请求的数据
a = requests.get("http://api.mmuaa.com/link", g)    #发送带参数的get请求
a.url    #查看发送的url

可以看到，requests库自动帮我们处理好了url参数，并发送了出去

同理我们也可以使用POST

p = {"url" : "https://www.mmuaa.com"}    #p是要通过post传递的参数
a = requests("http://api.mmuaa.com/link",  data = p)    #发送带参数的post请求

获得了正确的结果。

0x02、响应头

使用headers函数即可查看响应头，返回类型为字典。

0x03、Cookies

发送Cookies到服务器：

url = 'http://httpbin.org/cookies'
cookies = dict(cookies_are='working')
r = requests.get(url, cookies=cookies)
r.text

这样就发送了cookies_are值为working的cookie到服务器

接收服务器返回的Cookies：

url = 'http://example.com/some/cookie/setting/url'
r = requests.get(url)
r.cookies['example_cookie_name']

这样就返回了服务器返回的名为"exa,ple_cookie_name"的cookie的值

斐斐のBlog

斐斐のBlog

Python使用Requests库抓取网页内容