这里完成了像百度服务器请求的发送,然后获取响应。 然后获取百度的源代码(响应体):
print(response.text)有了响应体就可以对源代码进行解析了。 获取响应头:
print(response.headers)获取状态码:
print(response.status_code)状态码为200说明正常访问了百度。 刚刚没有传入headers,现在传入headers试试: 打开网页的源码:
复制这里的User-Agent,比如我的是:https://pics6.baidu.com/feed/64380cd7912397dda437d21a589954b1d0a28707.jpeg?token=ad200f77bdeed57adc64b20a21abc215 然后创建一个字典:
headers = {} # 将User-Agent字段添加进去: headers['User-Agent'] = 'https://pics6.baidu.com/feed/64380cd7912397dda437d21a589954b1d0a28707.jpeg?token=ad200f77bdeed57adc64b20a21abc215'然后重新发送请求,将headers作为参数传入:
response = requests.get('http://www.baidu.com',headers=headers)看看相应:
print(response.status_code)成功访问。 下面简单地爬一张图片:
# 将一张图片的URL复制过来,然后传入get里 response = requests.get('https://pics6.baidu.com/feed/64380cd7912397dda437d21a589954b1d0a28707.jpeg?token=ad200f77bdeed57adc64b20a21abc215') # 输出图片的二进制流,获得响应体的二进制格式 print(response.content)这里仅仅输出来的是响应体的二进制格式,可以使用python的写入方法来获取图片:
# 输入的参数分别为图片的储存路径和模式 with open('d:\\desktop\\td.jpg', 'wb') as f: f.write(response.content) f.close()打开桌面的图片就可以看见:
是万茜。