爬虫
1 爬虫介绍
1.1 什么是爬虫
爬虫是通过编写程序来模拟浏览器上网,然后从网页中抓取数据的过程,也可以理解为让代码代替人去检测并获取网站上某个位置的数据。
难点:如何让代码伪装成人类(正常使用者)向网站发送请求。
1.2 分类
1.2.1 通用爬虫与聚焦爬虫
通用爬虫:抓取一张网页的全部源码。 聚焦爬虫:抓取一张网页中的局部内容,聚焦爬虫是建立在通用爬虫的基础上的。
1.2.2 增量式爬虫与分布式爬虫
增量式爬虫是在上一次爬虫的基础上继续爬取数据,适用于继续爬取因故未爬完的数据或网站更新的数据; 分布式爬虫是在多个服务器上部署爬虫程序,是一种提高爬取效率的方法。
1.3 反爬机制与反反爬策略
反爬机制 反爬机制是应用于网站中,用于阻止爬虫程序对网站数据进行爬取。 反反爬策略 反反爬策略是应用于爬虫中,用于破解网站的反爬机制从而实现对网站中的数据进行爬取。
1.4 requests模块
requests模块是一个基于网络请求的模块,可用于模拟浏览器上网过程。 流程:
指定url
发起请求
获取响应数据
持久化存储
1.5 Chrome的开发者工具中Elements和Netw