1 爬虫入门 requests模块 UA伪装

技术2023-10-31 111

爬虫

爬虫是通过编写程序来模拟浏览器上网，然后从网页中抓取数据的过程，也可以理解为让代码代替人去检测并获取网站上某个位置的数据。

难点：如何让代码伪装成人类(正常使用者)向网站发送请求。

通用爬虫：抓取一张网页的全部源码。聚焦爬虫：抓取一张网页中的局部内容，聚焦爬虫是建立在通用爬虫的基础上的。

增量式爬虫是在上一次爬虫的基础上继续爬取数据，适用于继续爬取因故未爬完的数据或网站更新的数据；分布式爬虫是在多个服务器上部署爬虫程序，是一种提高爬取效率的方法。

反爬机制反爬机制是应用于网站中，用于阻止爬虫程序对网站数据进行爬取。反反爬策略反反爬策略是应用于爬虫中，用于破解网站的反爬机制从而实现对网站中的数据进行爬取。

requests模块是一个基于网络请求的模块，可用于模拟浏览器上网过程。流程：

指定url 发起请求获取响应数据持久化存储

Processed: 0.019, SQL: 9