1 爬虫入门 requests模块 UA伪装

    技术2023-10-31  103

    爬虫

    1 爬虫介绍

    1.1 什么是爬虫

    爬虫是通过编写程序来模拟浏览器上网,然后从网页中抓取数据的过程,也可以理解为让代码代替人去检测并获取网站上某个位置的数据。

    难点:如何让代码伪装成人类(正常使用者)向网站发送请求。

    1.2 分类

    1.2.1 通用爬虫与聚焦爬虫

    通用爬虫:抓取一张网页的全部源码。 聚焦爬虫:抓取一张网页中的局部内容,聚焦爬虫是建立在通用爬虫的基础上的。

    1.2.2 增量式爬虫与分布式爬虫

    增量式爬虫是在上一次爬虫的基础上继续爬取数据,适用于继续爬取因故未爬完的数据或网站更新的数据; 分布式爬虫是在多个服务器上部署爬虫程序,是一种提高爬取效率的方法。

    1.3 反爬机制与反反爬策略

    反爬机制 反爬机制是应用于网站中,用于阻止爬虫程序对网站数据进行爬取。 反反爬策略 反反爬策略是应用于爬虫中,用于破解网站的反爬机制从而实现对网站中的数据进行爬取。

    1.4 requests模块

    requests模块是一个基于网络请求的模块,可用于模拟浏览器上网过程。 流程:

    指定url 发起请求 获取响应数据 持久化存储
    1.5 Chrome的开发者工具中Elements和Netw
    Processed: 0.023, SQL: 9