期末python作业

技术2022-07-16 88

python作业

摘要这是利用python的爬虫技术完成对某网的公开数据的爬取，方便我更好的对比了解数据。

引言网络爬虫应用智能自构造技术，随着不同主题的网站，可以自动分析构造URL，去重。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。为了适应不同需求，使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。研究网络爬虫的原理并实现爬虫的相关功能,并将爬去的数据清洗之后存入数据库，后期可视化显示。

意义利用python对网站数据提取并保存

环境准备

python 3.8.2 浏览器驱动器：webDriver 安装第三方库：selenium 在cmd下执行以下命令

开始开发

导入模块编写打开目标网页首先要登录账号传入账号密码解决滑块向右滑动并登陆

传入关键字并实现自动搜索商品获取总页数 F12发现属性值相同 for循环遍历页面数据并以csv保存在当前目录利用循环遍历每一页数据结果如下： csv文件：

Processed: 0.017, SQL: 9