python作业
摘要 这是利用python的爬虫技术完成对某网的公开数据的爬取,方便我更好的对比了解数据。
引言 网络爬虫应用智能自构造技术,随着不同主题的网站,可以自动分析构造URL,去重。网络爬虫使用多线程技术,让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间,避免无限制的等待。为了适应不同需求,使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。研究网络爬虫的原理并实现爬虫的相关功能,并将爬去的数据清洗之后存入数据库,后期可视化显示。
意义 利用python对网站数据提取并保存
环境准备
python 3.8.2 浏览器驱动器:webDriver 安装第三方库:selenium 在cmd下执行以下命令
开始开发
导入模块 编写打开目标网页 首先要登录账号 传入账号密码 解决滑块向右滑动并登陆
传入关键字并实现自动搜索商品 获取总页数 F12发现属性值相同 for循环遍历页面数据 并以csv保存在当前目录 利用循环遍历每一页数据 结果如下: csv文件: