08 数据采集 - 如何自动化采集数据

    技术2022-07-11  131

    # Author:Nimo_Ding ''' 数据源: 1、开放数据源 政府 企业 高校 2、爬虫抓取 网页 app - 例如购物评价 Python爬虫三个步骤: 1、requests库爬取内容 2、XPath解析内容(XML Path,XML路径语言),XPath可以通过元素和属性进行位置索引。 3、使用pandas保存数据,写入xlsx、csv或mysql。 其他抓取数据工具: 火车采集器 八爪鱼 - 云采集会自动切换ip 集搜客:完全可视化操作,所见即所得。 3、日志采集 记录用户访问网站全过程:访问时间,通过渠道,系统是否产生错误,用户ip,http请求时间,用户代理。 前端采集 后端脚本 作用:通过分析用户访问情况,提升系统的性能,从而提高系统承载量,及时发现系统承载瓶颈, 方便技术人员基于用户实际访问情况进行优化。 日志采集分成两种方式: 1、通过web服务器采集: 例如httpd、NGINX、Tomcat都自带日志记录功能 2、自定义采集用户行为: JavaScript代码监听用户的行为,AJAX异步请求后台记录日志 日志采集的关键步骤就是埋点: 埋点就是在有需要的位置采集相应的信息进行上报。 推荐工具:友盟、Googleanalysis、talkingdata 4、传感器 图像 测速 热敏 作业: 预测比特币的走势 从两个角度考虑: 1、比特币的生产:价值尺度,生产力和生产成本会影响价格,作为区块链货币, 应该具有区块链的属性:会受供给增加机制影响,即产量四年减半,进而影响产量和挖币成本 如果区块链协议改变,会直接改变比特币总量。 2、比特币的交易:作为流通手段和支付手段,主要影响因素可能是税率。 但是区块如果扩容,会改变交易速度,继而影响交易手续费。 而以上信息再按照能否用二位表结构来进行逻辑表达,分类为结构化数据和非结构化数据。 结构化数据: 比特币产量、挖币成本、交易数、交易手续费走势 非结构化数据: 比特币相关新闻、比特币相关政策、比特币自身协议变更情况,可爬取比特币垂直资讯网站获得。 '''

     

    Processed: 0.016, SQL: 9