08 数据采集 - 如何自动化采集数据

技术2022-07-11 170

# Author:Nimo_Ding ''' 数据源： 1、开放数据源政府企业高校 2、爬虫抓取网页 app - 例如购物评价 Python爬虫三个步骤: 1、requests库爬取内容 2、XPath解析内容(XML Path，XML路径语言)，XPath可以通过元素和属性进行位置索引。 3、使用pandas保存数据，写入xlsx、csv或mysql。其他抓取数据工具：火车采集器八爪鱼 - 云采集会自动切换ip 集搜客：完全可视化操作，所见即所得。 3、日志采集记录用户访问网站全过程：访问时间，通过渠道，系统是否产生错误，用户ip，http请求时间，用户代理。前端采集后端脚本作用：通过分析用户访问情况，提升系统的性能，从而提高系统承载量，及时发现系统承载瓶颈，方便技术人员基于用户实际访问情况进行优化。日志采集分成两种方式： 1、通过web服务器采集：例如httpd、NGINX、Tomcat都自带日志记录功能 2、自定义采集用户行为： JavaScript代码监听用户的行为，AJAX异步请求后台记录日志日志采集的关键步骤就是埋点：埋点就是在有需要的位置采集相应的信息进行上报。推荐工具：友盟、Googleanalysis、talkingdata 4、传感器图像测速热敏作业：预测比特币的走势从两个角度考虑： 1、比特币的生产：价值尺度，生产力和生产成本会影响价格，作为区块链货币，应该具有区块链的属性：会受供给增加机制影响，即产量四年减半，进而影响产量和挖币成本如果区块链协议改变，会直接改变比特币总量。 2、比特币的交易：作为流通手段和支付手段，主要影响因素可能是税率。但是区块如果扩容，会改变交易速度，继而影响交易手续费。而以上信息再按照能否用二位表结构来进行逻辑表达，分类为结构化数据和非结构化数据。结构化数据：比特币产量、挖币成本、交易数、交易手续费走势非结构化数据：比特币相关新闻、比特币相关政策、比特币自身协议变更情况，可爬取比特币垂直资讯网站获得。 '''

Processed: 0.010, SQL: 9