# Author:Nimo_Ding
'''
数据源:
1、开放数据源
政府 企业 高校
2、爬虫抓取
网页 app - 例如购物评价
Python爬虫三个步骤:
1、requests库爬取内容
2、XPath解析内容(XML Path,XML路径语言),XPath可以通过元素和属性进行位置索引。
3、使用pandas保存数据,写入xlsx、csv或mysql。
其他抓取数据工具:
火车采集器
八爪鱼 - 云采集会自动切换ip
集搜客:完全可视化操作,所见即所得。
3、日志采集
记录用户访问网站全过程:访问时间,通过渠道,系统是否产生错误,用户ip,http请求时间,用户代理。
前端采集 后端脚本
作用:通过分析用户访问情况,提升系统的性能,从而提高系统承载量,及时发现系统承载瓶颈,
方便技术人员基于用户实际访问情况进行优化。
日志采集分成两种方式:
1、通过web服务器采集:
例如httpd、NGINX、Tomcat都自带日志记录功能
2、自定义采集用户行为:
JavaScript代码监听用户的行为,AJAX异步请求后台记录日志
日志采集的关键步骤就是埋点:
埋点就是在有需要的位置采集相应的信息进行上报。
推荐工具:友盟、Googleanalysis、talkingdata
4、传感器
图像 测速 热敏
作业:
预测比特币的走势
从两个角度考虑:
1、比特币的生产:价值尺度,生产力和生产成本会影响价格,作为区块链货币,
应该具有区块链的属性:会受供给增加机制影响,即产量四年减半,进而影响产量和挖币成本
如果区块链协议改变,会直接改变比特币总量。
2、比特币的交易:作为流通手段和支付手段,主要影响因素可能是税率。
但是区块如果扩容,会改变交易速度,继而影响交易手续费。
而以上信息再按照能否用二位表结构来进行逻辑表达,分类为结构化数据和非结构化数据。
结构化数据:
比特币产量、挖币成本、交易数、交易手续费走势
非结构化数据:
比特币相关新闻、比特币相关政策、比特币自身协议变更情况,可爬取比特币垂直资讯网站获得。
'''