系统最近报表查询量很大,特别是月初,服务器压力特别大,故考虑调研华为数据仓是否可以有效解决此场景,由于只花2天时间,故只是简单了解。由于公司内部对报表统计查询等操作是采取三条线调研,一条是把数据导入ES进行查询操作,一条是数栖平台(另一个同事去调研),一条是我调研的DWS。如果后续要采用这套系统,才会细节深入。
1、首先登陆官方帮助文档,先简单过一遍,因为单独看这个文档没啥用,特别是迁移这一块,易错且麻烦,由于我对产品的设计拙见,一直的思想是:傻瓜式的设计,第一步是什么,下一步是什么,然后我使用这个产品或者此处读这个文档我会遇到什么麻烦,我想知道的关键点着重标记。
https://support.huaweicloud.com/dws/index.html
2、上面是文档的主线,细节需要劳烦你的眼睛瞎逛,我的使用主线第一步是:下载他的可视化工具,不过其实navicat工具也可以,下载完毕,你需要去华为云数据仓控制台。 3、创建好集群,由于公司是长期合作关系,故搞了一张免费券调研,奈何运维把这券弄到了架构师的私人账号,里面欠费了,只有交清了费用才能使用优惠券,报不了账,我现在还冤大头的垫着呢(我本来不想提,但是同事告诉我,扣钱的时候他们可没手软,哈哈,世纪好同事)。当费用交清后,购买集群时,其实是没有选择优惠券付款的,而是直接优先扣那个,但是当时我很方,故买的是最便宜的学习环境的,由于怕直接扣钱,哈哈,我就想说了,购物支付时,如果有优惠券,购物时都要弹出是否选优惠券进行支付,你倒好,藏得深呀。 3、当建立好数据仓后,数据仓里面得有数据进行测试呀,此时该到了怎么导数据进去,之前我还不清楚华为云数据迁移,SB的一头栽到数据仓文档里面去,其中有个叫DSC的玩意儿,真心受不了了,麻烦就算了,还易错,你是在告诉我不花钱的东西都是垃圾东西么。后面又采用java随机写数据进去,领导才过来说,使用华为云数据迁移,我本来对华为云就不熟悉,然后以为又要大量用钱,我这不还是为企业考虑省钱嘛,故能费钱的一律绕过,啧啧。 4、华为云数据迁移还是比较稳当,全量迁移的时候目前并未发现数据有遗漏,但是迁移太慢,我不知道是我操作有问题还是怎么的,当然我知道,如果迁移我选的字段比较少一些,肯定是会更快的。 5、写sql测试查询,由于我是行存储的,发现太慢,并得出一个规律:当数据量增大,全量查询时间递增,如果走索引,索引查询的数据量不变,全量递增,查询时间几乎不变。 6、修改存储为列存储,同样的sql,行存储要13分半钟才能查出来,现在只需要40秒就可以查出来,领导对此查询时间貌似还很满意,但是之前咨询华为技术时,说的是,你们这才几亿数据,官网说的是PB级,40秒我真心觉得时间还是太长。 综述:这差不多是我的主线吧,细节看文档即可,至于是否选择DWS进行报表统计查询就是领导的事情咯,如果后续要使用此产品,还是我来做,我定来更新此文章,记录踩坑集锦。
最后:遇不到问题,你让我怎么成长。