某互联网app日活下跌了5%,作为数据分析师应该如何分析这个问题?
核实相关信息,确定消息来源是否可靠。确定环比下跌量和同比下跌量方差分析:波动是否在正常范围内?交叉分析/相关性分析:与日活下跌存在相关的指标,相关程度?业务分析:相关指标负责的运营业务部门?是否有某些运营策略或者活动造成了这些指标的变化?回归分析/预测:还会下跌多久?最坏情况下会下跌到什么程度?风险/损失评估:对产品的核心KPI会产生什么样的影响?制定策略:如何挽回损失/下次如何避免?下面对如上出现的关键词进行详细解释。
多维分析:将多维度的数据进行拆分、整合后分析。OLAP 交叉分析:分析两个变量时,将变量进一步细化,然后组合交叉分析。 复盘分析:推出的新策略效果如何?如果效果不错那能否继续优化?如果没有效果或反作用,寻找问题原因,记录在册,尝试突破新的方向。
环比:与连续的上个时间周期内的数据相比较
本月用户增长率环比上月增长了30%
同比:与不连续的前几个时间周期内的数据相比较
5月用户的增长率同比2月下跌10%
核心逻辑在于:是否是一个连续周期
单因素方差分析适用于三组以上平均数差异的检验。 要求数据满足正态性、独立性和方差齐性的要求,对数据要求较高,数据为连续数据。
指标是反应业务特征及其变化的数据 维度是指可指定不同值的对象的描述性属性或特征。
指标是有业务意义的,要反应业务变化的。指标是有类型的(业务类型、技术类型、行为指标、交易指标等)指标最少会关联一个维度指标是有更新频率的维度是说明和观察事物的角度,指标是衡量数据的标准。 维度是定语、指标是主语或宾语
灰度、小流量、对照控制组
相关性分析是指对两个或多个具备相关性的变量元素进行分析,并且注意相关性不等于因果性。
离散和离散变量间的相关性:卡方检验、信息增益/率。连续与连续变量间的相关性:协方差、线性相关系数(必须线性相关)。连续与离散变量间的相关性:连续变量离散化后使用卡方检验、箱型图。(1)分类问题 类别变量:用卡方检验 连续变量:先分箱为类别(分段),再用卡方检验(或颠倒自变量与因变量,再采用方差分析检验) (2)回归问题 类别变量:方差分析 连续变量:用皮尔森相关系数
方差分析、卡方检验的其核心的区别:数据类型不一样 如果是定类和定类,此时应该使用卡方检验; 如果是定类和定量,此时应该使用方差或者T检验。
卡方检验的本质是将样本数据与预期结果进行比较。 适合卡方检验的条件:样本必须是随机的;卡方检验的理论频数不能太小。
常用的卡方检验:
适合度检验(检验某变量各类的出现概率是否与给定的某种概率一致; 检验某个连续变量的分布是否服从某种理论分布。)独立性检验(检验两个变量是否相互独立。)同质性检验(检验两个或以上独立样本是否具有相同总体的某种特征。)总体方差检验与估计新增用户:日新增 活跃用户:日活跃率/周活跃率/月活跃率(如何定义根据业务需求) 日活/周活/月活(一个月里面至少一次登录,故统计要去重):DAU/WAU/MAU 留存用户:评估产品功能对用户的黏性效果 留存率:次日留存率/7日留存率/30日留存率 (40/20/10法则)
访问次数(PV)、访问人数 (UV)、转发率(转发/看到)、转化率(购买/看到广告或进入店铺)、K因子
成交总额、成交数量、客单价、付费率、复购率、访问时长 人均付费(ARPU)、付费用户人均付费(ARPPU)、人均访问时长
看转化→看流失→每一步结合其他指标分析→转化率的时间变化→每步用户画像变化
北极星指标(核心指标) 好的指标应该是比率 Facebook:月活跃人数 拼多多:GMV 喜马拉雅:用户收听时长 Instagram:照片分享率
虚荣指标:注册用户等