统计数据分析报告案例 第1篇
ABTest类似于以前的对比实验,是让组成成分相同(相似)的群组在同一时间维度下去随机的使用一个方案(方案A、或者B、C…),收集各组用户体验数据和业务数据,最后分析出哪个方案最好。
要想充分搞懂ABTest,必须理解它的原理——假设检验。在一个设计适当的 ABTest中,处理 A 和处理 B 之间任何可观测到的差异,必定是由下面两个因素之一所导致的。
这里需要介绍一下几个专业术语:
接下来介绍假设检验的基本步骤:
如何选定统计方法?那就得判断你的样本统计量符合什么分布了。
上图就是判断一个样本统计量符合什么分布的流程图,非常nice!
下面呢,则是关于Z分布,T分布,卡方分布的简单了解,其中注意考虑多个总体问题时如何计算处理。
接下来再看一下这几种分布的概率密度分布图。
可以看出,T分布与标准正态分布(Z分布)都是以0为对称的分布,T分布的方差大所以分布形态更扁平些。
双侧检验:
单侧检验:
卡方分布:
拒绝域:
(卡方分布在左侧的拒绝域特别小,所以拒绝的区间的值也比较少),所以卡方检验的拒绝域一般 放在右侧。F分布同理。
统计数据分析报告案例 第2篇
数据介绍: 从支付宝的两个营销活动中收集的真实数据集。该数据集包含支付宝中的两个商业定位活动日志。由于隐私问题,数据被采样和脱敏。虽然该数据集的统计结果与支付宝的实际规模有偏差,但不影响解决方案的适用性。
主要提供了三个数据集:
查看数据统计情况,主要是看dmp_id。
接下来查看数据重复情况。
存在重复项,需要进行去重。
从先前操作已知数据类型正常,接下来利用透视表来看各属性是否存在不合理情况。
从以上看出属性字段无异常取值,无需进行处理。
在进行ABTest前,需检查样本容量是否满足试验所需最小值。
这里需要借助样本量计算工具:
可得411107和316205远大于2167,满足最小样本量需求。
统计数据分析报告案例 第3篇
本文对diamonds
数据集进行探索性分析,并做数据可视化处理,探索钻石的价格、重量分布,及钻石价格与重量、形状、切割状态、颜色、透明度之间的关系。接下来,进行非参数检验,探究不同切割类型、颜色和透明度的钻石,价格是否具有显著性差异。最后,利用钻石的各项属性,建立多元线性模型,对钻石的价格进行预测。
由探索性分析可知,
在钻石的重量分布上, 0 − 0−0.5克拉的钻石最多,超过 1.5克拉以上的钻石逐渐变少。
在钻石透明度上,I1(最差) ,SI2,SI1,VS2,VS1,VS2,VS1,IF (最好)。观察其统计数据,发现钻石透明度一般的占比最高,钻石透明度最差和最好的比例都比较低。
理想切割及优质切割的钻石占比超过一半以上。联系现实原因而言,因为钻石为奢侈品,切割水平高可以使钻石达到更好的视觉效果。所以理想切割及优质切割的钻石占比较高。
钻石总深度百分比及顶部相对于最宽点的宽度均符合正态分布。
本文建立了预测钻石价格的多元线性模型,响应变量为price,预测变量为数据集中除price之外其他变量,模型均方误差为 0.2606446(价格已取对数)。下一步可考虑使用交叉验证对模型参数进行调整,取最优方案对钻石价格进行预测。