在网站分析中,经常会做网站优化测试,就会比较不同方案的转换率,例如跳出率,订单购买率,按钮点击率等;也会记录访客或者客户的详细数据表现。但很多时候差异都很小,究竟是保持现状还是全面采用新方案的内容,很难有结论,于是两者差异在统计学的意义是否显著就变得很重要。 这篇文章主要讲解两种检验数据的方法:分别是在Excel中使用已经写好函数的数据显著性计算器,和使用SPSS对详细客户数据进行显著性检验。 一、Excel-数据显著性计算器 假设有下列的数据: 社交媒体来源访问数订单订单购买率 YouTube250008903.56% Facebook48002405% 那么我们可以使用Avinash Kaushik介绍的Excel-数据显著性计算器来检验,详细请查看 Excel文件可从此处下载: 输入数据后计算得知(Number of Test Participants是分母,Number of Conversions是分子),差异是显著的,因为方框中显示了”Yes”
以上方法的原理是两组数据的差异超过了数据置信区间的话,那么就会出现数据显著性差异的结果。 以上的方法适用于简单的两个比率之间的对比,接下来要说说高级点的内容,SPSS中的假设检验问题来比较两个样本的均值。 二、两独立样本T检验 SPSS中比较均值的方法包括: 假设检验的方法样本变量关系范例 均值(单双因素)单样本变量之间网站分析师的月(工资、经验、工作地点)关系 单样本T检验单样本变量自身iPhone的机身长度 两独立样本T检验双样本变量之间不同促销方案的效果、男女性的身高 配对样本T检验同一总体双样本变量自身不同月份访客的购买行为 在介绍两独立样本T检验之前,先说下均值的比较情况,由浅入深。 1.均值的检验 假设检验的步骤一般分为以下几步: 1)确定原假设和备选假设(原假设就的意思是对总体的比例、均值或分布做出某种假设) 2)选择检验统计量 3)计算检验统计量观测值发生的概率,P值 4)给定显著性水平α, 如果P<α, 即小概率事件发生,即原假设发生的概率很小,那么推翻原假设,如果P>α, 那么原假设成立。 假设有以下两种情况: 1)工厂的质量管理员说:产品缺陷率只有1/1000, 然后你开始抽查,抽了5件,就有2件是有问题的,那么问题就大单了。 因为1000件中最大缺陷数是1件,现在有2件,也就是概率极小的事情发生。 最大缺陷数原假设检验结论 11/10002/5否定 2)工厂的质量管理员说:产品缺陷率只有1/100,然后你开始抽查,抽了5件,就有2件是有问题的,那么问题也挺大单。 1000件中最大缺陷数是10,现在有2件,接下来还有995件要查,那么有两种可能: *产品缺陷率远远高于1%,质量管理员忽悠人; *碰巧抽到有缺陷的产品,接下来的995件很少有缺陷的了。 概率计算:
原假设:也就是假设产品缺陷率是1/100, 前面抽了5件,就有2件次品的概率是0.088%; 最大缺陷数原假设检验结论 101/1002/5未定 抽5件中2件,后续抽查产品缺陷率小于1/100的的概率为0.088%;抽5件中2件,后续抽查产品缺陷率大于1/100的的概率为99.912%,即原假设发生的概率<α,如果α为5%,那么0.088%<5%, 即检验中的小概率事件发生,原本不太可能的事情发生了,那么推翻原假设。 注意:数据案例来自李洪成老师的SPSS资料 2.两独立样本T检验 两独立样本T检验指的是两个样本来自的总体相互独立,目的是分析两个独立样本的均值是否有显著的统计差异。接下来的案例背景是:不同优化方案影响访客订单价值的情况。 一、前提条件: 要进行两独立样本T检验,要满足以下条件: 1)总体相互独立 2)总体服从正态分布 3)样本的方差相同 原始数据如下:
1.数据设置 1)选择分析-描述统计-探索
2)将访客销售额(sales)填入因变量列表,不同方案(test类型)填入因子列表:
3)点击绘制,勾选直方图和带检验的正态图
2.数据报告 由下图得知,两个方案各有200个样本:
由下图得知: 1) 0方案的销售额均值(1697)大于1方案的销售额均值(1570) 2)二者的标准差相差不大,657/610标准差比为约等于1。
下图是0方案的直方图(验证是否具有正态性)
下图是1方案的直方图(验证是否具有正态性)
从下图得知,0和1方案的P值(sig)都大于0.05,因此都具有正态性。
二、正式分析两独立样本的T检验 点击分析-比较均值-独立样本T检验:
将sales放进检验变量,test放进分组变量,同时点击“定义组”,分别用0和1来填充:
两独立样本检验假设了两种情况,分别是方差相等和方差不相等的T检验结果。 方差方程的Levene检验的P值为0.94,大于0.1,说明两个独立样本的方差是齐性的,因此选择假设方差相等的情况。 方差相等情况下,SIG(P值)为0.047,小于显著性水平0.05,因此说明1方案的消费金额显著不同于0方案的消费金额,0方案在统计上比1方案具有显著性特征。
注意:以上SPSS数据库的数据是导入excel数据生成的,以上excel数据是虚拟的,可通过rand()函数随机生成。 以上就是对于数据的统计学意义的验证,随着大数据时代的到来,单纯的网站前端数据分析显得比较简单,客户数据和订单数据的分析需求会越来越多,希望对工具的熟练掌握能够帮我们理顺这一切。 原文:深圳网站分析 (责任编辑:admin) |