什么是ab测试分析ab测试的正确做法

后台收到一些旁友的留言,想学习AB测试相关知识,但市面上的教程要么太“正式”,要么知识点比较零散 。今天给大家分享的这篇文章,可谓既干货又生动活泼:
让我们想象一下,在公司的某产品研发讨论会上……
“这个功能要不要上?”
“我觉得没问题,XX指标肯定能涨一大截 。”
“我不这么想,XX指标说不定也会受到影响,你不能只想着可能的收益呀 。”
blahblah无限循环争吵中……
【什么是ab测试分析ab测试的正确做法】“好啦,别吵了,让我们开个AB看一下效果吧 。”
当现在越来越多的app都已经日活百万千万,新功能是绝对不敢、也绝无必要轻易上线的 。(因为一旦全量上线引起用户反感,损失不可估计 。)这个时候,AB实验就成为了大型功能上线前的必备利器——进行小流量的测试,利用测试的效果来预估上线后的效果 。
OK,那一个AB实验开启了之后,我们(常常是数据分析师)该怎么评估这个AB实验的效果,给出这个需求到底要不要上线的分析结论呢?这就是本文的重点所在了 。
一个合格的分析师,可以问自己以下几个问题:

  1. 我怎么衡量一个指标是否有显著变化?
  2. 当你看到指标显著时:是真的显著吗?
  3. 当你看到指标不显著时,是真的不显著吗?
  4. 一个合适的AB实验指标判断结论怎么给出?
  5. 我会遇到哪些问题、分别应该怎么处理?
接下来,让我们一起看看这些问题该怎么解答吧~
我怎么衡量一个指标是否有显著变化?结论:利用p值进行判断,一般来说p值<0.05,认为指标有显著变化 。
原因:假设检验的相关知识 。
嗯……AB实验就是一种假设检验吗?那假设检验是怎么一回事呢?
这里我举一个公开课里看到的例子 。非常生动形象 。看看我们在一个实际的Case中,怎么拒绝/接受一个假设的 。
背景:神经学家测试一种药物对小老鼠反应时间的影响,给实验组100只小老鼠注释某种药物 。神经学家知道,没有注射药物的老鼠平均反应时间是1.2s,注射了药物的老鼠平均反应时间1.05s,样本标准差0.5s 。你认为这个药物对于老鼠的反应时间有影响吗?
依照我们上面说的步骤逐步拆解:
  1. 我们先假设药物是没有影响的 。(H0:药物无影响 。ps.此处还有一个备择假设H1:药物有影响)
  2. 如果药物没有影响,换句话说,实验组的小鼠在注射药物之后,他们的反应时间均值应该是1.2s 。
  3. 假设总体小鼠的反应均值就应该是1.2s,那么我们得到的这个样本——平均反应时间1.05s的概率是多大?
  4. 求解:
(1)已知总体均值为1.2s ;
(2)已知样本均值为1.05s ,样本标准差0.5s
(3)由于样本量尚可,利用样本标准差估计总体标准差(这部分如果不懂的可以去补一下抽样分布,不详细展开说):0.5/10 = 0.05
(4)计算1.05距离1.2有几个标准差那么远?—— 1.05-1.2/0.05 = 3个
(5)当我们抽出一个样本,它落在距离总体均值1.2三个标准差的地方、甚至更远,概率是多少?——概率是正态分布钟形曲线下,3sigma之外的面积(包括正、负3sigma) 。可以通过查正态分布得知,概率是0.3%
(6)事已至此,我们可以得到的结论是:如果接受原假设,药物没作用,出现我们这种抽样结果的概率是——0.003… 我们居然就抽到了??所以,这个时候,虽然不是100%确定,但我们倾向于拒绝原假设(药物无影响),接受备择假设(药物有影响) 。
什么是ab测试分析ab测试的正确做法

文章插图
什么是ab测试分析ab测试的正确做法

文章插图
什么是ab测试分析ab测试的正确做法

文章插图
什么是ab测试分析ab测试的正确做法

文章插图
什么是ab测试分析ab测试的正确做法

文章插图
什么是ab测试分析ab测试的正确做法

文章插图
什么是ab测试分析ab测试的正确做法

文章插图
什么是ab测试分析ab测试的正确做法

文章插图
什么是ab测试分析ab测试的正确做法

文章插图
什么是ab测试分析ab测试的正确做法

文章插图
听你个大头鬼哦 。
首先,不科学 。抽样产生的误差本身就已经在我们的计算概率里了!为啥还要专门开4组实验对比?
其次,不聪明 。多样本进行对比更可能犯错 。比如说,一次抽样有5%的可能犯错,四次抽样,产生6组对比(A1A2,A1B1,A1B2,A2B1,A2B2,B1B2),一组对比时不犯错的概率95%,?假设各组对比结果相互独立,至少一组犯错的概率[ 1 -(1-0.05)^6 ] =0.265,远大于0.05 。多来几次抽样,犯错的概率增加 。更别提评估成本了——本来只用评估两组,现在需要看6组 。
最后,不好使 。AABB实验可能会影响实验的灵敏度 。流量不变则意味着各组样本流量减少一半,灵敏度下降;加大流量则更多用户进组,有可能引入风险 。因此不管怎么说都是加大成本的 。
5. 实验做了有效果,上线没有效果是怎么回事?
有可能犯第一类错误 。你看到的显著可能不是真的,只是抽样的随机误差带来的~~~

    推荐阅读