- ISBN:9787111617761
- 装帧:精裝本
- 册数:暂无
- 重量:暂无
- 开本:32开
- 页数:204
- 出版时间:2019-02-01
- 条形码:9787111617761 ; 978-7-111-61776-1
本书特色
适读人群 :0-2年的互联网从业者,主要是数字营销人员、增长黑客、产品经理、互联网运营人员,在线业务人员
本书出版目的是普及A/B测试基础理念与实践理论,希望通过传递硅谷科技创新理念,帮助国内优秀企业快速掌握试验创新基础技巧,适合初学者,如需了解更为专业的技术点可咨询作者。
无论是数据驱动、精细化运营还是增长黑客,这些都并非真正推动业务的自驱动力,真正具有普适价值、能够赋能每个组织、每个人的思维与技术是——试验,是——A/B测试。这不仅是一次次的技术探索,还是由决策探索、运营探索、产品探索、营销探索、设计探索构成的创新增长巨轮。 前谷歌广告业务的设计、开发和优化参与者、耶鲁大学计算机科学毕业、“中国创新创业大赛”与“千人计划创业大赛”双料冠军获得者——王晔博士,首次深入浅出地讲解A/B测试的理论和实践,特别介绍试验和新兴热点相结合的展望。李丰、宋星、曲卉、范冰、蒋涛等17位公司高管、KOL推荐!
内容简介
我们如今看到的各种互联网产品的改版以及创新,其背后都离不开许多上市之前的试验工作,其中被互联网、移动互联网行业广泛应用的试验方法是A/B测试。A/B测试的本质是试验,作为一种新兴的网页优化方法,通过对比试验增加转化率和注册率,带来产品和运营的创新,以实现各项指标的增长,如今它更是增长黑客所**的核心思维方式和工作方法。在流量日渐昂贵、精细化运营的大环境下,互联网产品、运营和市场营销人员需要具有A/B测试思维,以测试结果为依据做决策,优化页面,提高转化率,迭代产品。
本书作者因在谷歌总部工作时发现了A/B测试的巨大作用而回国创业,并将自己对试验的理解和多年的经验进行梳理,在书中介绍了试验的本质、A/B测试的概念和价值、A/B测试的方法论和实战步骤,以及电商、金融、教育、旅游、快消品、UGC、PGC、媒体网站、SaaS等行业的应用案例,着陆页、App、网站、服务器端和推荐算法等不同场景的优化案例,还有针对决策者、产品经理、互联网运营、市场营销和工程师的测试案例。
目录
赞 誉
前 言 试验不息 创新不止
第 1章 数据驱动是试验本质 // 1
1.1 生活处处有试验 // 1
1.1.1 “鸟”生浮沉启示录:达尔文雀的自然进化试验 // 1
1.1.2 林德试验:现代医学离不开 A/B 测试 // 6
1.1.3 洁面霜卖点效应:现代广告史就是试验发展史 // 9
1.2 数据分析与试验 // 11
1.2.1 数据不只是数字堆叠 // 12
1.2.2 后验数据分析的局限:数据的“漂亮”与“丑陋”// 13
1.2.3 试验:数据驱动业务增长的唯一力量 // 15
1.3 试验的思维 // 17
1.3.1 快速试错的互联网思维 // 17
1.3.2 试验驱动创新,创业依赖试验 // 19
1.3.3 依赖试验的增长黑客 // 21
1.4 试验驱动业务增长 // 23
1.4.1 试验让低成本探索成为可能 // 23
1.4.2 试验驱动增长无处不在 // 25
1.4.3 试验的频率决定发展的速度 // 26
1.4.4 新时代,试验文化正当时 // 28
第 2章 A/B测试是成功的试验方法 // 31
2.1 互联网时代的 A/B测试 // 31
2.1.1 谷歌引领的 A/B测试潮流 // 32
2.1.2 微软、亚马逊、脸书的经验 // 33
2.1.3 新生代 Airbnb的融会贯通 // 36
2.1.4 A/B测试是优秀企业的标配 // 41
2.2 深入解析 A/B测试 // 42
2.2.1 A/B测试的定义 // 42
2.2.2 A/B测试的特性 // 43
2.2.3 A/B 测试的试验类型 // 45
2.2.4 “伪”A/B测试 // 46
2.2.5 A/B 测试的统计学原理 // 51
第 3章 A/B测试的作战计划 // 63
3.1 试验的战略制定 // 63
3.1.1 明确战略目标 // 63
3.1.2 制定战略路线图 // 64
3.1.3 管理试验项目 // 68
3.1.4 搭建试验的基础设施 // 70
3.2 试验的战术执行 // 72
3.2.1 探索、验证闭环:试验驱动业务优化的流程 // 73
3.2.2 试验方案设计 // 78
3.2.3 试验的优先级排序 // 82
3.2.4 高频试验管理 // 85
3.3 快速上手一个试验 // 87
3.3.1 收集数据,发现问题 // 88
3.3.2 建立试验目标 // 90
3.3.3 提出试验假设 // 91
3.3.4 运行试验,验证假设 // 93
3.3.5 分析试验数据,做出决策 // 94
3.3.6 积跬步至千里,持续优化是关键 // 95
3.4 实战:从零开始一次 A/B测试 // 96
第 4章 A/B测试的完整解决方案 // 110
4.1 行业: A/B测试在各行业的应用 // 110
4.1.1 电商经典案例 // 110
4.1.2 金融经典案例 // 113
4.1.3 教育经典案例 // 115
4.1.4 旅游经典案例 // 117
4.1.5 消费品牌经典案例 // 120
4.1.6 其他行业(UGC、PGC、媒体网站、SaaS)// 124
4.2 场景: A/B 测试在各种业务场景中的应用 // 132
4.2.1 着陆页优化 // 133
4.2.2 App优化 // 139
4.2.3 网站体验优化 // 145
4.2.4 技术优化 // 148
4.2.5 算法优化 // 151
4.2.6 基于 A/B测试的高效科学运营系统 // 154
4.3 人群: A/B测试是创新人才的**技能 // 156
4.3.1 决策 // 157
4.3.2 产品 // 160
4.3.3 运营 // 166
4.3.4 市场 // 172
4.3.5 技术 // 174
第 5章 试验星火,终会燎原 // 178
5.1 人工智能 // 179
5.2 新零售 // 182
5.3 AR、VR、新硬件 // 184
5.4 区块链 // 186
5.5 智慧城市 // 187
附 录 // 191
附录 A AARRR模型的介绍 // 191
附录 B A/B测试术语表 // 194
附录 C A/B测试需求分析模板 // 202
附录 D 试验档案表格 // 203
附录 E 快速上手一个试验模板 // 204
扫封面上作者简介处的二维码,可免费获取书中所有模板。
节选
第 2章 A/B测试是成功的试验方法
2.1 互联网时代的 A/B测试
我们在前文讨论了驱动创新的试验精神和试验思维,特别是试验实践在互联网行业获得了巨大的成功,带来了巨大的商业价值。
在绝大多数传统商业模式里,产品的生产者和用户之间有层层隔阂。业务上的试验只能更多聚焦在市场营销和销售渠道,而针对产品策略的试错往往要经过深思熟虑,节奏缓慢。
互联网行业几乎完全消除了产品与用户之间的隔阂,极大地方便了互联网企业针对*终用户做大量深度的试验。这是试验驱动创新在互联网行业大获成功的关键因素。
通过多年的探索,我们已经找到了成功的试验落地形式。
如前文所述, MVP(*小可行性产品)是互联网创业项目*常见的试验方法。在商业模式还没有被完全验证的早期阶段,用*少的投入做出*小可用的产品,然后投放市场获得用户反馈。这种试验可能会得到很多负面反馈,比如产品 Bug多、功能缺少、体验差。但是 MVP试验能帮助我们用*快的效率验证市场需求,发掘商业机会,实现从 0到 1。
A/B测试是适合于成长期和成熟期的产品的试验方法。互联网业务场景实施 A/B测试的效率很高,价值很大,可以实现控制风险、高频试错、快速迭代、爆发增长。在业务实践中, A/B测试结论精确,不容易出错,可执行性很强。对于已经获得投资的企业来说,A/B测试是必须采用的试验方法。本书后续章节的重点都会围绕 A/B测试展开。
针对大型项目定制化试验方法是行业专家的核心竞争力。有很多实际项目由于受条件限制不适宜进行 A/B测试,但是又非常需要小成本试错的能力,比如交通规划、大型投资、建筑设计、工厂改造等。
下面我们介绍互联网以及“ +互联网”的行业巨头们是如何开展 A/B测试来成功实践“试验驱动创新”的。
2.1.1 谷歌引领的 A/B测试潮流
2000年谷歌的工程师**次将 A/B测试用于互联网业务的试验:搜索结果首页应该展示多少条搜索结果更合适?虽然这次 A/B测试因为搜索结果加载速度和试验数据不准确而导致失败了,但是它开启了谷歌持之以恒的 A/B测试之路。从那以后, A/B测试被广泛应用于互联网公司的优化迭代,每年数万个试验被谷歌、亚马逊、 eBay、百度、阿里巴巴等主流互联网公司应用于线上 UI内容优化、算法优化、收益优化等方方面面。
事实上,谷歌的各条产品线每个月都有成百上千个不同的试验版本在运行。搜索广告产品的每一次新改动都要经过严格的在线 A/B测试来验证效果,在保护用户的搜索体验的同时,提高谷歌的营业收入。A/B测试的试验数据决定了大量的改动*终都不能上线(大量试验都会得到营收负增长的试验结果),这种科学的产品运营方式可以大幅度加速创新,改善用户体验,对互联网企业事半功倍。*终通过试验验证而上线的改动确保了谷歌的营收规模每月可以增长约 2%。日积月累,谷歌仅仅通过数据化驱动的方式就能保证年化增长达到 20%。
随着 A/B测试试验系统的推出和不断改进,谷歌几乎所有的产品,包括新上线的产品,每一次更新都需要首先通过 A/B测试验证。图 2-1 是谷歌从 2007年建设好 A/B测试平台之后的试验数量增长情况图,可见谷歌对于 A/B测试的重视。
图 2-1 谷歌并发试验数量的增长
2.1.2 微软、亚马逊、脸书的经验
1. 微软
微软和亚马逊这样的“+互联网”巨头,还有脸书这样的互联网巨头,都是在业务发展到成熟阶段后开始大量进行 A/B测试的。
在这些有成熟组织架构的大公司里,一线产品经理和工程师在设计和开发产品时,会更多地通过微创新的形式来逐步优化产品。需要强调的是,对用户行为的深度理解,很难仅仅依靠决策者的个人洞察力。有些经验只有通过科学的 A/B测试的试验数据才能获得。
微软必应的产品优化是个很好的案例。图 2-2b与图 2-2a相比,只将搜索结果内容的颜色做了一些小调整 [只需要改 CSS(层叠样式表)里的几行代码 ],肉眼几乎看不出区别,但是用户点击率大幅度提高,年化广告收益增加了 1 000多万美元。
图 2-2 微软必应(bing)的配色优化
2. 亚马逊
小到颜色调整,大到产品逻辑,都可以通过 A/B测试来驱动产品的创新优化。
用亚马逊在自己的电商网站上推广信用卡广告作为例子,如图 2-3所示,这条广告*初放在购物页面里,几乎无人问津,浪费了宝贵的广告位资源。当业务经理尝试把这条广告放在结算页面时,用户就会发现这张信用卡的好处。A/B测试的试验数据显示将广告改为放在结算页后,带来了年化上亿美元的营收增长,业务经理以试验结果证明了自己想法的价值。
图2-3 亚马逊的信用卡推广试验
事实上,没有哪家公司比亚马逊更了解 A/B测试的重要性。尽管亚马逊已成为行业巨头,但是亚马逊并没有陷入大公司的官僚主义。亚马逊的首席执行官杰夫·贝佐斯(Jeff Bezos)在给股东的信中曾这样说:“我认为我们特别擅长试错。我相信我们有世界上*好的试验创新环境(我们有很多试验),失败和创新是不可分割的双胞胎。创新必须要尝试,如果你事先知道它会起作用,那就不是一个试验。大多数大型组织都能接受创新发明的想法,但不愿意承受其所带来的失败后果。”
此外他还谈到了两种决策:不可逆转的决策(Ⅰ型决策)和可逆转的决策(Ⅱ型决策)。他对于两种决策的描述如下所示:
. Ⅰ型决策:“一些决定的后果是不可逆转的或几乎不可逆转的单向门。这些决定必须经过仔细审慎和协商才能有条不紊、谨慎、缓慢地做出。如果你做了决策,不喜欢决策带来的改变,你也不能回到以前。”
. Ⅱ型决策:“大多数决策是可变的、可逆的,它们是双向的。如果你做出了一个次优的Ⅱ型决策,那么你不必忍受很长时间的后果。你可以重新决策,然后回滚。Ⅱ型决策可以并且应该由判断力强的个人或小组迅速做出。”
随着公司的发展,为Ⅰ型决策制定的流程被广泛应用于包括Ⅱ型决策在内的各种选择。用贝佐斯的话来说,无论做什么都像针对Ⅰ型决策这般谨慎,是一种低效和不合时宜的风险厌恶,这导致了发明创新的减少。但如果不加选择地应用Ⅱ型决策,他认为大多数公司在它们长大之前就倒下了。
A/B测试是使组织专注于使用Ⅱ型决策,做出大多数选择的理想方法。他说:“从传统意义上来说, A/B测试是关于至少两个版本的产品: A版本,通常是原始或控制版本,还有 B版本,你认为可能会是更好的版本”。因此,当 A/B测试应用于Ⅱ型决策时,贝佐斯建议通过简单地关闭B版本并返回到 A版本,轻松实现回滚。“如果在测试方向或体验方面遇到很大的麻烦,无法在不影响测试的情况下回滚测试,你可能正在处理Ⅰ型决策。”
亚马逊称自己为“ A/B测试公司”,A/B测试的一个*大好处是可以延迟决策,当创新的想法被实现后,可以根据真实试验对比数据,衡量该创新的想法是否有效。
3. 脸书
脸书是互联网时代成长起来的巨头。脸书在移动 App的产品质量部分和市场占有率部分都遥遥领先,脸书作为单一产品更加依赖其强大的 A/B测试试验平台。
脸书 App在每次上线新版本的时候都会将未来 6个月甚至更长时间内想要测试的新功能都(隐藏地)集成进代码。脸书将这些大胆创新的功能逐个通过 A/B测试试验的方式检验验证,如果某个功能有问题,或者用户反馈不好,在未来的代码迭代中就会被修改或放弃;只有效果好的改动才会被推广给全球用户,并且在未来的代码迭代中被保留下来。
在大量进行小流量 A/B测试的过程中,绝大多数的脸书用户(没有被选中试验那些“效果不好的测试功能”的用户)的体验是:脸书从来没有 Bug!一个拥有数十亿用户的、不断更新迭代的产品,从来没有差的体验,体验只会越来越好,这就是脸书的创新奥秘。
2.1.3 新生代 Airbnb的融会贯通
随着 A/B测试在互联网行业的成熟,新生代创新企业从创业**天起就开始使用 A/B测试实施自己的创新试验。 Airbnb(爱彼迎)作为一家互联网时代的全球民宿预订平台,坚定地认为所有的产品改进都需要通过 A/B测试来实施,这样才能够直接判断产品改动的商业价值(不仅仅是 Airbnb这样的美国创新者,中国的今日头条、滴滴等前沿科技企业也是如此)。
如图 2-4所示, Airbnb的业务指标在三个月左右的时间内不断上涨,其中一个月(红色曲线部分) Airbnb尝试上线了一个产品改动,并*终下线。从这三个月的业务数据来看,我们很难判断这个产品改动是否影响了业务指标,更无法准确衡量这个产品改动具体对业务指标的贡献有多大。如果这个产品改动对业务指标的影响是 –5%,那么 Airbnb就白白损失了一个月的业绩;如果这个产品改动对业务指标没有什么影响,那么这个产品改动可能就浪费了研发资源;如果这个产品改动对业务指标的影响是 10%,那么负责这个项目的团队没有得到应得的嘉奖,*终可能会造成人才的流失。
业绩
日期
图 2-4 只看业务指标的趋势无法判断产品改动的价值
通常外界的影响因素比产品本身的变化对业务指标的影响更大。用户在工作日和周末及不同季节和不同天气,因为网页广告或主动搜索触达的产品都可能会表现出截然不同的行为模式。A/B测试的方法能够帮助我们控制这些额外的因素,从而精确测量产品改动的价值。图 2-5展示了 Airbnb采用 A/B测试并*终拒绝的某个产品功能。 Airbnb曾希望通过这个功能让用户在搜索结果中筛选产品的价位信息,但测试结果发现用户使用这种筛选方式的频率反而不如原有的筛选器。
图 2-5 Airbnb测试并*终拒绝的某个产品功能
1. Airbnb的 A/B测试试验设计
Airbnb所提供的服务有一定的特异性:首先,用户不需要登录就可以获取服务,因此很难将用户和行为捆绑在一起;其次,用户在预订房间的过程中可能会更换设备(电脑和手机);再次,预订的过程可能会长达数天,因此需要等待时间以确定用户完成或放弃预订流程;*后,预订是否成功还取决于空房的数量以及其主人的响应与否,而这些因素是 Airbnb所不能掌控的。综合考虑这些因素后, Airbnb设计了适合自己的场景的 A/B测试流程和方法。
A/B测试中通常以点击率或转化率作为评价的指标。对于 Airbnb而言,预订的流程同样很复杂:首先,旅客需要通过搜索获得房间的信息,然后联系相关的房主;接下来,房主将决定是否接受旅客的需求;房主接受后,旅客才能真正预约到房间。除此之外,还有其他的路径能够进行预约,比如旅客可以不需要联系房主就能预约某些房间,或者提交预约需求后直接到达*后一步。预约流程中的四个步骤如图 2-6所示。尽管在测试过程中需要考虑 4个阶段间的转化,但 Airbnb将从搜索到*后预订的整体转化率作为试验的主要指标。
图2-6 按照预约步骤分别计算得到转化率结果
2. 对测试结果进行情景化的解释
A/B测试中需要避免的一个问题是习惯性地将测试结果当作一个整体来看待。一般而言,从某个固定的测量维度来评估测试的结果是没有错的,这样做通常可以避免在多个维度中挑选*符合“需要”的数据,而故意忽视不符合假设的结果。但同样,只单纯考虑一个维度也意味着脱离了情景来看试验数据,而有时候这些不同的情景可能会完全改变你对 A/B测试结果的解释。
举例来说, 2013年 Airbnb对搜索页进行了改版设计。对于 Airbnb而言,搜索页是业务流程中*基础和重要的页面。因此,能否准确地确定改版的效果是非常关键的。在图 2-7中可以看到搜索页改版前后的变化:新版更多强调了房源的图片( Airbnb为房主提供专业的摄影师以获得这些图片)及标记了房源所在位置的地图。
Airbnb为改版项目投入了许多资源,设计人员预测新版肯定会表现得更好,定性研究也表明确实如此。尽管不直接向全部用户发布新版可能意味着大量的利益损失,但 Airbnb还是延续其“试验文化”,推进了针对搜索页的 A/B测试以评估改版的真正效果。
旧版新版
图 2-7 新 /旧版本的 Airbnb搜索页
在等待了足够长的时间后,A/B测试的结果反馈出新版并没有带来更多的预约。这当然是令人难以接受的,所以 Airbnb的业务分析员决定从情景出发,将数据细分到不同的情景中来判断究竟为什么改版没有达到预期的效果。事实证明,问题出在 Internet Explorer(IE)上了:如图 2-8所示,除了来自 IE的访问以外,新版在其他主流浏览器上的表现都是优于旧版的。这个分析帮助 Airbnb发现了真正的问题:产品改进很有价值,但是代码实现存在 Bug。在修复相关的问题后,源自 IE的数据也有了超出 2%的增长。
这个案例除了告诉我们在做 QA的时候要尤其注意 IE以外,也强调了从多个维度对测试结果进行解释的价值。你可以根据浏览器、国家 /地区、用户类型等多个维度分解数据来源进行分析。但需要注意的是,不要为了找到“有利”的结果而刻意去分解数据。
图 2-8 新版设计的 A/B测试结果分析
A/B测试是产品研发过程中强有力的决策工具,能够帮助大家更有效地进行产品优化迭代。从不同的情景中去理解测试的结果是非常重要的。你应该尝试将数据分解到不同的维度,然后去理解不同维度下产品的效果。但是需要注意的是,A/B测试的目的在于优化产品决策,而不是为了单纯提高某个优化指标。优化单个指标通常会导致为了获得一定短期利益的机会主义决策(比如强行逼迫用户去点击他们不想点的东西)。
*后,验证你所使用的测试系统是否如你所期望的一样工作。如果 A/B测试反馈的结果有问题或者是过于理想,你都应该仔细核验它。
2.1.4 A/B测试是优秀企业的标配
从某种角度来说,企业实力和其实施 A/B测试的能力紧密相关。如图 2-9所示,行业龙头因为聚拢了大量创新人才,在 A/B测试方面走在前列。
图 2-9 公司实力与 A/B测试试验频率的关系
. Google每年运行超过 1万次的 A/B测试;
. 脸书的 CEO亲自参与众多 A/B测试的实施;
. 领英(Linkedin)将 A/B测试作为产品研发上线过程中的基本流程; . Booking.com通过大量试验实现超过同行业 2~3倍的转化率;
. 携程、今日头条将试验流程和 A/B测试作为企业的文化或制度;
. 摩拜单车、 WeWork、衣二三等明星共享经济平台,通过 A/B测试快速拉开了与竞争对手的距离。
不仅是互联网明星公司,A/B测试开始在各个行业快速普及,并逐渐成为标配,如图 2-10所示。
图 2-10 成功使用 A/B测试的明星企业代表
2.2 深入解析 A/B测试
2.2.1 A/B测试的定义
前面的章节中介绍的几种场景有助于帮助我们直观理解 A/B测试。在医学的临床试验中,为了验证新药的效果,把病人随机分成若干组,分别施予不同剂量的新药、已知有疗效的药物、安慰剂等不同的治疗措施,并通过数据分析判定不同组的治疗效果,从而确定新药是否有疗效以及和已知药物的疗效的对比情况。在达芙妮岛的雀鸟进化研究中,随着环境的变化,雀鸟们会发生随机的基因变异,进而导致它们的鸟喙发生大小和形状的变化,严酷的自然选择会把适应环境变化的基因保留下来。
下面我们来系统地定义 A/B测试。在互联网产品迭代实践中的 A/B测试是指:为了验证一个新的产品交互设计、产品功能或者策略、算法
的效果,在同一时间段,给多组用户(一般叫作对照组和试验组,用户分组方法统计上随机,使多组用户在统计角度无差别)分别展示优化前(对照组)和优化后(试验组,可以有多组)的产品交互设计、产品功能或者策略、算法,并通过数据分析,判断优化前后的产品交互设计、产品功能或者策略、算法在一个或者多个评估指标上是否符合预期的一种
试验方法。
2.2.2 A/B测试的特性
1.预测性
A/B测试是一种预测手段,而且是一种科学、精准、具有统计学意义的预测手段。
在产品、策略迭代过程中,我们往往无法预测产品、策略全量上线的效果如何,或是担心因此带来预料之外的损失。 A/B测试恰好提供了通过小流量试验预测全量上线效果的能力,这种预测并不是“裸奔”性质的臆测,而是有科学的统计数据作为支撑的科学预测,也只有这样的预测才能从真正意义上降低产品、策略迭代过程中的风险。同时, A/B测试的统计数据也为产品迭代过程提供了很好的量化指标,可以帮助决策者准确衡量产品技术团队的产出成绩,在团队、人员的激励上提供科学依据。
2.并行性
A/B测试的并行性是指两个或者多个版本同时在线,分别提供给多组用户群体使用。并行性是 A/B测试的本质特征之一,也是 A/B测试的基本条件之一。如何理解并行性的重要性呢?我们不妨假设,用没有并行性的试验方法去判断 2个版本的效果差异,会产生什么问题:
这种试验方法通常是让全量用户在不同时间段体验不同版本的产品或者策略。由于不同时间段的试验环境是不一样的(如外卖、打车订单量会受节假日、天气等因素的剧烈影响),无法把环境变化导致的指标变化和产品迭代导致的指标变化区分开。
因此,忽视并行性也就失去了 A/B 测试的根本意义,两组没有统一维度的试验数据也就失去了提供决策参考的基本价值。这点我们在后文中还会用一个例子进行说明。
另外,并行性也代表了 A/B 测试的效率特征——多种方案的并行试验、同时对比。这大大提升了试验结果的反馈效率,也从根本上提升了产品迭代与决策的效率。
3. 科学性
A/B测试是一种科学试验。这个科学性体现在试验设计的方方面面。下面重点阐述两个方面:
(1)A/B测试的采样方法是科学采样方法,而非普通的随机采样方法。相比于普通的随机采样,科学采样可以保证各版本流量具有一致的用户统计特征,避免试验版本全量上线以后的表现和 A/B测试期间的表现不一致。
(2)A/B测试评价结果的计算过程具有科学性。 A/B测试在评价结果的计算过程中,使用统计学里的假设检验原理进行科学的计算,能够给出结果的置信度和置信区间、试验的 p值、试验的统计功效等科学指标,根据这些指标可以定量判断试验是否有效。对于无效的试验也可以给出进一步的试验建议。
2.2.3 A/B 测试的试验类型
1.正交试验
如图 2-11所示有 2层试验,**层是 P试验,第二层是 Q试验。在 P试验中,用户被分成 2组:Pa组及 Pb组。在 Q试验中,用户也被分成 2组:Qa组及 Qb组。
图 2-11 正交的分层试验
所谓的正交试验(也叫分层试验),就是指 Pa组用户在 Q试验中被均匀分入 Qa组和 Qb组,而 Pb组用户,同样在 Q试验中被均匀分入 Qa组和 Qb组。
这样做的结果是,在 Pa试验组且在 Qa试验组的用户比例是 25%,在 Pa试验组且在 Qb试验组的用户比例是 25%。
正交试验是使用*广泛的多层试验关系。它可以使多层试验的每一层都使用同样多的流量去做试验,并且使各层试验之间的结果不会互相干扰。注意,“各层试验之间的结果不会互相干扰”这个结论是有前提的:各层试验的参数之间,对优化指标没有互相增强或者抵消的效果。举例来说,假设 Pa提升了 10%的效果, Qa提升了 10%的效果, Pa+Pb 叠加,提升的效果是 20%,而不是 25%(增强)或者 15%(抵消)。多数多层的试验,都是以这个假设为基础的。
2.互斥试验
如图 2-12所示, P试验使用的流量, Q试验不能使用,而 Q试验使用的流量, P试验也不能使用,这种情况叫作互斥试验。这个试验的好处是不用担心正交试验里面,“各层试验之间的结果不会互相干扰”的前提不成立,而可以独立做试验。坏处在于,一旦把各层试验做成互斥的,就会使每层试验可用的流量减少,可能会使每层试验所需的时间增加、迭代效率变低。
图 2-12 互斥的同层试验
2.2.4 “伪”A/B测试
要深入理解什么是 A/B测试,我们先看看什么不是 A/B测试。
随着数据驱动决策的思想在互联网及传统企业中的普及,很多人开始重视 A/B测试。然而,有些人只是根据字面意义理解 A/B测试,而没有对 A/B测试的根本原理进行深入的思考,因此对 A/B测试存在各种错误的理解。以下列举一些常见的误区,其中重点讲述用户分流的误区。
1. 用户分流不科学
一种典型的“伪 A/B测试”是在不同的应用市场发布不同版本的 App,或者在不同渠道发布不同版本的页面,并进行用户数据对比。实际上,A/B测试强调对照组和试验组这 2个版本的用户分布必须是一致的。不同的应用市场、不同的渠道,其用户的分布会有很明显的区别,因此通过这种方式做出来的试验数据,不具有可信性。正确的做法是,要么在不同的应用市场发布相同版本的 App,要么在相同的应用市场(或者同时在多个应用市场)发布不同版本的 App,保证在同一个时间点,发生变化的只有一个变量。
为什么不止一个变量发生变化的对比测试是伪 A/B测试呢?这就要谈到辛普森悖论了。
作者简介
王晔(Sando Wang),吆喝科技公司创始人,清华大学电子工程系硕士、耶鲁大学计算机科学博士学位,中国互联网试验创新领域布道师,“中国创新创业大赛”与“千人计划创业大赛”双料冠军获得者。先后就职于NEC、微软、谷歌等国际知名公司,任职期间负责 P2P 流媒体优化、P4P/ALTO、Google Adwords 质量与移动广告新产品等前沿项目的设计、开发及优化工作,积累了大量试验创新的理论和实战经验。历任IEEE移动计算、GLOBECOM互联网协议与车辆技术评论专家、ACM外部审核专家、2009年对等网络国际研讨会、超现代化的通讯和控制系统2010、2011年国际会议TPC成员。 王晔于2014年回国创立吆喝科技公司,率先将硅谷先进的 A/B 测试理论、方法与技术引入中国,与国内外优秀企业一同探索中国特色的试验创新之路。目前,吆喝科技公司已经帮助数千家企业用户成功运行数万组试验,并荣获2018年人工智能及大数据产业“具投资价值的公司”的称号、2018年盛景创新大奖全球20强等奖项。
-
当代中国政府与政治(新编21世纪公共管理系列教材)
¥33.6¥48.0 -
落洼物语
¥8.7¥28.0 -
中国当代文学名篇选读
¥19.1¥53.0 -
中医基础理论
¥50.7¥59.0 -
北大人文课(平装)
¥13.9¥45.0 -
外国教育史-第2版
¥24.4¥40.0 -
宪法-第二版
¥12.2¥29.0 -
当代中国政府与政治 第二版
¥57.8¥68.0 -
EPLAN电气设计
¥29.9¥39.8 -
闯进数学世界――探秘历史名题
¥21.3¥32.8 -
企业法务教程
¥34.8¥49.0 -
习近平新时代中国特色社会主义思想概论
¥18.2¥26.0 -
金融学
¥29.9¥49.0 -
计算机操作系统教程(第4版)(清华大学计算机系列教材)
¥31.9¥49.0 -
三国史
¥27.5¥50.0 -
飞机总体设计
¥46.8¥78.0 -
古代汉语(第四册)
¥16.1¥35.0 -
编辑审稿实务教程
¥35.1¥45.0 -
管理学:原理与方法(第7版)(博学.大学管理类)/周三多
¥30.9¥49.0 -
(平装)北大必修课:北大口才课
¥12.2¥45.0