今日头条同时在线测试的实验有很多,每月多达有上百个之多,如何科学的分配实验流量,减少沟通,降低实验成本,做到实验结果可视化展示是必须思考的,于是出现了今日头条的A/B测试系统。 系统实验创建属性:实验名称,实验时间,实验类型(共享or独占),过滤流量条件,实验组ID 实验动作概述:动作收集,日志处理,分布式统计,写入数据库,数据可视化。 独占实验。是指实验模型比较复杂,任何其他因素改变可能影响到实验结果准确性,所以用户不可以与其他实验共享,申请完成后,系统自动随机从流量桶中分配出流量用于实验,留出一半未调整用户,作为对照数据组,将实验数据桶分开,观察数据波动性,防止测试结果有偏。 共享实验。是指实验模型只测试某类特定属性用户,可以与其他非相关属性的实验共用实验对象,流量桶分配逻辑与独占实验类似,但是当其用户可以分配到其他实验中,复用部分用户。如下图所示: 基于这套系统,基于数据分析协助产品功能迭代(经历几十个版本迭代),数百个有效改进上线,人均有效点击提升40%,人均停留时长提升50%。 五、需求从何而来?数据收集到何种程度? 1、需求从何而来 互联网产品的需求一般来源于用户反馈或焦点小组需求收集,是一种信息的归纳总结,但是这部分数据是有偏信息,不可以简单粗暴的将用户反馈的需求作为直接需求,所谓会哭的小孩有奶吃,很多时候,用得很好的用户不反馈,用得不好的才反馈。如果你改变了,是不是伤害了那些不反馈的用户呢? 其实你是不知道的,所以这些需求我们并不一定要做,只是先做一个候选实验的需求池。如果一个需求两三周持续在反馈,这个需求可能是一个强需求,那么做好了小渠道测试,用数据说话。 2、WAP页面VS原生功能 (1)原生功能 优势:响应速度,复杂交互流畅,异常状态显示,缓存效果等。 劣势:更新需要发版,出现问题无法快速调整。 发布方式:先在小渠道发版测试,与老版本对比,如果一上来留存率降低5%,那这个改动肯定有问题。如果说波动在正负1之间,这个东西可能有用,可以大渠道发版A/B测试。今日头条可以做到从应用市场提交同一个版本,但是用户下载之后,通过服务端的远程控制,让每个人看到的界面是不一样的,确认没有问题后,将改进合并到主开发分支。 (2)WAP页面 优势:随改随上,反应迅速 劣势:一些交互和问题场景没有原生体验好 发布方式:利用A/B测试系统,随测随发,出现问题随时调整下架。 3、“全量”用户行为数据收集 根据人的特征(职业,年龄,性别,兴趣爱好,机型,短期点击行为,搜索行为,收藏行为) 根据环境特征(场景,时间-饭后或周末,网络环境-wifi或移动流量) 根据文章特征(文章时效性,文章热度,相似文章,点击和不点击是有偏的,停留时间,阅读的细节行为收集) (责任编辑:admin) |