然并卵,上面公式里有一项是没啥意义的---P(连续X个月不活跃|流失),它的含义是“在已经流失的情况下,连续X个月不活跃的概率“。试想一下,假如你已经流失掉了,你不可能是一个不活跃的状态,这个概率值是么有啥业务意义的。鉴于此种情形,笔者果断抛弃这一项(谨记!)。由此,我们得到了一个终极版的流失率计算公式:
接下来,让我们看看公式右端的两项(分子和分母),然后计算它们在每个不活跃月份上的数值,进而得到我们想要的用户流失概率值(注意,它是一个条件概率值,也就是在连续不活跃X个月的情况下的用户流失概率)。 先说说分母P(连续X个月不活跃),笔者之前已经计算过它们---也就是“分析窗口”最后4个月占比平均值: P(1) = 19% P(2) = 81% P(3) = 89% P(4) = 92% P(5) = 93% P(6) = 95% P(7) = 96% P(8) = 97% … 接下来,我们再来通过例子求解分子P(流失)。首先,1个月不活跃的用户的流失概率P(C1)是多少呢?对于这些将要流失的用户,他们将要连续性的不活跃的月份数已经在我们所考虑的集合之内了,换言之,这些用户将要不活跃的月份数为1个月,2个月,3个月,…,。因而,我们这样定义已经不活跃1个月的用户的流失概率P(C1):
现在, 以同样的方式, 持续2个月不活跃的用户的 P(流失) ,也就是P(C2)是多少呢?对于这些将要流失的用户,他们将要持续性的不活跃,2个月,3个月,4个月,…,12个月。因而,我们这样定义已经连续不活跃2个月的用户的流失概率P(C2):
通过归纳和演绎,我们以同样的方式来计算每个不活跃月份的用户流失概率:
在这里,n是连续不活跃月份数的极限值,而我们发现,这个概率是稳定的。从上面的表单里可以到,这个发生在第7个连续的月份,这里的概率值维持在95~96%。 简化起见,我们假设,在连续月份上不活跃是相互独立的事件。此时, P(A ∩ B )= P(A)* P(B)。因而,我们可以采用如下的公式:
现在,我们已经算出了每个不活跃月份概率对应的分子和分母,那我们就可以启动最后一步---算出每个各个连续不活跃月份数的用户流失概率。先前我们已经讨论过了,n的值为7。
...
最终的计算结果如下表所示:
请注意,活跃用户(也就是第一行连续0个月不活跃的情形)的流失率由P(1) Ⅹ P(2) Ⅹ P(3) Ⅹ P(4) Ⅹ … Ⅹ P(7)计算得出。这里我们并没有除以任何值,这是因为---当用户处于活跃状态时, P(连续0个月不活跃)为1。 最后,我们还可用一条流失率曲线来直观的反映流失率的变化情况,由此决定对非活跃用户进行挽留操作的最佳时机,该曲线所下图所示:
5 结语 在本文中,笔者并没有提供该模型批量化使用的具体执行细节,假如你理解了这个模型构建的逻辑,那么你可以使用SQL、Python,甚至是Excel来实现它。 此外,在实践中,这个模型最好是分不同的用户群进行运行。在本文中,笔者仅仅在某一类用户上运行,然而,根据不同的标准来划分用户群体会对实际业务更有意义。比如,你可以根据用户价值进行划分,然后对每个用户子群体进行用户流失预测。 当然,笔者只是在月份的尺度上进行用户流失分析,但是,对于很多业务场景,更细粒度的分析视角可能更有意义,比如按周和按天。 最后,以《神雕侠侣》中的一段话作结,我想,感悟到数学之美、不受分析工具的限制,并能灵活运用到实际业务中的感受大抵如此: (责任编辑:admin) |