时逢年假,把自己对部分场景以及推荐系统的理解整理出来,大多只是提出疑问与简单思考。 一、什么才是好的推荐系统 推荐系统要平衡好几方的关系
推荐系统三方关系 用户:接收到有用的、有趣的内容; 站方:在不断的好文推荐中,让用户参与其中,升级消费观念,最终达到转化率效果; 内容提供者:内容的参与度提升,曝光度增加,鼓励用户不断产生内容; 在这三方参与者之间,其实普通用户才是关键。如果用户在阅读过程中,无法接收到有用、有趣的内容,那站方、内容提供者的愿景更是无从实现。什么样的内容才是有用的信息?什么样的推荐系统才是好的推荐系统?从算法角度讲,“精准”是推荐系统的衡量标准,即关联相似度。 可是事实真的是这样吗? 提出几个场景: 用户收藏了一篇关于“家装”内容的文章,就根据相似度理论不断推送同类文章。 一周内用户“好价”内多次搜索、浏览同一关键词,第二周停止搜,用户是不是已经完成购买这一产品了? 用户在好价内搜索“软毛牙刷”,那好文系统应该推送的是“牙刷测评”还是关联”口腔健康“商品的文章呢? …… 推荐系统不仅仅应该只追求“精准”,因为这可能造成两项误区: 重复推送,用户可能已经购买过类似商品或者根本对这类文章失去了兴趣 用户本来就打算购买的商品,单一推荐并不能够增加潜在的消费升级,反而是相似度更小的衍生产品文章,会让用户感到新意,同时提高KOI 所以,对于我们的好文推荐系统体系,要完成的不仅仅应该是“精准”,而是在准确识别预测用户行为的同时,帮助扩展用户的视野,帮助用户发展他们可能感兴趣,自己却并没有发现的内容。 也就是说,好文推荐系统的场景是极为重要的,应该有懂推荐系统和业务流程的产品经理同时加入到推荐系统团队 二、理解用户的行为 分析前,我们首先要关注用户行为和数据:
用户数据来源 以上全部数据都会是判断用户行为的来源。那如果训练一个二进制分类器,首要任务是定义正负样本,为样本定义正负标签绝不是普通任务,联系场景考虑,有什么可能存在的坑? 思路有限,我们就单从好价浏览内容时用户数据入手 先画一个行为漏斗:
行为漏斗 最简单的思路是:按照行为漏斗的深度对样本行为设立不同权重,判断用户行为偏好,然后进行推荐,可现实场景确实是这样吗? 简单提几个问题: 1、什么样的数据可以看作正样本? 2、点击行为都是正样本吗? 3、点“值”是什么想法?“不值”呢? 4、评论行为证明什么?用户是在提出问题还是回答问题? 5、买过的商品还需要再推送吗? …… 讨论这几个问题的基础要回到推荐系统的第一步:理解/获取用户需求 那用户真的需要什么?怎么理解他的行为? 对刚才的问题一个个来讨论:(不以详尽性为目的,只做讨论) 1、什么样的数据可以看作正样本? 行为漏斗中只有“收藏、分享”这两个动作能被完全看作为正样本,分享的行为成本还要高于收藏,但是收藏对于推荐系统识别是有很大帮助的,这证明用户对于这类商品是有兴趣的,有潜在的购买需求,这符合我们推荐的基本场景。 2、点击行为都是正样本吗? 所有的不点击动作都可以看作负样本,但是对于点击动作也应该分情况讨论。比如:
3、点“值”是什么想法?“不值”呢? 交互动作很大一部分发生在“值/不值”上,但是这个行为是一个很复杂的动作,例如:
不同频次的“点值/不值”动作,很值得我们讨论。因为点值行为是值得买平台内中为数不多的评分反馈,更可能反应了用户深层次的行为驱动,他真的想要什么?喜欢什么?行为永远比言语更能反应用户的内心。 4、评论行为证明什么?用户是在提出问题还是回答问题? (责任编辑:admin) |