和数据滥用说再见，用少样本学习拯救被群嘲的推荐系统-虎嗅网

推荐系统想必大家都不陌生，一个推荐系统有多“聪明”，将在很大程度上决定了用户是留下还是跳出，甚至可能影响一款产品的生命周期和商业价值。

在推荐系统诞生的三十多年间，不同平台衍生出了各有特色的机制和算法，冷启动却是伴随其始终的话题。

所谓冷启动，就是在推荐系统初期，没有任何用户与平台信息的交集信息和行为轨迹的情况下，无法通过用户偏好等方式进行推荐。这时，推荐系统就处于冷启动状态。

简单来说，就是一个新顾客来到馒头铺，第一次买馒头、也没有任何动作表情可供揣测，如何让他第一眼就看到自己想吃的馒头。

今天我们就用一篇文章，看看AI在推荐系统的冷启动上，有哪些新突破。

流量红利耗尽后，互联网公司还能向谁要增长？

后面我们会深入探讨一些关于推荐算法及冷启动的技术概念，但首先，我们需要阐述一下，冷启动到底有何价值？

先说结论：冷启动可以让推荐系统用最快的效率黏住新用户。

2017年以来，所有中国互联网公司都在流量红利枯竭的深渊中挣扎。智能设备的用户数量不再自发性增长，用户使用时长也来到了瓶颈期，此时想要继续扩大规模的互联网公司，路径无非两个：

一是去海外市场攫取新用户，二是在存量市场中撬走新用户。

无论哪一种，都面临一个难题：如何第一时间吸引住越来越缺乏耐心的用户？

例如，某新闻资讯APP好不容易吸引了一个新用户下载，如果他在首页上翻了二十分钟也看不到自己想看的内容，或许就不会再浪费时间；

同样，如果一个大众社交平台在不知道用户特征的时候，推荐的账号都与他心目中的理想型八竿子打不着，自然也难逃凉凉的命运。

在这些例子中，推荐系统与新用户之间难免出现信息与预期的不兼容，往往需要用户进行一些显著的操作才能提高匹配的精准度，而冷启动恰恰是推动用户与平台产生交互的关键所在。

精准的幻象：目前的冷启动存在哪些问题？

冷启动要与潜在用户有效契合，问卷调查和兴趣选择，是最常见的一种。

诸如豆瓣、微博、喜马拉雅等内容分发平台，在用户第一次打开APP，都会强制注册并采取一定的奖励机制，引导用户留下个人资料和感兴趣的话题，主动推荐关注相关热门账号，以尽可能保证用户在正式体验过程中，能刷到自己喜欢的话题。

这种主动引导用户留下行为轨迹的方式，可以快速积累起第一批用户数据，做一些颗粒度比较大的推荐。

如果用户很懒，或者不愿意让系统知道自己的个人信息，推荐系统还可以使用热度模型，基于统计分析推荐一些大部分人都会感兴趣的热点信息。虽然很容易让平台调性显得有点low，但从概率学角度看，说不定就正好撞到用户心口上了呢。

比如一直强调算法推荐的今日头条，在冷启动状态就采用了这种做法，向新用户推荐的大多是“新娘给伴娘下药”、“孪生姐妹共侍一夫”这样low得不要不要的内容，还是有一定效果的。

如果以上还不够，那么也可以采取更加激进一点的方式。比如基于大数据的协同过滤，可以根据关联行为或关联用户的相似性来进行推荐。

像是采集用户的地理位置信息，旅游商务、本地O2O等应用可以更有针对性地进行推荐；或者调取手机中关联APP的用户行为数据进行预分析。

今日头条就曾引导用户使用微博登录，然后爬取用户在微博上的一些社交数据，比如动态、图片、文章、赞过的人等等。依据这些信息，可以判断出用户最近喜欢哪个明星，并为其推送相关资讯。

反正大数据时代，“凡有接触，必留痕迹”，总有一些隐藏的信息能够捕捉到用户内心的吉光片羽。

说了这么多，我们来归纳一下传统意义上冷启动的内在逻辑——尽可能多地掌握用户信息的获取维度。

这个过程同时也向我们揭示了一种推荐系统的集体困境，那就是，如果企业无限度地扩展获取用户信息的渠道，必然会遭遇隐私和法律之墙；而挖掘已有的用户信息，数据量往往又捉襟见肘。

那么，情况有可能发生变化吗？少样本学习（fewshot learning）正在尝试解决这一问题。

少样本学习：改变的不只一点点

不难发现，推荐系统冷启动的众多通用方法，都需要越多越好的标注数据才能有效发挥其作用。

但现实是，冷用户往往不会提供那么多的标注数据。在小数据的环境下，推荐算法还能发挥作用吗？

这里就涉及到一个重要的“多臂老虎机问题（Multi-armed bandit problem, MAB）”。

当你走进一家赌场，面对20个一模一样的老虎机，在不知道它们吐钱概率的情况下，如果可以无限制地摇下去，自然可以知道哪台老虎机成功率最高。

但当你手里的钱有限的时候，摇弊的次数也被限制了，该如何最大化自己的收益呢？

显然，此时每一次摇臂的机会对你来说都是极其宝贵的。

在冷启动中，用户的每一次有效行为也是如此。

系统既要尽可能地扩大信息的多样性和宽度，又要防止过多“无用”信息夹杂其中，让用户“信息过载”。

过去，不少平台试图通过热度模型来解决这个冷启动中的“多臂老虎机问题”，给新用户推荐目前点击率最高的结果。但这又会大大降低信息的覆盖率和多样性，出现反复推荐。

那么，少样本学习（fewshot learning）又是怎么做的呢？

简单来说，就是让推荐引擎具备经过少量样本训练之后快速泛化的能力，从而在冷用户有限的行为轨迹下，实现推荐效果的最大化。

举个例子，电商平台可以先用随机试探的方式，选择带有不同标签的热门商品展示给冷用户，并对冷用户的有效动作进行强化学习。

比如给用户的动作设定一个奖励函数。用户点击一次，收益就是1；没有点击，收益就是0。以此测试冷用户对哪些商品有反馈，再在此基础上根据实际收益去调整被展示的商品。

这样做的好处是，即便是在有限的条件下，也能快速判断出用户的兴趣所在，降低浏览过程中用户的耐心损耗，同时避免热度模型制造的“信息茧房”。

一个商品的收益均值越大，被选中展示给用户的机会就越大。而那些被选次数较少的商品，也回被呈现在冷用户面前，相当于一张“复活卡”。

又比如孪生网络，训练时利用双路神经网络进行交叉计算，从而得出共性特征。再用这一模型去测试样本，对于样本的共性指数进行排列。这样电商就可以通过这种共性指数来进行商品推荐，把用户行为和商品标签看做一对孪生数据，假如用户与“少女”、“温馨”这样的数据标签共性指数越高，那么自然与“直男”、“酷炫”这样的标签共性指数越低，反之亦然。当用户无视了粉红色手机壳时，系统可以尝试推荐白酒这类商品，通过实时反馈不断缩小用户画像的范围，在少量数据的前提下达到和协同推进算法近似的效果。

除了电商，少样本学习还能够被应用在众多其他领域。

比如视频网站。

“一千个观众有一千个哈姆雷特”，用户认知标准不一，让视频的数据标注也充满了不确定性，无法建立庞大的标签体系，使得视频平台个性化推荐的冷启动更加困难。

从这个角度看，少样本学习在视频领域更有用武之地。

比如用户的观看长度、观看时间段、观看次数、跳进跳出等等行为都存在者很大的主观性，很难用标签语言来概括。在这种情况下，在用少量视频“试探”冷用户的时候，反而可以对这些主观因素进行价值判断并赋值，再让机器进行在线学习，选出成功率最高的进行推荐。

并不讨好的少样本学习，会完成推荐系统的终极理想吗？

说了这么多不难发现，“少样本学习”的条件要比大数据学习苛刻的多。

它将训练范畴锁定在了新用户与单一平台的有限交互之间，既不能调取外部用户行为进行协同过滤，也不让用户主动告知系统自己的个人偏好，可说是完全暴露在用户行为的数据孤岛上。

在中国如此宽松的隐私环境下，这种探索有必要的吗？

我认为是有的。

首先我们要知道，当前宽松的隐私环境一定只是一时的。相关法律法规的制定、用户的防范意识只会越来越完善。未来数据泛滥供人取用的情况只会越来越少，如何最大程度下发挥有限数据的作用，一定是推荐系统取胜的关键。

同时，能用更少的数据去捕捉更多用户，也是中国科技企业发展从流量转向算法的关键。在巨头割据下，或许流量、再从流量中转化数据正在成为一件奢侈的事情，但没有数据，也就没有精准的推荐算法，无法留住用户更无法商业化。而少样本学习的出现，正在打破这个怪圈，未来崛起新企业不一定是BAT的附庸，但一定会应用少数据学习算法。

更重要的是，冷启动所面对的，不是等待被收割商业价值的账号，而是一个个充满好奇的灵魂。真正优质的推荐系统，要做的就是不断带来惊喜，这才是技术的终极理想。

用莱蒙托夫的一句诗结束这篇文章吧……

一只船孤独地航行在海上/它既不寻求幸福/也不逃避幸福/它只是向前航行/底下是沉静碧蓝的大海/而头顶是金色的太阳/将要直面的/与已成过往的/较之理想/皆为微沫……