[产品工作随记]推荐思考

@2018年初

推荐其实是内容经由算法到人的匹配,也就是内容推荐,流程可以用下图简单解释。

内容推荐的优劣依赖于主观判断,且该过程具有后验证性,即在推荐发生前无法判断该内容对于该用户是否匹配,反映到用户行为就是0和1的区别,所以整个过程就变成了概率事件,尽可能在推荐前计算并提高内容对于用户的匹配概率,在0和1的用户行为之间拆分为更加细致的xx.xx%的概率,这样便可以在大量数据上得到经过验证的可信结果。

一款优秀的内容产品,推荐算法决定下限,而内容决定上限。

推荐算法决定什么样的内容给什么样的用户,为整个产品兜底,当然,这一切建立在有一定内容数量的前提下,如果内容数量不够,那么大可采用时间流,因为内容少而精的状况下,时间流是最合适的推荐次序,如果内容少且质量差,那么就应该换个产品方向做一下了。大量内容就需要运用推荐算法,由低到高,需要做到以上三点:首先,需要保证质量差的内容尽可能不被或者少被推荐;其次,具有广泛消费价值的内容要被更多的推荐;最后,不同类型的内容要推荐给对应的用户。三点均占的推荐算法即可保证内容推荐不至于使用户反感,对应至本文开始时的类比,便是大于0。

依照推荐算法需要达到的三点效果,可将推荐细化为三个环节:“过滤”,去除低质、重复和同用户不相匹配的内容;“排序”,根据预估点击率及停留时长,得到高点击高留存的优质内容,这里也包括多目标融合模型的应用,即根据业务需要确定模型需要达到的排序效果(据笔者所知,新浪微博目前热门内容是根据点赞、评论、转发的目标模型来进行调优);“召回”,通过各类策略寻找热门或同用户喜好所匹配的内容;此外,内容推荐产品中根据业务需求的不同,时常会增加一些特殊的逻辑,针对特定内容进行加权和降权,比如保护原创内容,打压部分特定用户等,值得注意的是这里人为添加的规则其实对于数据是呈现负面影响的,因为干预环节影响了算法的真实判断。各环节次序稍作调整便是整个推荐算法的流程,如下图:

如果推荐算法是一座桥,那么内容和用户便是桥的两端,正确的内容过桥走到正确的用户处,如何定义这里的正确就显得尤为重要。

如何正确定义一篇文章(Content)?

闲话少叙,先看图。

对于内容的定义拆分为四部分理解:

  • 内容属性:包括类别、标签、实体词、话题,这是内容与生俱来的固有属性,内容是否能够冷启动成功完全依赖内容属性是否准确,这是从内容文本特征作为切入点得到的,粒度越细致效果越好。这里同时也是内容生产者属性的外化,对于PGC内容的垂直作者而言,作者所处的垂直类别即是内容的类别。
  • 互动属性:亦可称之为平台赋予内容的属性,冷启动后对内容质量的二次纠正,可细分为四个子项:
    • 基础:展现、阅读、点击率,越是热门的优质内容,这三项指标越高,是内容发酵的具体体现;
    • 进阶:停留时长、阅读完成比,对于用户喜好的窥探不仅仅在基础的操作,更在于无意中显露的兴趣,这里就引入了停留时长的概念,对于长短内容均适用,尤其在列表页的展现形态下,单条内容高度趋向于固定,文章标题或者短内容是否对用户产生了影响可以通过用户在该页面的停留来进行判断。用户进入详情页后,停留时长受制于文本长短不同的影响,便引入了阅读完成比的相对概念,用以评估用户对于内容的喜好程度;
    • 互动:点赞、评论、转发、分享,这四项指标均为普通内容消费者同内容生产者之间的互动,操作门槛更高,用以代表用户对内容的倾向性更加明确。其中特别的,带内容的转发或单纯的评论可视作一种二次创作,用户的交互路径最长,成本最高,也更能反应内容的一些特点,例如:负向评论代表内容质量较低,通过一些较长的评论可以反过来对内容的类别、标签等进行纠正;
    • 负向:不喜欢(踩)、举报,这两者同互动类似,都是成本较高的操作,只不过前者为正向,后者为负向。对于用户喜好的收集在于用户喜欢什么和用户不喜欢什么,用户喜欢的直观表达是点击、搜索等,而对于用户不喜欢行为的收集则是不喜欢、举报等,后者相比前者更难收集,但正是后者决定了用户对于推荐内容满意度的最低值,也更显得有价值。值得注意的是,有些产品会将负向行为收集的入口置的更深,这其实无形中加大了对用户讨厌内容了解的难度,并不是一个明智的做法。
  • 特征:是区别于内容本身和消费者行为体系外的一个独特部分,这里包括:广告、低俗、时政、色情等,是通过复杂模型构建出的,对于内容有明显趋向性的“独特标签”,是以一种非客观方式且非自然方式人为指定的属性。这里承担的作用一方面是保证内容的安全性,即是否合规合法,比如时政、色情;另一方面是调整社区的内容氛围,即调性,是产品负责人对于产品的定位,比如广告、低俗。
  • 时间:这里单独列出是为了凸显该属性的重要性,时间是推荐模型中的重力因素,受制于内容的不同特点,可区分为高时效和低时效两类内容,前者对于时间的敏感程度极高,例如比赛战报,内容会在一个固定时间段后变得毫无推荐价值,甚至产生负向收益,而后者则对于时间的敏感程度较低,例如科普文章,内容会在发布后产生一个小的消费高潮,随后便降低到一个平均值,长时缓慢的消费。

前文中提到内容决定产品的上限,在具备了对于内容的正确定义后,决定成败的关键就在于数量和质量,庞大的内容存量及增量,和高素质的内容生产者,才真正决定了内容产品的社区氛围和目标人群。数量优势,形如头条、快手,可以快速聚集庞大的用户集群,源源不断的提供的可供消费的内容,在海量内容面前做到千人千面,以达到个性化内容推荐的目的。而质量优势,形如部分垂类产品(虎扑体育)、知乎等,可以形成更高的用户粘性和更加独特、不可替代的社区氛围,满足用户的集群需求。

内容作为内容推荐的商品,而用户则是消费者,对于用户又该如何定义?

如何正确定义一个用户(User)?

闲话少叙,继续看图。

理解用户时不能局限于用户本身,用从产品场景进行理解,自然人使用联网设备,通过互联网在内容推荐产品的平台完成内容消费或者生产,即工具、人、平台,这里引入了内容消费者和内容生产者的概念,暂且不表,留作后文再做分析。对于用户的定义亦可拆分为四部分理解:

  • 设备属性:设备是移动互联网的入口工具,也是平台面向用户的窗口,包括IP地址、地理位置、手机型号、App版本、通讯录、装机App,前四者可用于构成用户的初始画像,通讯录是用户的线下真实关系的突破口,装机App是对用户喜好的初步判断。设备属性不需要复杂的获取路径,在用户行为产生时便可获得,对于内容推荐产品的冷启动是最好的参考点。特别的,设备属性还有些用于推荐的散点:比如基于地理位置的本地推荐策略,基于通讯录的好友推荐策略等。
  • 人格化属性:这里包括性别、年龄、故乡、兴趣点,是用来描绘用户画像的重要因素,其中最关键的莫过于兴趣点,用户同内容的匹配度就在于用户兴趣点和内容标签的相互关联性,兴趣点也同样需要更细致的粒度,以保证足够精准。
  • 平台属性:限定为内容推荐产品的分发平台,这里是对用户习惯的积累,包括用户注册阶段的时间、用户名、个性签名、认证信息;用户使用产品阶段的浏览;以及用户主动操作的搜索、评论、点赞、转发、订阅、收藏等。可粗略划分为两部分,一部分是用户足迹,用户做了什么,主要指注册信息和浏览历史,覆盖所有用户,深度挖掘下可以用于构建单一用户画像,更深层次的则是平台的用户资源,具有充足的变现潜力;另一部分是用户行为,用户留下了什么,主要是主动操作行为,这里既有用户间的互动,也有用户的二次创作,相比用户足迹的倾向性更强,目的性更明确,在构建单一用户画像时的比重更高,同时,这里也是经由内容对用户的二次纠正。如前文所说,准确定义的内容可对用户定义进行丰富,反之准确定义的用户也可对内容定义进行补充,两者相辅相成。
  • 其他平台属性:内容推荐产品作为互联网产品中的一个类别,仅仅依靠自身平台的资源是远远不够的,于是就需要其他类别平台资源的补充,将用户更加完整全面的描绘出来。这里仅列举出了几个来源:用户百度搜索的Query,视频网站的观看记录,微博、微信等社交平台发布的内容,都是依据不同平台的特有属性,来获取用户更多的资料。对应而言,本平台的内容也具有一定的独特性,可作为其他平台的资源。

算法决定产品的下限,内容决定产品的上限,那么,用户对于产品的意义则是生死存亡,一切收益均来源于此,从隐形的点击、停留、用户习惯,到显性的商业变现,再到更高格局下的平台运营、制造话题及网红,用户对于内容的消费让内容推荐产品具有了无限可能。

内容经由推荐算法,分发给用户进行消费,是整个内容推荐产品的基本流程。那是否可以逆向而行,得到更多可能的思考呢?以下仅提出三个问题留作思考之二:

1、用户到用户,如何对内容生产者和内容消费者进行分析?

2、两类用户反向推到内容又是怎样的环节?

3、算法到算法、内容到内容,这里又可以有怎样的理解?

内容推荐是门双赢的生意,两边的用户都是上帝。

内容生产者和内容消费者经由内容产生强联系,而内容推荐产品则是提供联系渠道和负责搭桥牵线的平台。

一方面,生产者可以大体区分为普通内容生产者和职业内容生产者,即UGC和PGC两类。

前者更多的是个人生活的分享和记录,代表产品是微信朋友圈,这类用户所生产的内容大都不具备公共消费价值,且内容质量并不稳定不垂直,难点在于内容分发,实践中更多依赖于线下真实关系或探索性的基于地理位置等进行分发,也正是因为难点在于这里,用户的痛点也更容易满足,非隐私的公开内容如果能够有一定的流量且有少量互动,便能够对平台用户产生极大的吸引力。例如快手,普通用户所发布的内容可在平台收获较多的反馈,以此产生用户粘性,同样的,分发不当的话可能会适得其反,对内容消费者产生极大的伤害。

后者,即职业内容生产者,则是内容的主要供应商,以生产内容为生,面向所有或者某一垂类下的消费者进行生产,所生产的内容大都具有公共消费价值,甚至具有一定的专业知识,不同于普通用户,由于内容质量的提升,则相应的对作者的要求更高,需要具备一定的创作能力和专业知识储备,反馈到内容上则质量更加稳定和垂直。时间成本和人力成本的投入则带来了更大的获利压力,这部分内容生产者的需求则是更大的流量,更多的互动或者被认可,甚至于直接获取收益或可供变现的渠道。职业内容生产者往往不局限于某一平台,而是追求同一内容的利益最大化,会在多个平台多个账号进行内容的发布,以获取影响力,甚至形成较大的IP,例如微博上的营销号和KOL。

值得一提的是,有一部分用户兼具UGC和PGC两者的属性,即明星。他们既是普通的内容生产者,所发布的是个人生活的点滴,又是热点内容的源头,背后的运营团队提供了职业内容生产的能力,他们的内容包含了更多用户特殊属性所带来的附加价值。明星用户的需求更多的则在于资源倾斜,包括基本的流量和曝光度、负面内容的控制和舆论引导、平台配合度和个性化需求的满足。

另一方面,内容消费者则没有极大的区分度,更多的则是依据用户的自然属性,比如教育背景、兴趣爱好、所在行业等等进行区分。从宏观的角度来看,消费者期望经由平台从生产者获取的是优质内容,这是用户的核心需求,而其余的互动行为和关注行为其实并不是用户的实际需求,互动是内容的认可,是获取到优质内容之后的外化表现(也或者是对未满足需求,获取到低质内容的反馈,如“踩”和差评),关注则是由内容对生产者的认可,是对持续不断获取优质内容的直接行为。细处着眼,无论是表象上的交互体验或是视觉样式,还是深层次的推荐算法,都是对于核心需求的满足,提升整个漏斗的转化率,找寻更优质更匹配的内容,以更便捷的形式提供给消费者。

以上图作为小结,内容生产者生产优质内容,以获取稳定的流量,最终目的是通过商业变现取得利益。目前看来稳定流量的来源是粉丝,拉取更多新粉丝,维持原有粉丝的活跃,为内容保证了流量的基线,也为变现提供了更多的可能性,利益驱使生产升级,作者便会从“质”和“量”上谋求提升。内容消费者消费优质内容,在满足资讯获取的需求后会转向个人认知的提升,而不是仅仅满足于猎奇和看热闹的层次,这里是消费的第一次升级;而当消费者同生产者产生足够强的联系后,则有可能产生一种高于当前形式的纽带,类似于价值观或者情感上的共鸣,进而产生内容以外的消费,这里则是消费的第二次升级,也是粉丝经济或者商业变现的实现形式。作为罗粉,以下援引一段罗永浩在锤子手机发布会上的内容以做形容:

他们不是我的粉丝,他们是某种信念、某种价值观、某种理想、某种人生态度的粉丝,他们来到现场,是知道从我身上能看到这些东西。
---罗永浩

回归到推荐思考之一最开始的一张图,由用户到用户其实是在建立消费者和生产者之间的联系,狭义来看是关注关系,广义来看其实可以看作是以各种各样属性或者行为产生的弱相关和弱联系,这是物质世界下有形和无形,真实和虚拟,所有线条和可能的总和。转回到内容推荐产品的原点,其实本质上是在挖掘每两个用户之间的一个关系概率,经由这个概率可以提供给内容生产者变现收益的可能,也可以提供给内容消费者稳定的优质内容来源。

这里补充一点新的思考,罗振宇在2018年初的跨年演讲中提出的“超级用户”的概念,其实也适用于内容推荐中对于用户的定义。对于内容消费者而言,推荐应当更多的在意一些深度用户,这里可以从使用时长、互动行为,甚至是实际消费上进行理解,从增长策略的AARRR概念理解,拉新-促活-留存-变现-推荐的整个流程中,处于后方流程中的读者即是超级用户。细处来说,每天花时间在内容产品上最多的用户群体,决定了产品上的哪类内容最受欢迎;乐于评论的用户决定了产品的评论氛围;能够通过点击信息流广告购物的用户,决定了哪些产品最好卖,转化率最高。一方面,AB实验中需要区分新用户和老用户(也就是深度用户或超级用户),这样才能看到更具深度的信息,有时候超级用户所带来的信息可能更具有价值;另一方面,加速超级用户的沉淀和积累,能够决定一个产品的发展方向,甚至是生死存亡。

平台大小决定两边话语权,供求关系决定内容生产。

内容消费者和内容生产者两边是如何对内容产生影响的呢?我个人认为需要分两部分来看:

首先在于平台的大小,不同量级的内容产品,其运行方式是截然不同的,用户量级较小的平台,用户话语权更大,这里指的是生产者和消费者对于平台都能产生极大的影响,一种是作者导向型,大部分垂类内容产品均如此类,限定垂类给产品预先设定了天花板,作者发布怎样的内容,决定了内容的氛围以及读者的偏好,作者占据主导,读者经过筛选后通常粘性很强,长期留存较高,明显特征在于一旦作者离开平台,读者的流失将会非常严重,市面上如:虎扑体育、懂球帝、MONO等。另一种是读者导向型,读者决定了平台氛围,甚至反推至作者生产怎样的内容,作者生产内容的核心目的在于满足读者的喜好,这里并不是说读者完全占据主导地位,而是读者对于内容生产的影响力更胜一筹,作者呈现去中心化趋势,因而作者流失对于平台的影响可控,市面上如:内涵段子、较早期的快手等。

反观用户量级较大的产品,作者呈现去中心化,读者兴趣多样,两边用户的话语权旗鼓相当,都很难对内容生产产生较大影响,这里真正的庄家在于平台本身,譬如头条针对文章的粉丝阅读分成是正常情况下的10倍,造成的直接影响是作者发布内容,更多的去主动吸粉,刺激粉丝阅读和互动,有力的撬动了两边用户;另一例是头条推荐模型着重于优化点击和停留时长,这样造成的直接影响是作者面向模型创作,读者也在不知不觉中被调教,平台对于内容生产有着导向型作用。当然,其实很难界定或量化两边用户对于内容生产的影响力孰轻孰重,这里作为一个略微浅薄的思考。

其次在于供求关系,这里其实很容易理解,内容生产者和消费者的本质同商品交易如出一辙,买方市场供大于求,消费者占据主导地位,卖方市场供小于求,生产者占据主导地位。对应到内容产品上,内容优质稀缺的平台,作者对于内容有着绝对控制力,而质量把控较低,追求全面性的平台,通常读者对于内容的选择起着更大影响。这样的方式对应到两个现象:其一是优质作者在内容生态圈中地位甚高,整体天平向其倾斜,粉丝效应明显;其二是大型阅读产品往往被读者牵着鼻子走,读者指标压倒一切,后期追求质量提升时,往往会损失一部分短期收益。

回到最开始的问题“两类用户反向推到内容又是怎样的环节?”。我们通常将作者生产内容称之为创作,这里影响直接且显而易见,而读者对于内容的影响,我将其称之为创作引导。推荐算法在预估用户阅读喜好的同时,也在潜移默化的被读者影响着,自我迭代,最终通过数据指标反映给作者,影响着内容生产。

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注