Pinterest 是如何建立起硅谷最强算法之一的
本文来自 36 氪旗下编译团队神译局,译者 Yoyo_J,爱范儿经授权发布。
2010 年,Pinterest 诞生于美国加州,名字来源于 Pin (图钉)+Interest (兴趣)。其丰富多彩的图片内容深得用户喜爱,尤其是年轻女性群体。成立 9 年以来,不断引发争议,又不断改进。如今,Pinterest 已坐拥近 3 亿月活用户,作为图片社交的领头羊,Pinterest 是如何构建其强大算法的呢?本文用这些年来的历程给出了答案。文章译自 Medium,作者 Will Oremus,原文标题为 How Pinterest Built One of Silicon Valley’s Most Successful Algorithms。
与大多数社交网络一样,Pinterest 也建立在假设和偏见之上。但与大多数社交网络不同的是,Pinterest 承认这一点。(注:Pinterest 是一个图片社交平台,采用瀑布流的形式展现图片内容,无需用户翻页,新的图片不断自动加载在页面底端,让用户不断的发现新的图片,堪称图片版 Twitter。)
从一开始,你就告诉了 Pinterest 你的简要情况。当你注册时,会被询问两个个人问题 —— 你的年龄和性别 —— 以及你如何回答它们,这将影响接下来发生的一切。根据你的回答,以及你的语言、地区和浏览历史,Pinterest 会选择一系列它认为你可能感兴趣的主题类别,并要求你也选择至少五个。
告诉 Pinterest 你是一个三十多岁的女人,你提供的兴趣包括 「化妆」、「美发教程」、「锻炼计划」 和 「晚餐食谱」;告诉它你是一个三十多岁的男人,你会得到一些非常不同的选项:「木工」、「有趣的图片」、「生存技能」 和 「游戏」。或者你也可以在 「非二进制」 选项中输入你自己的回答 —— 它允许你输入任何东西 —— 你会得到一堆性别中立的选项,比如 「动物」、「家居装饰」、「女性发型」、「男性发型」 和 「香烟」。
一旦你做出了选择,Pinterest 的机器学习软件就会制作一个满是图像,或者说 「图钉」(Pin)的主页,并预测这些会吸引你。这是一个关键时刻:Pinterest 内部数据显示,如果人们看到这些 「图钉」 是他们喜欢的,很有可能他们会成为活跃用户,定期回到网站寻找与他们兴趣相关的新鲜内容,查看针对这些兴趣定制的广告,并管理他们自己相关 「图钉」 的图板(Board)。如果人们第一眼找不到他们感兴趣的东西,他们可能就再也不会回来了。
对于每年加入 Pinterest 的 5000 万新用户来说,注册过程是硅谷最成功、但审查最少的算法之一的初次体验。驱动 Pinterest 主页推送、搜索结果和通知的代码决定了用户在每一轮会看到什么图片和想法,类似于支撑 Facebook 新闻推送、YouTube 推荐或 TikTok 「For You」 页面的代码。这是一家市值 150 亿美元的公司的核心产品,该公司今年成功上市,是 Uber、Lyft 和 Slack 等科技独角兽公司中唯一一家股价一直高于 IPO 价格的公司。
然而,在幕后,Pinterest 的工程师和高管们正竭力应对在其他地方造成麻烦的同样紧张的局面。该公司的领导们表示,他们希望在硅谷开辟一条不同的成功之路,一条不那么耀眼、更人性化的道路。但在上市的第一年,它就面临着一个关键的挑战:如何在不疏远忠实用户和对新来者定型,也不让错误信息传播和激进化的情况下,超越一直以来偏向白人郊区女性的用户基础?
该公司正在推出一项新功能,旨在解决其算法最明显的缺陷:倾向于从用户过去的行为中得出错误的结论。
周二,该公司将推出一个功能旨在解决其算法中也许是最明显的缺陷,即倾向于从用户过去的行为中得出错误的结论,用他们不想再看到的东西污染内容推送 —— 比如为解除婚约的用户推送婚纱,或者为流产的用户推送育儿室装饰。Pinterest 将这项功能称为 Home Feed Tuner(主页推送调谐器),它允许用户查看并手动编辑他们的活动历史和兴趣,本质上是告诉算法该记住什么,以及该忘记什么。
Pinterest 希望这一功能能减少投诉,提高一小部分高级用户的满意度。但这对网站的扩张几乎没有帮助,甚至可能通过限制算法可获得的信息而导致降低用户的参与度。公司表示愿意做出这种取舍,尤其是在早期测试显示用户活动没有明显下降的情况下。
然而,事实证明,其他的折衷方式更加棘手,比如如何深入了解用户,让他们继续关注更多内容,同时又不让他们感到厌烦、限制他们,或者让他们离开。
「用户不想被归类,」 该公司的包容和多样性主管坎迪斯・摩根 (Candice Morgan) 说。今年早些时候,她受委托进行了一项研究,以了解 Pinterest 如何更好地服务于那些来自平台无法代表其背景的用户。她补充道:「他们不想让我们根据他们的人口结构来猜测他们会喜欢什么。」
然而,至少在注册后的最初几分钟,Pinterest 的确会根据用户的人口统计猜测他们会喜欢什么。如果没有这么做,部分用户会认为 Pinterest 不适合他们。
此外,还有一些问题困扰着一些知名度更高的社交网络:病毒式的错误信息,激进化、攻击性图片和表情包,垃圾信息,以及试图利用算法牟利的可疑网站,所有这些都是 Pinterest 在某种程度上要处理的问题。在这方面,该公司采取了不同于竞争对手平台的方式: 接受偏见,限制病毒式传播,成为某种意义上的反社交网络。
到目前为止,一切顺利。
2010 年,山景城黑客道场 (Dojo) 的三名年轻男性技术工人创立了 Pinterest,一开始,它很难成为一个分享图片集合的大众平台。来自爱荷华州的联合创始人本・西尔伯曼 (Ben Silbermann) 参加了一个由女性博客作者和有影响力的人参加的会议,她们很快就喜欢上了 Pinterest。这个网站在女性和郊区居民之间迅速发展,他们发现它是分享食谱、时尚窍门、DIY 项目以及家居装饰想法的理想场所。
这些早期用户塑造了网站的发展轨迹。该公司的工程师们遵循社交媒体模板,开发了从用户行为中学习的个性化算法,软件吸收的正是用户的兴趣和活动模式。但是过度依赖这些早期用户生成的特定数据导致了一些问题。例如,你可能会偶然发现满是全白色婚纱的图板。
最初,主页推送显示了来自所有用户的各种最受欢迎的 「图钉」,这些 「图钉」 是根据用户关注的图板设计的,这对于吸引志同道合的新用户来说是完美的,但对于发散网站的吸引力来说却不是。摩根说:「男性有一种误解,认为 Pinterest 只是女性用来爱美的工具,尽管其中很多内容是中性的。」
用户是否希望主动提供更多关于自己的信息以增加个性化?我们发现答案是否定的 —— 他们只是想让产品适用于所有人。」
多年来,Pinterest 不得不重新设计系统,重新训练算法,以便更好地识别和定位不同类型的用户,并绘制他们的兴趣图谱。因此,你注册时的性别问题、让算法初步了解你感兴趣内容的主题选择器、以及可能有些冒昧使用浏览器数据 (尽管这是行业标准),这些数据可以告诉 Pinterest 你是否曾经访问过该网站,以及你是如何来到这个网站的。
例如,关于语言和地区的问题帮助 Pinterest 接触到了美国以外的受众,这些人之前曾抱怨说,这个平台 「从他们注册的那一刻起就感觉很陌生」。Pinterest 现在有一半以上的用户来自美国以外,这与其他类似规模的社交网络是一致的。在某种程度上,这些用户为 Pinterest 开辟了一条更具包容性的道路:例如,该公司报告称,在日本,男性在首次访问该网站后成为活跃用户的可能性与女性相当。
但是,将用户划分为更细的子群也有风险,特别是对于那些在网站上一直代表性不足的组。内部数据可能会告诉你,用一堆男性化的图片来欢迎男性用户可以提高激活率,但它可能不会告诉你的是,有一部分男性用户对这种含蓄的假设不感兴趣,甚至觉得被冒犯了,因为他们喜欢 「猿人洞」 或全是女性 「漂亮名人」 的图片。
Pinterest 正在研究如何帮助用户在产品中看到自己。今年 1 月,该公司推出了由摩根和奥马尔・西耶尔 (Omar Seyal) 领导的多元化项目推出的首批产品之一。
根据该公司的研究,这是出色的第一步,但并不完美。「我们想知道,用户是否愿意主动提供更多关于自己的信息,以增加个性化?我们发现答案是否定的 —— 他们只是想让产品适用于所有人。」 摩根说。
Pinterest 从来没有像 Twitter 和 Facebook 那样受到媒体的密切关注,但这并不意味着它可以避免在其他地方引发丑闻的问题。其中一个著名的批评者是迈克・考尔菲德(Mike Caulfield),他是华盛顿州立大学温哥华分校的媒介素养和网络传播专家。2017 年,他在 Pinterest 上寻找政治文化,结果发现的东西和你在其他社交平台上看到的一样丑陋,有一些图板上充斥着假新闻、种族偏见和匿名者 Q 阴谋论。
考菲尔德认为,Pinterest 激进的推荐算法,加上它对用户创建的相关图片图板的依赖,可以在几分钟内把用户的推送变成一个充满仇恨的污水坑。考尔菲德写道:「浏览网页 14 分钟后,对疫苗有一些疑问的新用户可以从‘如何做完美的鸡蛋’的图钉转移到相关信息之外的东西上。」
米德尔伯里学院的艾米・柯里尔 (Amy Collier) 解释说,部分问题在于,垃圾信息发布者利用 Pinterest 的算法,将病毒式政治图片与他们想出售的 T 恤放在同一个图板上。当用户与这些图片进行互动时,算法会根据相同的理论向他们显示同一图板上的其他项目,因为他们可能也会对此感兴趣。最终,它向他们显示了 T 恤,其中有一部分人购买了 T 恤,而垃圾信息发布者则从中获利。
考尔菲尔德说,他已经习惯了科技公司无视他的批评,或者采取保守态度。因此,Pinterest 的反应让他感到意外:他们感谢他强调了这个问题,并邀请他与公司高管会面,分享解决问题的想法。然后,至少在 anti-vaxx(反对接种疫苗)问题上,他们坚持了下来。
今年 8 月,Pinterest 改变了其搜索引擎处理疫苗查询的方式。Pinterest 表示,它将只显示来自 WHO(世界卫生组织)和 CDC (美国疾病控制与预防中心) 等主要卫生组织的 「图钉」,而不是最流行的疫苗相关 「图钉」。考菲尔德对该公司的这一举动表示赞赏,与其他大多数平台相比,这是一种更为坚定的立场。这表明,该公司愿意改写自己的软件,来解决单靠算法无法解决的系统问题。
对于一个拥有 3 亿用户的平台来说,这种方法能在多大程度上解决所有其他问题还有待观察。但 Pinterest 似乎愿意找出答案。
事实是,科技公司无法做地球上的所有事情。」
社交媒体公司的传统观点是,你不能把太多的责任放在用户身上,让他们个性化自己的内容。通过建立一个比用户自己更了解他们可能会点击什么内容的新闻推送算法,Facebook 近乎上升到全球主导地位。多年来,Instagram 和 Twitter 一直抵制算法推送,但最终都接受了自动化,用户基础和财务状况都出现了增长。你采取的每项操作都会进一步改善参与度优化机器,让用户自己使用这一杠杆只会增加工作量。
和其他社交平台一样,Pinterest 也会根据月度活跃用户和激活率等指标来判断自己的价值。从历史上看,它的算法一直在不断打磨给用户推送的内容,向他们展示越来越多他们过去参与过的内容。对于这类事有一些常见的批评:优化用户的参与度可能会导致用户盲目或上瘾地滚动页面,还可能让用户陷入充斥着错误信息 (或更糟) 的过滤气泡中。
但如果优化用户参与度不是你的终极目标呢?这是其他一些社交网络,如 Facebook 和 Twitter 最近开始提出的问题,因为它们都分别具有更高的定性目标,比如 「合理使用时间」 和 「健康的对话」。Pinterest 的核心产品负责人西耶尔说,这为公司本周推出的新功能铺平了道路。
西耶尔说,多年来,Pinterest 用户最常抱怨的问题之一是,他们无法控制其算法显示的内容。「你点击某个东西,你的整个推送就变成了那个。」 问题是如何在不影响算法效率的情况下解决这个问题。「每个运营在线平台推送的人都会说,‘哦,是的,我们试图让它更可控。但当我们试图推出它的时候,却失去了最高参与度。’」
最后,西耶尔说,他认为这个问题完全错误。相反,他告诉负责解决用户控制问题的工程师们不必担心用户参与的影响,他们唯一的工作就是找到一个解决方案,以减少用户对推送内容矫枉过正的抱怨。
这个项目的结果是 「调整你的主页推送」,它已经对一些用户可用。在允许用户调整算法如何响应他们的每个操作时,Pinterest 将提供一定程度的定制化服务,而很少有人愿意采用。但是西耶尔说,在测试中很明显,这些用户与那些抱怨的用户有很大重叠。他们也是 Pinterest 最忠实的粉丝,而且毕竟测试尚未显示出对参与度的任何重大影响。
现在,西耶尔认为这是一个教训。「这是在呼吁其他平台向他们的用户开放。这是一个棘手的问题,但人们越来越渴望获得好的解决方案。」
Pinterest 正在赋予用户更多的控制权,但就像任何依赖于算法驱动推荐的社交网络一样,它最终依赖于一种偏见。与其他同行不同,Pinterest 欢迎它 —— 只要它是合适的。
「我们终究是一个用户生成内容的平台,」 西耶尔说。「我们无法理解其中的每件事。我们网站里确实有垃圾信息散布者,确实有想要利用这个平台散布负面内容的人,并且有些是对抗性的。」
他说,为了缓解这些问题,该公司可以做的是,仔细研究其系统倾向于放大的内容类型,并调整算法的参数,使某些内容优先于其他内容。
例如,Pinterest 的算法把 「保存」 一个给定的 「图钉」 作为一个比点击强得多的积极信号。「人们不会真的保存一篇关于总统的煽动性文章,但他们会保存一套他们将来想买的衣服。所以我们倾向于这种类型的互动,而不是与好友互动。」
对社交媒体网站来说,回避好友间的互动似乎是一种奇怪的做法。但 Pinterest 表示,这是该公司缓解骚扰和病毒式宣传等问题的方式之一。 「最终,我们不会像其他平台那样看到虚假信息宣传,因为算法根本不会对其有回报。」 Pinterest 产品沟通主管马洛里・卢西克 (Malorie Lucich) 表示: 「当你试图大量发送垃圾信息或迷惑人们时,你可能希望那些内容出现在‘首页’上,而这在 Pinterest 上是不太容易发生的。」
即使在点击类别中,该公司的软件也将对优质网站的点击视为比对其他网站的点击更有价值。西耶尔说,每当 Pinterest 测试算法的变化时,它就会关注这种变化如何影响知名网站人工选择索引的站外流量,这些索引集中于生活方式,时尚和家庭装饰等主题。(尽管 Facebook 试图通过调查用户来建立 「可信来源」,但 Pinterest 承认它依赖老式的、主观的、人工的判断。) 如果这种变化向这些站点发送的流量更少,而更多向其他站点发送流量,那么产品团队将研究原因。这可能也是一个迹象,表明这一变化为一些信誉较差的网站开辟了漏洞,使它们得以利用这一算法。
所有主要的社交平台都会有意修改软件,不管它们承认与否。泽奈普・图费克奇(Zeynep Tufekci)等批评者提出了一个有说服力的理由,他们认为社交媒体的许多问题源于他们不愿承认算法中的基本偏见:不是支持自由政治,也不是支持保守政治,而是眼球 —— 越来越多的眼球。
像 Google,Amazon,Facebook 和 Uber 这样的公司以勃勃的野心和看似无限的增长而闻名。西耶尔说,Pinterest 也有伟大的想法。「我们可以在我们所做的事情上做得更好:新格式、新类型的交互,而不只是‘图钉’」。他认为,Pinterest 未来的算法不仅要反映用户的品味和风格,还要像顶级时尚品牌那样帮助用户塑造那些品味和风格。他以 Spotify 的人工播放列表为榜样,比如颇具影响力的 RapCaviar。(注:Spotify 是一个起源于瑞典的音乐串流服务,是全球最大的串流音乐服务商,RapCaviar 可以说是 Spotify 上一个引领着 Hip-Hop 音乐风向的榜单。)
但随后他停顿了一下,又回过头来。他说,Pinterest 成长的关键是要记住自己的局限性。「我想我们只想做好能做好的事情。如果你想让每个用户每时每刻都花在你的产品上,那么你就缺乏谦逊。事实是,科技公司不可能做地球上的所有事情。」