2020-08-04 08:54

算法推荐给你造了“信息茧房”？这可能是你的错觉

本期推送为你介绍了Mario Haim等人对于过滤气泡的实证研究。与我们大多数人的直觉不同，Haim的研究证明，也许我们对于过滤气泡的担忧有些言过其实。通过两项实验，这篇研究证明了Google新闻的显性个性化和隐性个性化并没有对新闻多样性产生太大影响。

在本期推送中，我们为你梳理了这篇论文的核心观点。推送内容仅为对论文的介绍，不能作为学术引证使用。如需引用相关内容，请阅读论文全文。论文：Burst of the Filter Bubble?作者：Mario Haim, Andreas Graefe & Hans-Bernd Brosius，期刊：Digital Journalism，年份：2017。

本文来自微信公众号：新传研读社（ID：xinchuanyandushe），作者：新传研读社，头图来自：unsplash

路透社数字新闻研究所对26个国家的53000名新闻消费者的调查报告发现，23%的受访者使用互联网作为他们的主要新闻来源；另有44%的人认为数字和传统来源同等重要。在网上消费新闻时，大约40%的受访者通过搜索引擎发现新闻。

这意味着，大量新闻消费者依赖于算法来管理自己的新闻获取。算法会自动选择个性化内容进行推送。这种个性化可以是基于用户主动提供的信息的显性个性化，也可以是基于用户上网行为信息的隐性个性化。

算法给我们带来了便利，也带来的恐慌。我们知道，高质量信息的其中一个重要保障，便是多样性。多样性是保证公众充分知情的前提。

特别是在民主决策过程中，新闻的多样性和均衡性保证了公民能够在信息灵通的情况下采取行动。换句话讲，新闻多样性遵循了“审议政治”的理念，被视为任何民主社会中新闻质量的关键维度之一。

学者们担心，算法是否会对新闻的多样性产生威胁。Pariser在2011年年提出了过滤气泡假说，认为算法的目标不是确保多样性，而是通过增加媒体消费来最大化经济收益。

根据这一观点，算法过滤掉那些被认为个别用户不感兴趣的信息，同时呈现出更多用户更感兴趣的内容。

例如，有大量体育新闻消费历史的用户将收到更多的体育新闻。当然，对于过滤气泡这一概念，研究者之间仍旧存在着不少争论，既有研究得出的结论也缺乏一致性。

本研究的目的是通过考察在线新闻聚合器如何通过显性个性化和隐形个性化，影响新闻内容和来源的多样性。为此，我们关注谷歌新闻（https://news.google.com/），它是访问量最大的在线新闻聚合网站之一。

由于网站的算法仍旧是一个黑箱，我们只能基于“输入”（改变用户的使用行为或偏好）和“输出”（新闻提供）的比较，来分析算法对新闻多样性的影响。我们进行了两项探索性研究，以控制显性（实验1）和隐性（实验2）的个性化。

实验一：显性个性化

Google新闻允许用户明确选择他们感兴趣的新闻类型。也就是说，用户可以通过指定他们想要阅读更多（或更少）的主题，明确地根据自己的偏好对其帐户进行个性化。本研究的目的是分析谷歌新闻的显性个性化如何影响呈现的新闻文章的多样性。

我们创建了三个不同的谷歌新闻账户，每个账户选择了一个感兴趣的话题——政治、体育和娱乐。因此，我们猜测，对政治感兴趣的账户会接收更多政治新闻，但"很少"接收体育或娱乐新闻。另外两个账号亦是如此。

对于每个帐户，我们每天（晚8点）存储一次Google新闻起始页的文章，一共为期6天。此外，我们存储了一个中立帐户的首页（即不带任何偏好设定的谷歌新闻页面）。最后，三名研究助理会阅读每篇文章，并将其分配到八个主题类别中的一个。

对于内容多样性的考察结果表明，谷歌新闻的明确个性化起到了作用。正如所料，个性化账户相应提供了更高选定主题的文章。

例如，政治账户中52%的文章是政治新闻，而政治新闻在其余账户中所占的份额从37%到39%不等。体育版显示了17%的体育新闻，而其他版本只有9%—12%。

最后，在娱乐版本中，33%来自首选类别，而在其他版本中，这一比例为19%—28%。

对于新闻来源多样性的考察结果表明，来源多样性在四个账户之间（三个个性化账户和一个中立账户）没有显著差异。

有趣的是，像Focus Online（24%）和Die Welt（13%）这样的顶级网站，占据了特别大的比例，这显示了消息来源选择的偏见。

不过令人惊讶的是，这些顶级消息来源在德国并不具有特别突出的影响力。例如，2014年6月，Focus Online在德国访问量最大的新闻网站中仅排名第11位。

实验二：隐性个性化

隐式个性化是基于观察到的用户和使用数据的统计推断。因此，我们采用了一种基于主体的测试模型（Agent-based testing model），对不同的用户及其在线行为进行建模，定性地研究隐性个性化的影响。

我们对四个虚拟主体的在线行为进行建模。四个虚拟代理的特征，源自两个具有代表性的德国媒体用户类型。每个主体都代表一种典型的生活标准和媒体使用方式：

主体A：一位年老的保守党寡妇
主体B：一个五十多岁的中产阶级父亲
主体C：一个40岁的忙于工作的单身男性
主体D：一位富有的30岁女性营销经理

我们为每个主体准备了一台新的（虚拟）计算机。所有计算机的IP地址都是相同的，以便将IP地址的影响降至最低。

我们为每个主体创建了一个Facebook和一个Google+账户，上面有主体的年龄、性别、生活状况、教育、工作等信息，也包括这个主体的情感状况、最喜欢的书籍、运动、音乐和电影。

我们也对这四个主体的账号进行训练，例如搜索他们感兴趣的关键词、为符合他们审美的文章点赞、将他们喜欢的商品放入购物车等。

总的来说，我们发现这四个账户之间只有很小的差异。对于任何给定的搜索查询，四个主体看到几乎完全相同的100篇文章。我们在1200篇比较文章中只发现了30篇独家文章，仅占2.5%。

换句话说，要么并不存在个性化，要么我们的训练没有起到作用。尽管如此，这30篇被认定为独家报道的文章表明，训练确实起到了一点作用。例如，主体A（即老年保守党寡妇）错过了一些经济媒体的文章，但却收到了更多综合新闻媒体的文章。

过滤气泡效应是否被我们高估了？

这两项探索性研究为在线新闻聚合器中的显性和隐性个性化提供了经验证据。我们发现个性化对内容多样性的影响很小。虽然显性个性化略微影响了内容多样性，用户会看到更多他们选定主题的文章，但基于用户行为操纵的隐性个性化不影响内容多样性。

总的来说，两种类型的个性化对来源多样性都没有任何影响。

我们的研究结果表明，过滤气泡现象在谷歌新闻的算法个性化中可能被高估了。

在显性个性化的情况下，政治新闻的份额高于明镜在线（德国政治新闻的主要来源），甚至对于那些明确表示很少想看政治新闻的用户来说也是如此。

换句话说，虽然个性化效果是可见的，但是，结果并没有掩盖信息的基本部分。这与过滤气泡效应所暗示的结果并不相同。

本文来自微信公众号：新传研读社（ID：xinchuanyandushe），作者：新传研读社

AI原生产品日报频道: 前沿科技

本内容由作者授权发布，观点仅代表作者本人，不代表虎嗅立场。
如对本稿件有异议或投诉，请联系 tougao@huxiu.com。

正在改变与想要改变世界的人，都在虎嗅APP

赞赏

支持一下修改

确定