张一鸣、OpenAI和被绞杀的
2024-01-24 17:40

张一鸣、OpenAI和被绞杀的

本文来自微信公众号:卓见 SeeDifferently(ID:scribble1123),作者:张卓卓张,题图来自:视觉中国

文章摘要
本文讨论了张一鸣、OpenAI和《纽约时报》之间的纠纷,探讨了生成式AI对内容生产和分发的影响。文章指出,生成式AI的出现挑战了传统媒体的利益,引发了版权纠纷。同时,文章提出了一个重要问题:在AI时代,优质内容是否应该得到更多的版权付费。

• 💰 生成式AI对传统媒体利益的挑战

• 📰 《纽约时报》状告OpenAI的版权纠纷

• 🤖 AI时代下优质内容版权付费的重要性

一、效率比展示更重要


2008年,苹果上线App Store,当时有朋友告诉还在酷讯的张一鸣,可以给iPhone开发专属应用了,张一鸣的反应是:这件事也太小了。当时的创业者想做的事情是系统,是软件,最低程度也该是网站。“怎么会有人为手机开发一款应用?”。


幸好张一鸣是执行力极高的人,启动了内涵段子。截止至今,App Store已经有3600万独立开发者,张一鸣也是在PC转移动这个巨大的变化周期建起了自己的流量帝国。


移动端流量的商业模式无非有三种:广告、电商和服务(如订阅制)。张一鸣在创业初期曾被投资人质疑过“广告模式”不够性感,但他坚持认为,Facebook就是典型的广告模式下长出的大公司。


张一鸣早期分享过广告模式有三个重要环节:内容的生产、分发和消费。谁在生产内容?如何生产?怎么分发?触达哪些用户?这三个要素只要有一个发生改变,都足以颠覆行业。头条改善了“分发”这个环节,从“编辑分发”变成“算法分发”,算法的背后是数据挖掘、神经网络、自然语言理解、机器学习等技术。


张一鸣早期提到的“千人千面”背后是一个非常重要的思考:分发的效率比内容的展示更重要。门户网站(包括门户转到移动端的产品形态)和RSS订阅制都是效率低下的方式,页面看似展示了很多丰富的内容,但用户其实没有能力和耐心去找。


提升“分发效率”指尽量又快又准把信息传递给用户,尽量多了解用户想看什么。分发效率要靠算法解决。张一鸣曾说过,算法是一个生命体,人要调教它,驯养它,就像一个自我演化的过程。如何调教算法?需要往系统灌入足够多的信息。 


字节需要找到规模足够大又便宜的内容,最初内涵段子就是这个逻辑下的产品。而后,字节开始全网抓新闻,做出了今日头条。不知道大家还记得不记得,十几年前,《广州日报》曾起诉过今日头条,其后多家新闻机构、门户网站跟进,那场纷争最终以今日字节购买新闻版权换来了3700多家媒体的入驻。


付版权费,是为了“买饲料”训练算法。当年应该没有媒体看明白这点,都觉得让头条掏钱是一场胜利。媒体的思维仍局限在卖出更多的版面上,殊不知字节和自己在争夺同一批客户。


二、我们的内容正在被盗窃


为什么要讲这桩陈年旧事?因为十几年前张一鸣那句“信息分发的效率比展示更加重要”是一句价值百亿美元的认知。而生成式AI的出现在内容的生产—分发—消费链中,试图改变的是“内容生产”和“内容分发”两个要素。搞清楚这件事对行业的重要程度,就能够明白为什么《纽约时报》一定把OpenAI告上法庭。


最近,《纽约时报》向曼哈顿法庭提交的2万多页附件和状书中,指出了OpenAI 100处的侵权证据,包括不仅限于以下:


未经许可或付费就绕过付费墙,使用成果,等同于避免花费《纽约时报》雇佣数千名记者的工作成功以及为创作出这些内容所投入的数十亿美元。


OpenAI和微软的AI工具分流了原本会流向《纽约时报》网站的流量,令我们损失了广告、许可和订阅收入。


希望OpenAI销毁使用《纽约时报》信息训练出的聊天机器人模型和训练数据。


《纽约时报》举例说,他们有个测评的栏目,由专业作者花费数十几个小时产出,旁边会放一个购买链接,消费者下单后,商家和报纸分成。但OpenAI直接把测评结果提供给用户,拿走了分成。


总之,《纽约时报》吸取了移动端时期媒体犯下的错误:免费提供内容给算法:“我们旗下数百万篇拥有独家价值的文章未经授权,就被用来训练机器人,而这些机器人将成为报纸最大的竞争对手。”


《纽约时报》向法院提交的证据


移动端时代媒体所受到的重创让整个行业不得不接受一个残酷的事实:无论是字节、Facebook、谷歌……科技巨头根本不关心其他人的利益。2020年,澳大利亚、加拿大政府曾要求Facebook和谷歌为优质的新闻付版权费,但几千万美元的版权费对科技巨头们来说,只是少赚了几天的广告。


巨头们只关心一件事:是否牢牢把控着流量。如果一家内容机构威胁到了自己,很简单,通过改变算法减少该机构的流量。《纽约时报》曾统计过,2019年,美国新闻业的数字广告年收入51亿美元,而谷歌通过提供聚合新闻服务就分走了其中47亿美元。


2008年次贷危机后,《纽约时报》一度抵押总部大楼借款,甚至传出即将被收购的消息。后来随着《纽约时报》付费订阅模式的推出,才勉强扭亏为盈。2022年,《纽约时报》有900万付费用户,超过六成收入来自付费订阅。


刚刚苟延残喘活下来的新闻机构,又遭遇了AI的冲击。也难怪《纽约时报》在向法院递交的诉讼中不断强调其使命:


“用最简单的话来说,我们是一家订阅优先的企业。我们对订户的关注使我们与许多其他机构有所不同。我们并不是要最大限度地提高点击率,售卖广告。我们也并不是要赢得很高的浏览量。我们认为,《纽约时报》更合理的商业战略是提供有价值的新闻,以至于让全世界数百万人愿意为此付费。这一战略也与我们长期以来的价值观高度契合。新闻业必须改变,以匹配和满足现在和未来的读者的习惯、需求和愿望。我们需要让更多的人认为每天阅读《纽约时报》是不可或缺的,是值得他们花时间和花钱的。”


很多美国媒体分析,这场官司《纽约时报》赢面极小,最后很可能以OpenAI付出版权费了结。OpenAI的创始人奥尔特曼在最近举办的达沃斯峰会上对《纽约时报》控告他表达出一种“震惊”,他谈到,之前,双方有过充分的商议,OpenAI表示愿意支付大笔费用。“这很莫名其妙。”奥尔特曼说,“我们其实不需要来自《纽约时报》的数据做训练,我认为这是人们不了解的事情,任何单一的具体训练源,都不可能对我们取得大进展产生决定性的作用。”


奥尔特曼的回应传递出一种《纽约时报》不太重要的信号。但根据《媒体创新2023年世界报告》,人工智能30%的信息来源于新闻业,“我们不要再犯同样的错误、再一次免费地付出一切,我们的内容正在被盗窃,我们必须说:这次不行。”


《连线》杂志也发表了一篇《监管机构终于赶上了大型科技公司》的文章,肯定了在人工智能来临之际,越来越多的机构不再反应迟缓:“我们将看到一整套法律工具来应对挑战。人权和公民自由法、竞争法、消费者权益法、知识产权、诽谤、侵权、就业法以及许多其他领域将参与解决现有技术(包括人工智能)已经造成的现实生活中的危害。”


从这点来说,作为新闻业的领头羊,《纽约时报》状告OpenAI是必然的结果:钱不是目的。这些大型科技公司过去依靠享有监管空白而崛起的事实,在AI时代受到越来越多角色的挑战。


三、信息平权?


OpenAI真的不需要《纽约时报》吗?


从事实看,奥尔特曼说得没错,《纽约时报》无法起“决定性”的作用。但是,算法是一个输入-输出系统,输入的信息要尽量准确、优质。大模型不会分辨输入信息的来源,也不会真的去“读”内容,而是根据提供的训练形成注意力机制,根据经验输出结果。投喂的信息越好,输出的效果就越好。所以,低劣信息对算法来说,是一种非常糟糕的破坏。算法很难判断一个文本是谣言还是事实,强悍如 ChatGPT也犯下过许多事实错误。


算法最怕伪信息。做个不恰当的比喻,输入注水的猪肉的模型,是输出不了米其林级的厨艺的。


像《纽约时报》这样的新闻机构所产生的信息,毋庸置疑是优质且准确的。有影响力的新闻机构生产的信息同样具备以上特征。书籍、期刊、论文也符合优质内容的标准——这些信息是大模型最渴望学习的,据说GPT- 3已经把互联网截止到2021年所有能学到信息都学完了。


这里面就涉及另外一个重要的问题,像OpenAI这类自身估值达1000亿美元的大模型公司要不要为优质版权付费?在《纽约时报》状告前,已经有20位作家向OpenAI发起过侵权诉讼,2023年长达100多天的好莱坞罢工、核心诉求就是防止“AI”取代“演员”和“编剧”的创作主体地位。 


生成式AI的生产能力一部分取决于其被投喂的内容,但是,模型的生产更像有逻辑的拼接,即便被投喂再多好内容,也暂时没办法替代由人所生产出的“独特”内容。“独特的内容—我的理解—人类”是一种对自己所掌握素材的组装,组装能力是人对人(世界)想象力、感受力、逻辑自洽力以及选择切入的视角。


所以生成式AI加速了“生产力”的分化:重复的、机械的、标准化如客服、电销等工作会被AI取代。牛津经济研究院一篇报告指出,美国劳动力市场约有9%的可能会被AI取代,而能生产出独特优质内容的人会越来越值钱。


要不是机器生产,要不是人,机器能替代人的,尽量替代,不存在中间态。


未来的内容呈现也是一种两极分化的局面:一类是极有创意的、优质的原创内容;一类是生成式 AI批量生产的内容。内容的分发和用户需求也会发生变化,一类是帮用户节省时间的,一类是帮用户打发时间的。


生成式AI最普遍的应用场景是一种类似AI助手的产品,现在陆续有一些以浏览器的插件形态出现。一个对话窗口,可以翻译、搜索、划重点,总结,生成图片、视频等。


张一鸣谈到“算法推荐”时举过一个例子:在头条,一个家庭主妇会收到家常菜谱的信息,绝不会是足球信息。进入AI时代,这样一个家庭主妇会收到什么样的信息呢?肯定也是菜谱信息,但是模型会根据她的口味、年龄、家庭成员构成、日常生活习惯、所使用的厨具、甚至她所在的地区口音生成一个专属于她的做菜视频。


这是一支全新的视频,非常个性化。这个全新的视频质量取决于互联网其他相关视频的素材。 


每一次生成都需要调动算法,这是一个巨大的成本,且不是规模越大,频次越高,边际成本会趋于下降。所以,AI类的产品从诞生出来就要注定走付费模式,否则会被成本压垮,这也是和AI时代的信息分发工具和移动互联网时期最大的不同,不再唯流量论,以免费内容获取用户兜售广告,因为大模型的边际成本远高于人力成本和买量成本。


用户购买一个付费的内容产品,期待得到持续稳定的服务,服务是一种长期的承诺,采购《纽约时报》这样优质、稳定的版权内容是必需的,也是合理的,也应该付给这样的机构更多版权费。


内容机构可以选择把内容卖给大模型,也可以建立自己的付费墙,大家不必再争夺同一批广告客户。某种程度上,技术的进步在进一步倒逼内容机构的进化。广告模式的时代真的要结束了,是时候去面对一个真问题:你的内容到底对用户值不值钱?


另一方面,抖音、TikTok这类免费内容仍然存在,Kill Time也是刚需。只不过免费平台会变本加厉地降低内容成本,以吸引点击,获取流量为目的,我们根本无从分辨这条视频到底是人生产的还是机器的;通过操纵内容和错误的信息也会增加,总之,生成式 AI在为免费平台服务时,会更不遗余力增加人们使用屏幕的时间。


美国著名的科技评论者本-汤普森在最近刚发表的《后悔的加速主义》中写道,AI可能会让本已对优质内容越来越不友好的网络变得更加糟糕,这样一来,《纽约时报》更有价值了。


也许AI在加速世界的分化:用户为优质的信息付费,不然就接受(或者无感)一个信息环境越发糟糕的现实。我在2024年有个非常深刻的体会:我常看的一些网站最近都陆续开启了付费订阅,为了让自己每天吃下去的信息更纯净,我必须通过付费筛选构建一个信息库。


记得2015年前后,当大众尚不理解移动流量时,张一鸣经常分享“媒介革命”和“算法分发”这两个概念。“移动互联网将成为新的媒介,秒杀其他媒介”,“算法”是“基于人之上的、可以战胜人”的算法。张一鸣那时笃定:以算法为基础的“智能分发”将更好地推动“信息平权”。


时间滑到2024年,生成式AI的出现预示着新需求的到来。据统计,全球前50名的AI工具共创造了240亿次流量,其中ChatGPT独占60% 。内容的生产和分发再次被重构了。


时至今日,不知道张一鸣对“信息平权”有没有更深的思考。技术真的让“信息获取权”变得更“平等”了吗?我对此不抱乐观:有付费能力且对信息质量敏感的人得以拥有净土,其他人呢?难道只能接受机器生产的内容,变成算法倒卖的流量。


那么,信息革命最初喊出的“世界是平的”,到底是天真的呓语还是不远的未来?


ps:本文由一款AI工具做了事实核查和文本校对。我试图让它帮我改写润色,得出的结果令人很不满意。


本文来自微信公众号:卓见 SeeDifferently(ID:scribble1123),作者:张卓卓张

本内容为作者独立观点,不代表虎嗅立场。未经允许不得转载,授权事宜请联系hezuo@huxiu.com
如对本稿件有异议或投诉,请联系tougao@huxiu.com
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定