英伟达“付费买盗版”训练AI,中国法律怎么看?
2026-01-23 15:14

英伟达“付费买盗版”训练AI,中国法律怎么看?

题图来自:AI生成


近日,美国版权人起诉英伟达公司使用盗版素材进行AI训练的案件备受关注。根据诉状披露,为了尽快获得高达500多TB的文件,英伟达主动联系了盗版网站安娜的档案(Anna's Archive),支付了数十万美元费用下载了大量包括书籍、文章等受著作权保护作品的盗版内容。


安娜的档案是一家“影子图书馆”类网站,此类网站以去中心化及匿名化著称,大多都以侵犯著作权的方式向人们提供文献内容。如果原告的指控属实,英伟达这个全球市值最高的公司居然付费从盗版网站下载内容,然后被版权人起诉,不得不说是一个很大的污点。但使用盗版训练素材是几乎所有通用人工智能公司的原罪,在中美这两个人工智能技术领先的国家,有很多相关的诉讼,今天我们来讨论一下,根据中国法律,英伟达被指控的行为是不是违法?


一、P2P下载和直接下载法律风险都很高


1、 安娜的档案的技术特征


要准确分析英伟达的下载行为是否构成侵权,首先必须明确其获取盗版素材的具体方式。根据现有信息,安娜的档案并非传统意义上的盗版下载站,该网站并不直接托管内容,而是链接或索引来自多个盗版来源的资源,很多资源采用去中心化的P2P(如BT种子)技术,数据分布式存储于全球节点。用户下载时,自身也可能成为上传节点。


2、P2P下载的法律风险


如果英伟达使用的是BT种子或者磁力链接这样的P2P下载模式,这一步就已经涉嫌侵权。因为在P2P下载过程中,下载者同时也会成为上传者,将已获取的数据片段上传给其他下载节点。根据中国《著作权法》,上传行为构成了对作品的分发和信息网络传播,涉嫌侵犯版权人的信息网络传播权。不过关于P2P下载时的上传行为是不是构成侵权,据笔者的了解,国内法院目前尚无判例,这可能和版权人在国内的诉讼以打击商业主体盗版为主,对个人下载侵权行为没有积极维权有关。


3、直接下载的侵权认定


即使英伟达是直接从安娜的档案的网站服务器下载数据,情况也并不乐观。因为安娜的档案的数据基本都是盗版图书文献,英伟达在明知的情况下,仍以商业目的获取并使用这些作品,该行为可能面临重大法律风险。英伟达向安娜的档案支付费用获取高速访问权限类似于购买盗版拷贝,中国司法实践中,商业经营中使用盗版文件,不论企业买的是Windows、Office的盗版软件,还是安娜的档案上的盗版书籍,通常都会被认定为侵犯了作品的版权。


关键在于英伟达支付费用的对象并非版权人,而是盗版内容提供者;支付的目的不是为了合法获取授权,而是为了获取盗版内容的便利访问;使用场景是训练AI模型以开发商业产品的商业目的。而根据中国《著作权法》规定,未经著作权人许可,复制、发行、通过信息网络向公众传播其作品的,应当根据情况承担停止侵害、消除影响、赔礼道歉、赔偿损失等民事责任。


二、复制和训练行为的定性,目前尚无明文法律规定


英伟达下载取得这500多TB的训练素材后,需要把素材导入到训练集存储系统并且备份、然后进行预处理,包括数据清洗、格式转换等,之后才是训练。将500多TB的素材下载并存储于训练服务器,必然产生数字化复制件,这个复制行为虽然属于著作权法上的复制,但复制目的还是为了训练,所以要认定复制行为是否侵权,仍需先考察训练行为是否侵权。



但AI训练行为本身的著作权法定位并不明确。它既不同于对作品的直接传播(如发行、信息网络传播),也不同于对作品的演绎性使用(如改编、翻译)。AI模型对作品的使用更多是一种其他形态,即通过技术手段对作品进行分析和利用,以获取新的功能(智能决策或内容生成)。我国《著作权法》第十条在列举了一系列专有权利后,还规定了“应当由著作权人享有的其他权利”作为兜底条款。英伟达是不是侵犯了版权人著作权的其他权利,需要由法院结合新技术特点进行解释和适用。


三、合理使用抗辩,挑战与希望并存


1、现有条款难兼容的法定抗辩困境


我国《著作权法》第24条列举的13种合理使用情形,但没有一项能够完全契合AI训练场景。比如将数百万本图书用于训练AI模型,显然超出了为个人学习、研究或者欣赏的范围。也不属于为介绍、评论某一作品或者说明某一问题,适当引用作品的情形,因为合理引用通常保留原作品片段供读者查看,而AI训练则是大规模消化作品内容,以获取普遍性知识。同样,AI训练也不符合以教学科研为目的,翻译或者少量复制作品的情况,英伟达并非教学科研机构,英伟达获取500多TB素材也远非少量复制。


著作权法还有个兜底,“法律、行政法规规定的其他情形”也属于合理使用。然而,目前并无法律法规将AI训练列为合理使用的例外,相反《生成式人工智能服务管理暂行办法》等部门规章反而要求生成式AI服务的训练数据处理活动应当使用具有合法来源的数据,不得侵害他人依法享有的知识产权。这一规定实际上排除了将违法获取的数据用于训练AI的合法性,与英伟达的行为形成直接冲突。


2、转换性使用的本土司法探索


英伟达方还可以尝试国内已经有法院尝试,最早由美国法创设的转换性使用,尝试使用《伯尔尼公约》规定的三步检验法适用兜底性的合理使用判断标准。转换性使用是指在使用作品时赋予了新的意义或功能,从而不同于原作品的用途。AI训练将作品内容转换为模型参数,用于生成全新的内容,也可被视为一种转换。


上海知识产权法院就曾在黑猫警长案认定了转换性使用的三步检验法:在构成转换性使用的前提下,如果不影响该作品的正常使用、也不合理地损害著作权人的利益,构成合理使用。2025年杭州互联网法院在奥特曼案件判决中也曾暗示,AI训练的训练数据来源合法、未对外传播的训练内容,可有限适用合理使用。


3、市场替代风险与美国司法风向


但AI训练在不与作品的正常使用相冲突、不得不合理地损害权利人合法权益这两个点上存在争议:如果训练数据包含大量特定领域的专业作品,训练出的模型可能生成类似风格的内容,对原作品市场构成替代效应,这可能被认为与正常使用冲突并且不合理的损害了权利人利益,当然,如果模型仅学习了抽象特征,替代效应较弱,转换性使用合理使用抗辩成功率更高。


在美国法院去年判决的版权人起诉AI服务商Anthropic案中,法院认为训练人工智能的行为被认为是高度变革性的,类似于人类学习和创作的过程,因此偏向合理使用。在版权人起诉Meta违法训练AI案中,法院也认为Meta的使用具有高度的转换性,因为其目的是开发能够生成多样化文本的工具,而不是简单地复制或替代原告的书籍。不过法院也认为该案原告的书籍市场可能受到间接竞争的影响,但原告未能提供足够的证据证明这种影响。当然,此二案件目前都尚未终审。


四、立法和司法展望


以上分析可以看出,由于人工智能是新生事物,目前立法层面规定缺失,所以案件判决法律依据上有不足,如果我国未来著作权法或司法解释有相关的人工智能训练的规定出台,可以从以下方向明确规则。


1、立法层面


增设AI训练的合理使用条款,借鉴日本《著作权法》的规定,不以欣赏作品中表达的思想或情感为目的,且没有不合理的损害著作权人权益的,可以合理使用他人享有著作权的作品,明确AI训练在一定条件下可以合理使用。同时建立授权许可机制,推动集体管理组织或新型授权平台为AI训练提供便捷的批量授权渠道,在保护权利人利益和降低使用者成本之间找到平衡。明确转换性使用标准,在合理使用判断中纳入使用目的和性质,以及转换程度作为重要考量因素。


2、司法层面


如果立法层面没有突破,综合现行法律与司法态度,对类似英伟达购买盗版素材训练人工智能的案件,未来中国法院可能存在几种路径:


为了给人工智能产业以发展空间,在立法明确之前,法院可能技术性回避路径。不正面评价训练行为是否侵权,而是直接从盗版获取、未经许可复制入手,认定侵权成立。区分合法来源与非法来源,对使用合法授权数据训练保持开放,比如前文提及的Anthropic案,美国法院就认定将正版图书转化为电子版构成合理使用,对使用盗版来源训练采取否定态度。有限度合理使用探索,在不输出原文、不影响市场、不替代作品的特定条件下,对训练行为给予有限容忍,但素材仍需合法来源。


最后,回到英伟达案件本身,这并非孤立的个案,而是AI时代著作权法困境的一个缩影。虽然在中国著作权法框架下,购买盗版素材用于人工智能训练,在数据获取和复制环节存在较高的侵权风险,但人工智能产业关注的训练是否侵权,目前无论是侵权定性还是合理使用抗辩,都缺乏明确的法律依据。而此问题的最终答案,并不由单个法院的判决谱写,而由法律在如何保护创作者与鼓励技术发展之间重新划定的边界决定。


本文作者:游云庭,知识产权律师。Email: yytbest@gmail.com,本文仅代表作者观点。

频道: 金融财经
本内容由作者授权发布,观点仅代表作者本人,不代表虎嗅立场。
如对本稿件有异议或投诉,请联系 tougao@huxiu.com。
正在改变与想要改变世界的人,都在 虎嗅APP
赞赏
关闭赞赏 开启赞赏

支持一下   修改

确定