678CHAT AI资讯 英伟达被曝主动找影子图书馆拿几百万本盗版书训练AI

英伟达被曝主动找影子图书馆拿几百万本盗版书训练AI

人工智能热潮席卷全球,但其背后的数据合规问题正引发前所未有的法律风暴。近日,芯片巨头英伟达(NVIDIA)因涉嫌在大语言模型训练中大规模使用盗版图书数据,被卷入一场由多位知名作家发起的集体诉讼。最新提交至美国加州联邦法院的修正起诉书披露了令人震惊的细节:英伟达不仅知晓数据来源非法,还曾主动与全球最大的盗版电子书平台之一Anna’s Archive接洽,意图获取海量受版权保护的内容。

据起诉文件显示,2023年,在筹备备受瞩目的GTC开发者大会前夕,英伟达内部战略团队成员直接联系Anna’s Archive,明确表达了希望将其馆藏纳入NeMo、Megatron等核心AI模型预训练数据集的意愿。尽管对方在沟通中坦承其资源“未经授权获取”,英伟达管理层仍在短短一周内批准了该项目,并最终获得了约500TB的文本数据访问权限。原告方代表、作家Abdi Nazemian指出,这种行为并非技术疏忽,而是有预谋、有组织地绕过版权壁垒,以加速其AI产品商业化进程。

更令人关注的是,起诉书进一步指控英伟达的数据来源远不止Anna’s Archive一家。包括LibGen、Sci-Hub和Z-Library在内的多个“影子图书馆”也被列为潜在数据渠道。尤为严重的是,原告方强调,英伟达不仅自身使用这些非法数据,还向企业客户分发自动化脚本工具,协助其从相同渠道批量抓取包含盗版内容的数据集。这一行为被法律界视为典型的“共同侵权”与“替代侵权”——即在明知内容非法的前提下,仍提供技术手段促成侵权行为的发生与扩散。

此前,英伟达曾援引“合理使用”原则试图规避责任,声称AI训练属于转换性使用,不构成对原作品市场的实质性损害。然而,随着内部邮件、会议记录等关键证据陆续浮出水面,这一辩护策略正面临严峻挑战。法院文件显示,英伟达员工在内部沟通中多次讨论如何“规避版权审查”以及“优化盗版数据下载速度”,甚至探讨是否可通过支付费用换取Anna’s Archive的高速通道权限。此类细节极大削弱了其“无意侵权”的立场。

划重点:

  • ⚖️ 深陷集体诉讼: 包括Abdi Nazemian在内的多位畅销书作家联合起诉英伟达,指控其利用盗版图书训练NeMo、Megatron等关键AI模型,侵犯作者合法权益。

  • 📑 主动接洽盗版源: 内部通信证据表明,英伟达团队曾主动联系Anna’s Archive,明确寻求500TB盗版电子书数据,并探讨付费加速下载的可能性。

  • 🛡️ 侵权指控升级: 除自身使用外,英伟达还被指通过分发自动化工具,协助第三方客户获取非法数据集,涉嫌构成共同侵权与替代侵权。

本文来自网络,不代表678CHAT立场,转载请注明出处:https://www.678chat.com/ai/22620.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

返回顶部