英伟达被曝主动找影子图书馆拿几百万本盗版书训练AI

人工智能热潮席卷全球，但其背后的数据合规问题正引发前所未有的法律风暴。近日，芯片巨头英伟达（NVIDIA）因涉嫌在大语言模型训练中大规模使用盗版图书数据，被卷入一场由多位知名作家发起的集体诉讼。最新提交至美国加州联邦法院的修正起诉书披露了令人震惊的细节：英伟达不仅知晓数据来源非法，还曾主动与全球最大的盗版电子书平台之一Anna’s Archive接洽，意图获取海量受版权保护的内容。

据起诉文件显示，2023年，在筹备备受瞩目的GTC开发者大会前夕，英伟达内部战略团队成员直接联系Anna’s Archive，明确表达了希望将其馆藏纳入NeMo、Megatron等核心AI模型预训练数据集的意愿。尽管对方在沟通中坦承其资源“未经授权获取”，英伟达管理层仍在短短一周内批准了该项目，并最终获得了约500TB的文本数据访问权限。原告方代表、作家Abdi Nazemian指出，这种行为并非技术疏忽，而是有预谋、有组织地绕过版权壁垒，以加速其AI产品商业化进程。

更令人关注的是，起诉书进一步指控英伟达的数据来源远不止Anna’s Archive一家。包括LibGen、Sci-Hub和Z-Library在内的多个“影子图书馆”也被列为潜在数据渠道。尤为严重的是，原告方强调，英伟达不仅自身使用这些非法数据，还向企业客户分发自动化脚本工具，协助其从相同渠道批量抓取包含盗版内容的数据集。这一行为被法律界视为典型的“共同侵权”与“替代侵权”——即在明知内容非法的前提下，仍提供技术手段促成侵权行为的发生与扩散。

此前，英伟达曾援引“合理使用”原则试图规避责任，声称AI训练属于转换性使用，不构成对原作品市场的实质性损害。然而，随着内部邮件、会议记录等关键证据陆续浮出水面，这一辩护策略正面临严峻挑战。法院文件显示，英伟达员工在内部沟通中多次讨论如何“规避版权审查”以及“优化盗版数据下载速度”，甚至探讨是否可通过支付费用换取Anna’s Archive的高速通道权限。此类细节极大削弱了其“无意侵权”的立场。

划重点:

⚖️ 深陷集体诉讼: 包括Abdi Nazemian在内的多位畅销书作家联合起诉英伟达，指控其利用盗版图书训练NeMo、Megatron等关键AI模型，侵犯作者合法权益。
📑 主动接洽盗版源: 内部通信证据表明，英伟达团队曾主动联系Anna’s Archive，明确寻求500TB盗版电子书数据，并探讨付费加速下载的可能性。
🛡️ 侵权指控升级: 除自身使用外，英伟达还被指通过分发自动化工具，协助第三方客户获取非法数据集，涉嫌构成共同侵权与替代侵权。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复