英伟达被曝偷偷联系安娜档案馆，想拿大量盗版数据训练AI

近日，一起涉及人工智能训练数据来源的法律风波再度将科技巨头英伟达推上风口浪尖。据多方披露，在一项由多位图书作者发起的集体诉讼中，英伟达被指曾主动联络臭名昭著的盗版电子书平台“安娜档案馆”（Anna's Archive），试图获取高达500TB的非法电子书资源，用以加速其大语言模型的训练进程。此举迅速激起出版界和创作者群体的强烈反弹，批评者直指其行为不仅涉嫌严重侵犯版权，更暴露出在AI竞赛白热化背景下，部分科技公司为抢跑而甘愿游走于法律边缘的激进策略。

安娜档案馆虽长期标榜自身为“知识自由流通”的倡导者，但其内容几乎全部源自未经授权的扫描与上传，包括大量受版权保护的学术著作、小说及非虚构类作品。令人意外的是，即便该平台多次公开声明其数据具有非法性质，英伟达仍据称在内部沟通中积极寻求与其建立数据合作渠道。诉讼文件显示，有确凿证据表明，英伟达工程师团队曾评估将这些盗版文本纳入其NeMo和Retro-48B等自研大模型的预训练语料库，以期在短期内提升模型的语言理解与生成能力。

这一举动并非孤立事件。近年来，随着OpenAI凭借ChatGPT迅速占领市场心智，英伟达在AI领域的布局明显提速。2023年秋季的GTC开发者大会上，公司高调展示其最新大模型成果，意图在生成式AI赛道中占据一席之地。然而，要在短时间内构建高质量、大规模的训练数据集，合法授权内容的获取成本高、周期长，这或许促使部分团队转向灰色地带——从LibGen、Sci-Hub到Z-Library，多个知名盗版资源站点均被指成为英伟达的数据来源之一。

面对指控，英伟达最初以“合理使用”原则进行辩解，强调AI训练对公共知识的依赖具有正当性。但随着更多内部邮件和会议记录被披露，其立场逐渐显得站不住脚。原告方指出，所谓“合理使用”通常适用于教育或研究目的，而非用于商业化的闭源模型训练。更重要的是，这些被盗用的作品并未获得作者许可，也未支付任何报酬，本质上剥夺了创作者应得的经济权益。有法律专家分析，若法院最终认定英伟达的行为构成侵权，或将对整个AI行业训练数据的合规标准产生深远影响。

目前，安娜档案馆因多国执法机构的持续施压已面临运营困境，而英伟达虽尚未遭遇实质性业务打击，但其声誉正经受严峻考验。这场围绕AI、版权与创新伦理的博弈，不仅关乎一家公司的法律责任，更折射出整个科技行业在追求技术突破与尊重知识产权之间的深层张力。未来数月，随着案件进入关键审理阶段，全球目光将持续聚焦于此——究竟是AI发展必须付出的代价，还是企业越界的警钟？答案或将重塑生成式AI的未来路径。

相关文章

想玩转AI社交，腾讯元宝得大胆点

小心裸奔的开源AI！没人管可能被黑客当跳板

ChatGPT Agent 用户跑了七成五，定位不清成最大硬伤

清华推出法律大模型LegalOne-R1，智能司法要变天了！

Sora下载量暴跌45%！OpenAI的领先优势还稳吗？

小红书悄悄试水语音问一问：真人经验+AI，搜得更懂你

发表回复 取消回复

发表回复取消回复