12月3日,据科技媒体Ars Technica报道,在一起由多位作家发起的集体诉讼中,美国法院近日作出一项关键裁定:OpenAI必须公开其内部关于删除两个涉嫌包含盗版书籍的数据集的通信记录。这一决定被视为案件走向的重要转折点,或将对人工智能公司使用受版权保护内容训练模型的行为产生深远影响。
该诉讼的核心指控是,OpenAI在开发ChatGPT过程中,非法利用了大量未经授权的盗版图书作为训练数据。特别引人关注的是,公司在2022年ChatGPT正式发布前夕,突然删除了名为“Books1”和“Books2”的两个大型文本数据集。原告方认为,此举并非如OpenAI所称的“未使用”,而是试图掩盖其侵权行为。
面对法庭质询,OpenAI最初声称删除这两个数据集是因为它们“从未被用于模型训练”。然而,当原告进一步要求提供相关决策过程的证据时,公司却转而援引“律师-客户特权”,试图将所有内部沟通列为机密信息不予披露。这种前后不一的立场迅速引发质疑,并招致主审法官Ona Wang的严厉批评。
法官Wang明确指出,OpenAI不能一方面对外宣称删除数据集是出于技术原因,另一方面又在法律程序中以特权为由拒绝说明真实动机。她在裁决书中直言,这种做法“令人难以置信”,并下令OpenAI必须在12月8日前提交所有涉及删除“Books1”和“Books2”的内部通信,包括与公司内部法律顾问的讨论内容,以及任何提及知名盗版书库LibGen(Library Genesis)的信息。
此外,OpenAI的内部律师还须在12月19日前接受对方律师的质询。这一系列强制披露措施,旨在厘清该公司在处理版权内容时是否具备“善意”——这是判断其是否构成“恶意侵权”的关键法律标准。
若最终法院认定OpenAI确实存在恶意侵犯版权的行为,其面临的赔偿金额可能极为可观。根据美国现行版权法,每部被侵权作品的法定赔偿上限可达15万美元(约合106.2万元人民币)。考虑到涉案数据集中可能包含成千上万本受版权保护的图书,潜在赔偿总额或将高达数十亿美元。
值得注意的是,法官Wang还在裁决中驳斥了OpenAI对另一起AI相关案件判决的误读。OpenAI曾引用针对竞争对手Anthropic的判例,声称“为训练大语言模型而下载盗版书籍属于合法行为”。对此,Wang法官强调,该判例并未支持此类主张,OpenAI明显曲解了法院原意,试图以此为其行为寻找合法性依据。
