德国法律意见书质疑文本和数据挖掘例外对人工智能训练的适用性
来源:中国保护知识产权网 发布日期:2024-10-23 阅读:14次
德国公布了一份法律意见书,内容涉及《数字化单一市场(DSM)版权指令》第4条规定的“文本和数据挖掘(TDM)”版权例外在多大程度上允许数据集被汇编并用于训练人工智能系统。
该法律意见书由一家名为作者权利倡议(Initiative Urheberrecht)的组织委托撰写。马格德堡大学计算机科学教授塞巴斯蒂安.斯托伯(Sebastian Stober)和汉诺威大学民法和知识产权教授蒂姆 W.多尼斯(Tim W. Dornis)撰写了该法律意见书,并于9月30日发表。
训练人工智能系统需要收集和部署大量数据,其中一些可能是受版权保护的作品。要获得所有相关作者的单独授权,在实践中几乎是不可能的。这就是为什么开发和测试复杂人工智能系统背后算法的人最终会关注版权的例外和限制。为编制所需的训练集而进行的数据搜刮和复制本身就是一门生意。
《DSM版权指令》第3条为研究组织和文化机构规定了文本和数据挖掘的复制和摘选例外,第4条为所有人尤其是商业企业规定了TDM例外,尽管权利人可以选择退出。
在ChatGPT推出之后,人们讨论了《DSM版权指令》第4条是否涵盖通过互联网作品训练的人工智能模型,因为这些作品一般至少是暂时复制的。对这一问题的看法在过去和现在都是众说纷纭。现在公布的法律意见书长达217页。它将技术视角与对该问题的法律评估相结合。作者认为,在收集数据并将这些数据用于训练人工智能系统时,通常会有一些行为构成《版权指令》第2条所指的受版权保护作品的复制。
法律意见书还强调,在训练人工智能系统的过程中,在相应的人工智能模型“内部”也会发生与版权相关的复制行为。法律意见书指出,虽然没有专门的记忆机制,但目前所有的生成式人工智能模型都会对训练数据进行某种记忆。此外,这种模型的使用还涉及复制和重新设计用于训练底层人工智能模型的作品。
多尼斯和斯托伯还认为,通过提供基于训练的人工智能模型服务,服务提供商正在向公众提供欧盟版权法意义上受版权保护的作品。他们认为,目前的版权限制和例外范围只在极少数“实际上无关紧要”的情况下才涵盖并证明了与训练生成式人工智能模型相关的干扰。最重要的是,作者认为文本和数据挖掘(TDM)的例外不适用于生成式人工智能模型的训练。
版权法专家尼尔斯.劳尔(Nils Rauer)说:“人工智能和数据总是一对孪生兄弟。没有强大的训练集,人工智能就无法发展到可以投放市场的阶段。同样,如果没有持续的数据反馈作为保障,人工应用程序也无法学习。因此,数据至关重要。然而,大多数可用数据都受专有权的限制。这可能会造成困难。美国目前正在审理的大量集体诉讼就很好地说明了这一问题。版权和数据隐私都是问题所在”。
根据劳尔的经验,争议的核心总是相同的:开发者是否可以依赖版权的限制和例外,或者是否需要事先征得权利人的同意。“在美国,关于合理使用的限制一直存在争议。在欧洲,我们有更多的定制限制,而不是像合理使用这样的一般原则。其中最相关的例外是《DSM版权指令》第3条和第4条中的文本和数据挖掘例外”。
法律意见从技术和法律两方面深入探讨了这一问题。事实是,文本和数据挖掘例外的设计重点并非是训练人工智能模型。不过,起草的例外条款是开放的,可以随着技术发展和需求而变化。
劳尔质疑,人工智能模型“内部”是否真的能找到受保护作品的副本——多尼斯和斯托伯认为这是真的。“例如,在ChatGPT中,如果用户向系统提出问题,系统就会将只有四个字体的极小语言元素(tokens)组合成句子。语言元素本身很难被视为受版权保护的物品,语言元素的整体组合也没有形成作品。”
此外,记忆信息并不等同于制作特定作品的副本。如果达到模型“内部”不存储具体作品的程度,那么提供工具的供应商和使用工具的互联网用户都不构成版权法下的相关行为。
劳尔还认为,《DSM指令》中对文本和数据挖掘的定义要比该研究报告中所说的宽泛得多:“TDM例外并不局限于提取语义信息。因此,虽然在训练人工智能模型的每个个案中是否都可以依赖TDM例外情况还有待澄清,但当前研究报告作者得出的结论必须受到质疑。值得注意的是,欧洲立法者明确认为适用《DSM版权指令》第4条。因为在第2024/1689号欧盟《人工智能法案》第53第1款第c项明确提到了《DSM版权指令》第4条第3款。尽管如此,TDM例外以及美国的合理使用原则并不是人工智能模型开发者的通行证,我们必须考虑案件的具体情况,不能完全排除TDM例外的适用性”。
另外一位专家还提到了汉堡地区法院最近的一项判决,其中法官们正确地作出了支持TDM例外适用的裁决,其重点在于本案是否符合例外情况的标准。