“AI生成画作”获奖惹争议!AIGC数据确权问题如何破?

发布时间:2023-05-04来源:吴丹李浏览次数:362

ChatGPT热潮之下,你一定没少听过AIGC(人工智能生成内容,Artificial Intelligence Generated Content)?作为一种利用AI技术来生成内容的新型创作方式,AIGC在写诗、作画、写小说、创作歌曲等内容创作领域可谓“无所不能”,且动作迅速到可以秒计算。

这样强大的生成式AI如今不仅被服务行业运用于提升员工工作效率,还被不少创作者用于写小说、作画等,且有人因此获奖。比如去年美国科罗拉多州博览会美术大赛的冠军作品——《太空歌剧院》,便是借助一款叫MidjourneyAI绘图工具生成。

《太空歌剧院》部分作品| 图片来源:Jason M. Allen,由Midjourney制作

尴尬的是,获奖者还未享受到夺冠的喜悦,这幅画作就陷入争议、在网络上引发轩然大波。因为获奖者在创作中借助了生成式AI,所以有人认为这幅画并不完全归属于获奖者,不能算作真正意义上的原创。

当然,这波争议并没有阻碍人类对生成式AI的运用,如今仍有很多人借助ChatGPT生成商业海报、小说、代码等,由此也引发了各界对生成式AI作品中数据确权问题的热议与思考。

生成式AI作品中的数据如何确权?如何定价?运用生成式AI创作的人群,怎样保护作品的知识产权,同时也能避免因AI生成内容侵权?这一系列问题在数据确权标准出台前尚无定论,但或许我们可从操作层面有所尝试。

世界知识产权日,我们将目光聚焦于生成式AI作品中的数据确权,邀请长期在创新管理与战略领域深耕的浙江大学管理学院教授郭斌,为我们带来前沿思考。

郭斌,浙江大学管理学院创新创业与战略学系教授、博士生导师

为何数据确权迟迟没有全球统一标准?

众所周知,AI训练的核心资源是数据,AIGC想要取得好的生成结果,离不开基于海量数据的训练。

严格意义上来讲,只要能确定数据的权利属性,即做好数据确权,就可解决AIGC作品的知识产权保护或规避侵权等问题。

但数据确权谈何容易?尽管国内外对此做了很多尝试,但作为一项复杂工程,数据确权与合规至今仍没有全球统一标准。

那数据确权到底有多难?“数据确权的难度主要体现在权利归属、权利分割和数据定价等方面。”郭斌结合相关案例就此展开分析。

从各个国家的法律来看,AIGC作品的著作权或版权不能归属于AI本身,只能归属于自然人或法人。

比如之前有相关新闻提到泰国大象作画、英国猴子拍自拍照等,尽管作品由它们创作,但它们作为动物目前并不能拥有这些作品的版权;还有人尝试用自己开发的一些AI系统去申请著作权或版权,最后被驳回。也就是说,原则上这些AI系统本身并不具备拥有著作权或版权的资格,只有自然人或法人才能够拥有。

由此就引发一个疑问:既然AI本身不能获得版权,那AI系统开发者作为法人、AI系统使用者作为自然人就能拥有版权了。那版权应该给开发者,还是给使用者?

郭斌表示,目前在这方面还没有非常明确的说法,但我们可以通过几个案例看到大部分情况下人们的一些做法。 

其中一个案例发生在中国,2018年腾讯证券网站上发表了一篇由腾讯自主开发的Dreamwriter智能写作助手创作的财经文章,文末注明“本文由腾讯机器人Dreamwriter自动撰写”。该文发表当日,上海某科技有限公司在其经营的网站上转发了这篇文章。被腾讯告上法院后,该公司因未经许可转载被判决赔偿腾讯经济损失及合理维权费用1500元。

从这个案例我们似乎可以得出结论,AIGC作品的著作权应该给到AI系统开发者。但如果你去问ChatGPT由它生成的内容著作权归谁?它会回答你“归ChatGPT的使用者”。

这是为何?郭斌分析称,如今很多生成式AI系统开发者为了不承担法律责任,会将作品著作权给到使用者,因为AI系统本身在生成内容的过程中无法保证所用数据全部获得了授权,它只能在能力范围内尽可能规避侵权数据。

除了将著作权给到使用者外,现在还有一些生成式AI系统会选择拟定一个使用者放弃作品所有权的法律协议,要求你必须同意该协议才可使用系统。也就是说,当你使用了该系统去生成图片或小说,你就必须放弃对该作品的版权和诉讼权,别人有权利在你生成的作品基础上进行再创作,或者将你的作品用于商业广告。

郭斌表示,就目前数据确权尚无全球统一标准的背景下,这算是确定权利归属与边界的一种有效尝试。当然,这种尝试并不适用于所有场景,且这种尝试可能会削弱一些创作者运用生成式AI创作的动力。因为很多人只是用AI生成了底稿,作品的最终完成还要花费自己更大的精力。如果要因此失去作品的独占性,很多创作者可能会选择不用AIGC

要让生成式AI作品产生价值,数据确权需有“新探索”

让借助生成式AI创作的作者放弃版权与诉讼权,终究不是最优方案。因为这在一定程度上使得该作品变成了开源作品,创作者无法获得该作品产生的价值。

这对创作者而言极不公平。杰森·M·艾伦曾回应,《太空歌剧院》虽然采用了AI画图,但他身为创作者也花费了时间和精力,他花了近一个月的时间不断修改指令,在AI工具上输入尽可能准确具体的指令,创作出了100多幅图画,然后从这上百张图画中,选出了自己喜欢的三张,并用工具进行了处理和微调,最后才打印在画布上。

在郭斌看来,在生成式AI作品中投入过大量创作精力的创作者应该拥有著作权或版权,但要实现这一目标,需要在数据确权上做出一些“新探索”。

如果从抽象意义上来讲原则的话,权利分割可从两个角度来切入:一是基于已有法律框架对他们在创作过程中的贡献进行分割,也就是在整个AIGC全生命周期里对所有参与方的贡献进行分割。

二是从技术处理的角度出发,可以基于生成式AI的注意力权重参数来量化。

“因为生成式AI在生成内容的过程中可能使用了多位画家的风格,而这个注意力权重参数可以反映出每位画家的风格对生成这份画作的贡献,权重越大,贡献也就越大。”

郭斌表示,这种尝试在技术上并不难,很多生成式AI系统后台在生成内容的过程中都存在相关参数与算法。比较难的是,如何将这些数据抽取出来,形成一套权利分割的规则,且这套规则能够得到普遍认同。

“当权利分割确定规则后,数据定价问题也会迎刃而解。因为生成式AI作品的价格取决于购买者,而作品中所涉及到的各部分数据的定价,则取决于权利分割规则。”

如何保护我们作品的版权,同时又不因AIGC侵权?

尽管解决了权利分割和数据定价问题,但数据确权难题远不止如此简单,我们还需解决版权边界模糊性问题。

这一问题在生成式AI作品中更为复杂,因为AI学习和模仿的范围更广,它生成的内容即便是模仿或抄袭,也很可能超越普通人的认知范围。

而这就可能导致生成式AI作品创作者很难确定自己的作品是否存在侵权问题。同时,他们也会因此不敢申请作品的版权保护。

那如何才能解决版权边界模糊性问题?要知道,在法律意义上讲,边界是不允许模糊的。

对此,郭斌认为可以从两个方面来解决:一是用人为的方式去划定明确的边界,比如连续重复率达到多少算抄袭。

二是依据错误一致性来划定边界,比如AI生成的代码和过去某个人写的代码,在BUG内容和BUG的位置上都完全一致,那就可判定为AI在抄袭这个人的代码。

“当然,这种方法高度依赖于特定情境,在不同行业不同情境下,人们可能会运用不同的方法来实现边界划定,比如风格指纹、区块链等。”郭斌说。

实际上对于很多内容创作者来说,确权是基础,维权才是关键。那么在生成式AI对大量数据的学习与模仿下,内容创作者怎样才能真正保护作品的版权,尤其是数字内容作品?

郭斌表示,可以运用区块链技术来保证作品的唯一性价值,且可在整个链条上追溯到其他人对作品的抄袭行为,进而实现版权保护。

反过来,作为生成式AI使用者,要做到不侵权,必须要尽量谨慎使用生成式AI生成的内容,并在提问过程中不断设置不侵权的相关条件等。当然,这也无法做到万无一失。

在郭斌看来,这些做法都只是在数据确权尚未形成统一标准的背景下可做的探索与尝试。因为数据确权与合规涉及到很多复杂问题,要彻底解决,仍要在不断尝试中才能找到答案。

结语

自去年11ChatGPT面世以来,AIGC产业迎来爆发式发展,大多数企业都不愿放弃这一发展“风口”。而随着越来越多的企业将其运用到盈利业务中,解决数据确权与合规难题就显得日益迫切。

作为长期关注与助推中国企业发展的中国管理学院,浙江大学管理学院在数据科学与管理工程、数字化技术与管理变革、知识产权管理等领域已有多年积淀,未来也将持续深入研究探索,为数据确权与合规等现实难题的解决贡献“浙大力量”。

关闭
Baidu
sogou