小程序
传感搜
传感圈

Copilot 要摊官司了,工作 20 年老程序员重新激活律师证,发起集体诉讼,还喊网友加入

2022-10-23
关注

距离正式发布才刚 4 个月,GitHub Copilot 即将迎来一场集体诉讼

发起人是一位干了 20 多年的程序员,来自美国的马修・巴特里克(Matthew Butterick)。

他早在今年 6 月就“捶”了 Copilot 的开源许可证问题。

现在,马修终于决定迈出实质性的一步,在迅速激活自己的律师资格证后,和其他几位律师一起合作“声讨”Copilot。

(这位老哥身兼数职,除了这俩身份还是设计师)

他在一篇专门的个人博客中细究了 Copilot 涉及的两大法律问题,并指出 Copilot 不仅是“偷代码”那么简单,还会对整个开源社区造成诸多不良影响:

或许你不介意它未经许可就用了你的开源代码,但如果它也将由此抹去你和开源社区之间的联结呢?

(若不明白这句话具体何义,请接着往下看~)

目前,这篇博客已在推特上得到了不少关注和转发。

相关消息还引爆了 Hacker News 社区。

Copilot 有哪些问题?

先给不熟悉的朋友简单介绍一下 Copilot。

它是内嵌在 Visual Studio 等 IDE 中的一个代码自动补全工具,支持多种主流编程语言。

根据已写的内容,它可以给出后续代码建议 —— 不过和我们见到的普通自动补全功能不同,它可以生成诸如整个函数体这样的大段代码

今年 6 月,Copilot 在经过一年的免费试用后正式转为付费工具,定价为 10 美元 / 月(人民币约 67 元),年付则是 100 美元 / 年(人民币约 669 元)。

它的到来,让很多人都感叹入门级别的程序员没有用了。

不过问题也随之而来。

Copilot 强大的编码能力来自于一个叫做 Codex 的 AI,由 OpenAI 开发并授权给微软。

Codex 是怎么训练的呢?

尽管微软含糊其辞,表示它的训练源是数亿行公共代码;但 Copilot 的研究员还是道出了实情,都是出自于 Github 上的公共仓库。

好了,马修要状告 Copilot 的第一个问题,也就跟 Copilot 的训练过程有关

马修表示,微软和 OpenAI 要想用 Github 上的开源仓库进行训练,要么遵守它们的开源许可证协议,要么「合理使用」。

如果是前者,微软和 OpenAI 应该至少发布大量的 attri­bu­tion 来获得许可,但是大家没有看到。

他们将自己归到了后者,如 GitHub 前 CEO Nat Fried­man 在 Copilot 的技术预览会所说:

在公开数据上训练(机器学习)系统属于合理使用。

不过,软件自由保护组织(Software Freedom Conservancy,SFC)不同意这一“空口无凭”的说辞,要求他们提供法律依据来支撑自己的立场。

但是迟迟没有得到答案。

马修表示,这就是因为微软和 OpenAI 给不出来啊。

第二个可能违法的问题,则是关于 Copilot 的使用

马修指出,微软在面对 Copilot 用户时对自己进行了免责。

微软将 Copilot 给的代码称为“建议”,称自己不从中主张任何权力,也不对它生成的代码作任何关于正确性、安全性和产权相关的保证。

一旦你接受了 Copilot 给出的“建议”,如果出了问题都由你自己负责。

乍一听还好,可是不止一人发现 Copilot 一字不差地把原作者的代码当成“建议”丢给用户,连注释都一并奉送的那种。

这要是直接采纳可就要涉及许可问题了,可是 Copilot 根本不会注明这些代码的来源,又该让用户如何遵守协议呢?

以上,便是马修要控诉的两大问题。

除此之外,他还表达了对开源社区文化的担忧。

他认为,Copilot 的所作所为直接在程序员和开源社区之间砌起了一堵墙,让程序员只管任意享用现成代码,远离源代码本身,失去与源项目的问题讨论、bug 跟踪等互动和贡献。

而这对开源社区将是一个永久的、痛苦的损失。

另一边,对于“无故”奉献了训练代码的开源作者来说,他们俨然被当作了资源的生产者。

马修将这类人比喻成奶牛,由于 Copilot 对他们的项目没有任何贡献,他表示这奶牛是只出奶却不被提供食物和住所的奶牛。

因此,他也将 Copilot 的本质,比喻为寄生虫。

此外,你可能听闻有人出于愤怒将自己的代码搬出了 GitHub。

马修告诉大家:其实微软通过声称训练 AI 是合理使用,正在搜索网上任何可以使用的公共代码进行训练。

可以说是“逃无可逃”。

于是在避免伤害变得无法弥补之前,马修声称必须弄清 Copilot 的合法性。

他呼吁以下几类人群加入他们的调查和诉讼队列:

当然在博客最后,马修还是特别声明:

我本身并不反对 AI 辅助编程工具。

他提到,Copilot 本可以也很容易变得“友好”,比如让作者自愿参与,或者有偿征用

质疑声从未停止

这次,看到有人带头牵起对 Copilot 的集体诉讼,许多程序员以及计算机相关领域的大佬们纷纷表示:

“附议!”

消息出来之后,德克萨斯 A&M 大学的一位计算机科学教授,并兼任 ACM、IEEE 和 SIAM 会员的 Tim Davis 顺势发推分享了自己的“遭遇”:

Copilot 没有拿到 LGPL 许可证(函数库公共许可证),就擅自发出了大段我的版权代码。

并附上了证据:

 左为 Copilot 给出的代码,右为他自己的代码

有网友表示:

Copilot 的这种行为属于是完全不尊重开源社区。

还有网友犀利地指出,在模型训练过程中,所谓的 AI“学习”,本身就是一种被勉强挪用过来的概念:

因为据现有法律,人类阅览受版权保护的资料用于自己学习,是合法的;然后各大科技公司说,AI 也会“学习”,所以 AI 也没有违反版权法。

但是 AI 并不像人类那样自主(尽管很多公司称 AI 很自主),这些模型其实都被背后的组织或公司等操控着,所以用“学习”来描述 AI 做的事并不太准确。

而且真人其实也经常出现会违反版权法等问题……

所以,要定义 AI 在“学习”过程中到底是否“抄袭”了,以及存在具体哪种侵权行为,是一个非常棘手的问题,还需要更多的讨论和明确规定。

诚然,Copilot 从去年的内测阶段起,其出色的编程能力确实惊艳了不少人。

而且这个 AI 后来还学会了“反向输出”:

用“人话”来讲解某一段代码有什么用,帮助屏幕前的人看懂代码。

但另一方面,不只现在,其实从 Copilot 刚出来开始,一直就有众多质疑和反对的声音,核心都不外乎马修在前文举证的那两点。(即这个 AI 的训练和使用)

也正如前文所说,除了个人,还有 SFC 等组织也在声讨 Copilot。

而在今年 6 月份,GitHub 宣布 Copilot 结束内测,开启收费模式后,更是将大家的不满情绪拔到了最高点。

除了免费引流再收费的商业模式让人反感外,大家一致认为这的 AI 用开发者写的代码来训练,不应该回过头向再开发者收费:

每一个曾向 GitHub 提交过代码的人都应免费使用!

于是,Copilot 正式版立刻遭到了抵制 ——

SFC 不仅自己要退出 GitHub,而且还号召其他软件开发商同样照做。

在 VS Code 插件市场上,Copilot 原本一直是 5 星好评,也一下子涌入了不少一星差评。

One More Thing

本次事件还让人把目光延伸到了 AI 绘画领域,有网友认为:

这种工具同样也涉及侵权等问题。

最后,对于“大伙儿现在联合把 Copilot 告上法庭”这件事,你觉得赢的胜算大吗?

参考链接:

  • [1]https://githubcopilotinvestigation.com/

  • [2]https://twitter.com/DocSparse/status/1581461734665367554

  • [3]https://news.ycombinator.com/item?id=33240341

本文来自微信公众号:量子位 (ID:QbitAI),作者:丰色、Alex

您觉得本篇内容如何
评分

评论

您需要登录才可以回复|注册

提交评论

提取码
复制提取码
点击跳转至百度网盘