OpenAI吹哨人之死：ChatGPT的阴暗面

出品｜虎嗅ESG组

作者｜陈玉立

头图｜电影《黑客帝国》

本文是#ESG进步观察#系列第108篇文章

本次观察关键词：人工智能

被称为“OpenAI吹哨人”的Suchir Balaji，11月26日被发现死在旧金山的一间公寓中，终年26 岁，当局裁定他的死亡为自杀。

据外媒报道，Suchir Balaji在加利福尼亚州库比蒂诺长大，一直对人工智能很着迷。2013年，DeepMind的进步激发了他对此的兴趣，促使他进入加州大学伯克利分校攻读计算机科学，并于2021年毕业。同年他加入OpenAI，很快就参与到GPT-4的开发工作中，他的工作是帮助OpenAI搜集和组织大量的互联网数据，用以训练ChatGPT大模型。

最早，他也如同其他人一样被人工智能的前景所吸引，认为神经网络可以解决从治愈疾病到应对气候变化一系列人类最关心的问题。可以说，对Suchir Balaji而言，人工智能不仅仅是一串串代码，而是一种炼金术、一种将想象变成现实的工具。

但随着他目睹越来越多针对生成式人工智能的投诉案发生，他的观点慢慢发生了变化。

Suchir Balaji在个人博客上详细阐述了他的观点：OpenAI 在数据的使用方面存在不合理性，因为它未经许可就使用受版权保护的材料训练其模型，所以侵犯了从程序员到记者等无数原创作者的知识产权。这相当于在原创者作品的基础上生成了“替代品”，并拿走了属于原创者的利益。

马斯克在X上分享了这一新闻，图源：马斯克X账号截图

生成式AI因何而侵权？

Balaji所言非虚，无论是ChatGPT还是其他生成式AI应用，它们都是通过从互联网上抓取大量数据（包括受版权保护的内容）来构建自己的算法模型。

我们总结类似OpenAI一类大模型的常规训练过程就会发现，其一般包括三个步骤：

步骤一：OpenAI从互联网上收集大量文本，包括博客、文章和书籍等等。其中部分数据是公开的，但大部分数据受版权保护。

步骤二：AI分析这些数据以学习如何生成人类理解的文本。

步骤三：当你向ChatGPT提问时，它不会告诉你被训练时的原始数据，但它的回答通常会大量借鉴原始数据中的信息。

为什么说OpenAI会拿走属于原创者的利益？举一个不那么准确的比方，当你向ChatGPT发问之后，如果它能生成一个类似知乎专业大V的回答，那么知乎也就失去了存在的意义，大V们也再无存在的必要，整个生态就坍塌了。

回溯历史，OpenAI曾针对Balaji的呼吁为自己辩护，声称其使用的公开数据符合版权法。OpenAI表示：“我们正使用公开数据构建我们的人工智能模型，这一行为合理合法……并且这对创新者来说是必要的，对美国的科技竞争力更为重要。”

一个事实是，生成式AI发展至今，除了Balaji以外，还有大量批评者认为生成式AI将造成大量的道德困境，他们呼吁监管层出台相关法律。

外媒指出，Balaji在AI伦理问题上的直言不讳赢得了人们的钦佩和批评，且反映了创新与责任之间存在的紧张关系，“Balaji的离世留下了一个核心问题——生成式人工智能的伦理困境”

此外，还有部分外媒指出，Balaji掌握的信息可能会在针对OpenAI的诉讼中发挥关键作用。

更大的伦理困境

巴拉吉并不是唯一一个发起控诉的人。2023年年底，《纽约时报》曾对OpenAI及其合作伙伴微软提起诉讼，指控他们非法使用数百万篇原创文章来训练他们的大模型。《纽约时报》辩称“这种未经授权的使用直接损害了他们的业务”。

从更深远的影响来看，《纽约时报》认为在ChatGPT能够生成与传统新闻机构质量相当的内容之后，下一步将会是人工智能取代传统新闻业。

再往前看，2022年年底也曾有三位艺术家组团起诉多个生成式人工智能平台，理由是人工智能未经许可使用他们的原创作品来训练他们的大模型，而用户用AI生成的作品与艺术家现有的作品极其相似，艺术家认为这些应该被认定为“未经授权的衍生作品”。其结果是，如果法院认定AI生成的作品未经授权且为衍生作品，那么就适用严厉的侵权处罚。

在国内也有类似的案例，最流行的是“魔改”——利用AI普通人能够将经典影视剧中的角色和场景“移植”到全新的场景中，这在各大短视频平台十分常见。

北京市两高（郑州）律师事务所副主任张博在接受央广网采访时指出，无论是换脸、改台词还是加入新情节，都是对原影视剧内容的再创作。但是，在追逐流量的同时，也滋生了很多新型侵权行为。

张博认为，AI“魔改”视频涉及影视演员的形象，比如利用AI工具改变演员的动作、表情和台词，涉嫌侵犯了演员的肖像权和名誉权。

此外，在第八届中国网络版权保护与发展大会上，一众专家也对AI带来的版权风险进行了探讨。北京大学国际知识产权研究中心主任易继明指出，大部分情形下，AI研发企业并未获得版权人的授权，潜藏着侵犯他人版权的法律风险。

在此背景下，产业界迫切需要法律与公共政策能够明确提供关于使用语料的合法性指引，创作者与公众也需要高度关注自身利益能否得到有效保障，AI大模型训练中使用语料的合法性及合理性问题，成为AI时代亟待研究的重大课题。

但这一问题该如何解决？目前看来还十分困难，难点一是在人工智能侵权行为难以界定，二是规范性的法律文件很难界定。

具体而言，著作权法保护的是具有独创性的作品，但AI生成的内容是否具备独创性，以及如何判断其独创性，是一个复杂且争议的问题，不同国家对此有不同看法。例如美国版权局明确表示AI自动生成的作品不受版权法保护，而中国法院则在一系列案例中认定，只要AI生成内容能体现出自然人独创性智力投入，就应当被认定为作品，受到著作权法保护。

其次，传统的著作权法体系下，作品的作者是具有法律人格的自然人或法人。但AI作为生成内容的主体，其法律地位并不明确，无法直接作为作者享有著作权。这导致在立法时需要重新考虑作者身份的认定问题。

最后，立法者还需要在保护著作权人权益和促进AI产业发展之间找到平衡点。过于严格的法律可能会抑制AI技术的创新和应用，而过于宽松的法律则可能损害著作权人的利益。“管就死，放就乱”这也是监管难推进的原因之一。

但我们必须意识到的一个问题是，生成式AI的发展大概率将一去不回头，而人们对AI生成内容与人类生成内容的判断边界也将越来越模糊，最终走向混乱。

或许，另一位Balaji的预测将解决这一问题，他是一位“80后”印度裔创业者兼投资人，其在《巴拉吉预言：技术、真相和构建未来的指南》（此书被称为“解读硅谷创业家思想“右转”的入门读本”）中指出，新兴技术“区块链”之不可篡改的“真实”才是可信的“真实”；以加密货币在工作流中加入激励机制，通过智能合约来推动协作，才是未来可能的工作方式。

国内也曾有专家学者指出，相关部门的机构应开发更高效的数字指纹技术和使用区块链技术，让每个人工智能参与创作的作品享有独特的数字身份，可追溯人工智能生成文本的来源，保证人类原创作品和人工智能创造作品的版权。

以未来视角看现在，Suchir Balaji的离世或许只是AI伦理问题被揭开的“第一章”，技术的流向并不以人类意志为转移，我们唯一能期待的是AI成为人类的工具，而非人类成了AI的奴隶。