外媒曝光ChatGPT背后的“血汗工厂”:最低时薪仅1.32美元,9小时至多标注20万个单词,有员工遭受持久心理创伤

  于 2022 年 11 月发布,ChatGPT 被誉为当年最具创新性的人工智能工具之一。这项强大的 AI 聊天机器人几乎可以生成任何问题的文本,从莎士比亚的十四行诗,到用 5 岁孩子都能理解语言描述的复杂数学问题,可谓“无所不能”。

  瑞银此前发布的一份研究报告显示,ChatGPT 的月活跃用户在今年 1 月份预计达到了 1 亿,这距离其推出只有 2 个月时间,成为史上增长最快的消费者应用。

  ChatGPT 被誉为 2022 年最具创新性的人工智能工具之一

  然而,在 ChatGPT 掀起的这场人工智能“革命”和资本市场狂欢的背后,有一个被边缘化的、被遗忘的却又至关重要的群体,值得所有人关注,他们就是数据标注员。

  据美国《时代周刊》上月中旬的报道,为了训练 ChatGPT,OpenAI 雇佣了时薪不到 2 美元的肯尼亚外包劳工,他们所负责的工作就是对庞大的数据库手动进行数据标注。

  时薪 1.32~2 美元,9 小时阅读并标注至多 20 万个单词

  从当下看来,OpenAI 已经成为“生成式人工智能”行业无可争议的领头羊。

  最乐观的投资者认为,计算机生成的文本、图像、视频和音频将改变无数行业的经营方式,从创意艺术到法律,再到计算机编程,该技术都将提高人类的工作效率。

  然而,数据标签员工的工作条件揭示了行业背后“黑暗”的部分:尽管人工智能魅力无限,但它往往依赖于全球最廉价的劳动力,他们往往被大幅剥削。尽管他们为数十亿美元的产业作出了杰出贡献,但这些几乎“隐形”的工人仍然处于最边缘的地带。

  《时代周刊》查阅的文件显示,OpenAI 在 2021 年底与 Sama 签署了三份总价值约 20 万美元的合同,为数据库中有害的内容进行标记。

  Sama是一家总部位于美国旧金山的公司该公司雇佣了肯尼亚、乌干达和印度的外包员工。

  大约 30 多名工作人员被分成三个小组,每个小组都专注于一个主题。三名员工对《时代周刊》表示,他们每 9 个小时要阅读和标注 150~200 段文字。这些段落的范围从 100 个单词到 1000 多个单词不等。

  接受《时代周刊》采访的四名员工都表示,这份工作给他们留下了持久的心理创伤。尽管他们有权参加健康咨询师课程,但四人都表示,由于对工作效率的要求很高,他们只能选择参加小组会议。其中还有一人表示,他们要求以一对一的方式与心理咨询师会面的请求被 Sama 管理层多次拒绝。

  Sama 官网截图

  合同规定,OpenAI 将为该项目向 Sama 支付每小时 12.50 美元的报酬,这是该项目员工时薪的6~9 倍。

  《时代周刊》称,其查阅了数百页 Sama 和 OpenAI 的内部文件(包括工人工资单),并采访了 Sama 四名参与该项目的员工,惊人的内幕显示,Sama 为 OpenAI 雇佣的数据标签员工支付的时薪在 1.32 美元~2 美元之间(约 8.99 元~13.62 元),具体取决于资历和表现。

  据 Sama 员工透露,“代理商”是三个小组中最初级的数据标签人员,他们的基本工资为每月 2.1 万肯尼亚先令(约 170 美元或者约 1158 元)。此外,他们每月还能获得约 70 美元的奖金,如果达到准确性和速度等关键绩效指标,他们还可以获得佣金。

  按此计算,一名每天工作 9 小时的员工预计税后时薪至少能拿 1.32 美元,如果超额完成所有目标,则最高可达到 1.44 美元。质量分析师是资历更深的数据标签员工,他们的工作是检查“代理商”的工作,如果他们达到了所有绩效目标,时薪可以拿到 2 美元。

  公开资料显示,肯尼亚并没有统一的最低工资标准,但当这些外包员工受雇时,肯尼亚首都内罗毕的最低时薪是 1.52 美元。

  据《时代周刊》报道,Sama 的一名发言人在一份声明中称,公司对工人的要求是在 9 小时的工作中标注 70 段文字,而非 200 段。此外,工人们的税后时薪是 1.46 美元~3.74 美元,不过这位发言人拒绝透露哪类岗位会达到其所述时薪区间的上限。

  OpenAI 的一位发言人则在另一份声明中称,该公司没有发布任何的业绩目标,且外包员工的工资和心理健康由 Sama 的管理层负责。

  2022 年 2 月,Sama 开始为 OpenAI 的另一个项目进行试点工作,但工作内容根据美国的法律是非法的。尽管这项试点工作似乎与 ChatGPT 无关,但仅仅在几周之内,Sama 便叫停了与 OpenAI 的所有项目,比合同中约定的时间提前了 8 个月。

  Sama 当时在一份声明中称,其为 OpenAI 收集的图像协议中不包括任何涉及非法的内容,直到相关工作开始后,OpenAI 才发来“附加指示”,提到了“一些非法的类别”,随后肯尼亚团队的高管立即提出了担忧并结束了该项目。

  OpenAI 外包服务商 Sama 曾向多家硅谷大厂提供类似服务

  训练 ChatGPT 对 OpenAI 来说至关重要。

  ChatGPT 的前身 GPT-3 已经展示了非常强大的语句串联的能力。然而,当时的 GPT-3 却存在很多弊端,例如内容容易出现暴力、性别歧视等言论。之所以会出现这样的不足之处,是因为 AI 工具从互联网抓取了数千亿个单词来训练,这也是一把双刃剑——由于互联网的词汇有不少带有偏见及负面的词汇,因此单纯凭借学习能力无法来清除这些训练数据。

  《时代周刊》的报道显示,即使是一个由数百人组成的团体,也需要几十年的时间才能手动搜索庞大的数据库。OpenAI 只能通过建立一个额外的、AI 驱动的安全机制,才能控制上述弊端,创造出适合人们日常使用的聊天机器人。

  《时代周刊》报道截图

  据报道,为了建立这个安全系统,OpenAI 借鉴了 Facebook(现 Meta)等社交媒体公司的做法。此前,Facebook 已经证明其可以构建能够检测仇恨言论等的 AI 工具,并将这些内容从其平台上移除。这项工作也很简单:给 AI 提供标有暴力、仇恨语言等标签,AI 工具就可以学会检测这些内容。目前类似的工具已经内置到 ChatGPT 当中,以检测它是否与训练数据的内容相呼应,并在它触及到用户之前将不良内容过滤掉。

  《时代周刊》报道称,为了获得这些有害内容的标签,OpenAI 从 2021 年 11 月开始便向一家外包公司发送了数万条文本片段。其中大部分文字似乎都是从互联网“最黑暗的角落”挖掘出来的。

  据报道,OpenAI 发言人曾在一份声明中证实,Sama 在肯尼亚的员工为该公司正在开发的监测有害内容的工具作出了贡献,该工具最终被内置到 ChatGPT 中。

  除了 OpenAI,Sama 还为谷歌、Mate 和微软等硅谷科技巨头标注数据。此外,Sama 还标榜其是一家“有道德的人工智能公司”,并称其已经帮助 5 万多人脱贫。

  人工智能组织联盟 Partnership on AI 表示,“尽管这些丰富数据的专业人士发挥了基础作用,但越来越多的研究表明,这些工人都面临着不稳定的工作条件。这可能是庆祝技术效率提升的同时,试图掩盖人工智能对庞大劳动力依赖的结果。”