ChatGPT 不是种族主义者。 但在招聘方面却很糟糕。

注:在发表本文之前,我们已联系彭博社,要求他们分享数据并澄清他们的发现。 如果事实证明他们使用了不同的方法进行统计显着性测试,或者如果我们遗漏了某些内容,我们将很乐意撤回这篇文章中有关他们结果的部分。 近日,彭博社发表了一篇文章,名为《OpenAI 的 GPT 是招聘人员的梦想工具。 测试显示存在种族偏见”。 在这篇文章中,彭博团队进行了一项巧妙的测试,他们让 ChatGPT 审查几乎相同的简历,只是将姓名更改为包括典型的黑人、白人、亚洲人和西班牙裔姓名。 他们的分析揭示了种族偏见。 彭博社已在 GitHub 上发布了他们的数据,因此我们能够检查他们的工作。 当我们重新计算这些数字时,我们发现他们没有进行统计显着性检验,而且事实上不存在种族偏见。 然而,当我们进行自己的测试时,我们发现ChatGPT在判断简历方面确实很糟糕。 这并不坏,因为它是种族主义的。 这很糟糕,因为它容易产生不同类型的偏见,与人类招聘人员相同的偏见——过度索引候选人的出身:他们是否曾在顶级公司工作过和/或是否上过顶级学校。 出身可以在一定程度上具有预测性(尤其是在人们工作的地方),但 ChatGPT 明显高估了其重要性,从而对来自非传统背景的候选人造成了伤害。 彭博社研究 以下是彭博团队所做的(逐字摘自他们的文章): 我们使用人口统计上不同的名字作为种族和性别的代表,这是审核算法的常见做法……我们总共生成了 800 个人口统计上不同的名字:男性和女性各 100 个名字,他们要么是黑人、白人、西班牙裔或亚洲人…… 为了测试基于姓名的歧视,彭博社促使 OpenAI 的 GPT-3.5 和 GPT-4 对财富 500 强公司的四个不同职位的真实工作描述的简历进行排名:人力资源专家、软件工程师、零售经理和财务分析师。 对于每个职位,我们使用 GPT-4 生成了八份几乎相同的简历。 简历经过编辑,具有相同的教育背景、多年的经验和最后的职位。 我们删除了受教育年限以及任何目标或个人陈述。 然后,我们为八个人口群体中的每一个群体随机分配了一个不同的名称 [Black, White, Hispanic, Asian, and men and women for each] 到每一份简历。 接下来,我们打乱了简历的顺序,以考虑顺序效应,并要求 […]