系统似乎做出了适当的回应。 但是答案没有考虑门口的高度,这也可能会阻止坦克或汽车通过。
OpenAI 的首席执行官 Sam Altman 说,新的机器人可以推理“一点点”。 但它的推理能力在许多情况下都会崩溃。 以前版本的 ChatGPT 更好地处理了这个问题,因为它认识到高度和宽度很重要。
它可以通过标准化测试。
OpenAI 表示,新系统可以在 41 个州和地区的律师资格考试中获得前 10% 左右的学生分数。 根据该公司的测试,它还可以在 SAT 考试中获得 1,300 分(满分 1,600 分),在生物、微积分、宏观经济学、心理学、统计学和历史等高级先修高中考试中获得 5 分(满分 5 分)。
该技术的早期版本未能通过统一律师资格考试,并且在大多数大学先修考试中的得分也没有那么高。
在最近的一个下午,为了展示其测试技能,布罗克曼先生向新机器人提供了一段关于一位经营柴油卡车维修业务的人的段落长的律师考试问题。
答案是正确的,但充满了法律术语。 因此,布罗克曼先生要求机器人用通俗易懂的英语向外行解释答案。 它也这样做了。
不擅长讨论未来。
尽管新机器人似乎可以对已经发生的事情进行推理,但当被要求对未来做出假设时,它就不那么熟练了。 它似乎借鉴了其他人所说的话,而不是创造新的猜测。
当 Etzioni 博士向新机器人提问时,“未来十年 NLP 研究中需要解决的重要问题是什么?” – 指的是推动 ChatGPT 等系统发展的“自然语言处理”研究 – 它无法提出全新的想法。
它仍然是幻觉。
新的机器人仍在编造东西。 这个问题被称为“幻觉”,困扰着所有领先的聊天机器人。 因为系统不了解什么是真什么不是,它们可能会生成完全错误的文本。
当被要求提供描述最新癌症研究的网站地址时,它有时会生成不存在的互联网地址。