在一项新研究中，GPT-4 在临床推理方面优于医生，但也更容易出错

在一个新的学习贝斯以色列女执事医疗中心 (BIDMC) 的科学家将大型语言模型的临床推理能力与人类医生同行进行了比较。研究人员使用了修订后的 IDEA (r-IDEA) 评分，这是常用的评分标准工具评估临床推理。

该研究需要为 GPT-4 支持的聊天机器人、21 名主治医生和 18 名住院医生提供 20 个临床病例，以建立诊断推理并完成工作。然后使用 r-IDEA 评分对所有三组答案进行评估。调查人员发现，聊天机器人实际上获得了最高的 r-IDEA 分数，这实际上证明在诊断推理方面相当令人印象深刻。然而，作者还指出，聊天机器人更频繁地“完全错误”。

该研究的主要作者 Stephanie Cabral 医学博士解释说：“需要进一步的研究来确定法学硕士如何最好地融入临床实践，但即使是现在，它们也可以作为一个有用的检查点，帮助我们确保我们不这样做”不要错过什么。” 总之，结果表明聊天机器人的推理是合理的，但也存在重大错误；这进一步证实了这样的观点：这些人工智能驱动的系统最适合（至少在目前的成熟度水平）作为增强医生实践的工具，而不是取代医生的诊断能力。

加利福尼亚州旧金山 – 11 月 6 日：OpenAI 首席执行官 Sam Altman 在 OpenAI DevDay 活动中发表讲话…… [+] 2023 年 11 月 6 日在加利福尼亚州旧金山举行。 Altman 在首届 Open AI DevDay 会议上发表主题演讲。（贾斯汀·沙利文 / 盖蒂图片社摄）

盖蒂图片社

正如医生领导者和技术专家经常解释的那样，这是因为医学实践并不纯粹基于规则的算法输出，而是基于深刻的推理意识和临床直觉，这是法学硕士难以复制的。尽管如此，此类可以提供诊断或临床支持的工具仍然可以成为医生工作流程中极其强大的资产。例如，如果系统可以根据患者病史或现有记录等可用数据合理地提供“首次通过”或初步诊断建议，则可以让医生在诊断过程中节省大量时间。此外，如果这些工具可以增强医生的工作流程并改进他们处理来自医疗记录的大量临床信息的方法，则可能有机会提高效率。

许多组织正在利用这些潜在的临床增强手段。例如，人工智能驱动的划线技术正在利用自然语言处理来帮助医生更有效地完成临床文档。企业搜索工具正在组织内部以及与 EMR 系统集成，以帮助医生搜索大量数据，促进数据互操作性，并更快、更深入地收集现有患者数据的见解。其他系统甚至可以帮助提供初步诊断；例如，放射学和皮肤病学领域正在出现一些工具，这些工具能够通过分析上传的照片来提出潜在的诊断建议。

尽管如此，这个领域仍然有很多工作需要做。简而言之，尽管此类人工智能系统尚未准备好用于临床诊断，但仍有机会利用该技术来增强临床工作流程，特别是在让人类参与其中以确保安全、可靠和准确的流程的同时。

1712030778
2024-04-02 02:06:35
#在一项新研究中GPT4 #在临床推理方面优于医生但也更容易出错