Anthropic 引入的红队方法将弥补安全漏洞

事实证明,人工智能红队能够有效发现其他安全方法无法发现的安全漏洞,从而避免人工智能公司的模型被用于制作令人反感的内容。 人择 发布了 AI 红队指南 上周,加入了包括 谷歌, 微软, 美国国家标准与技术研究院, 英伟达 和 开放人工智能,他们也发布了类似的框架。 目标是识别并弥补人工智能模型的安全漏洞 所有宣布的框架都有一个共同的目标,即识别和弥补人工智能模型中日益扩大的安全漏洞。 正是这些日益扩大的安全漏洞让立法者和政策制定者感到担忧,并推动更加安全、可靠和值得信赖的人工智能。拜登总统于 2018 年 10 月 30 日发布的《安全、可靠和值得信赖的人工智能 (14110)》行政命令 (EO) 称,NIST“将制定适当的指导方针(用作国家安全系统组成部分的人工智能除外),包括适当的程序和流程,以使人工智能开发人员,尤其是双重用途基础模型的开发人员能够进行人工智能红队测试,从而部署安全、可靠和值得信赖的系统。” NIST 于 4 月下旬发布了两份草案出版物,以帮助管理生成式 AI 的风险。它们是 NIST 的 AI 风险管理框架的配套资源(我有RFM) 和安全软件开发框架 (SSDF)。 德国联邦信息安全局(英国标准协会) 在其更广泛的 IT 基本防御框架中提供了红队演练。澳大利亚、加拿大、欧盟、日本、荷兰和新加坡都已建立了值得注意的框架。 欧洲议会 通过了 欧盟人工智能法案 今年三月。 红队 AI 模型依赖于随机技术的迭代 红队测试是一种交互式测试 AI 模型的技术,用于模拟各种不可预测的攻击,目的是确定其强项和弱点。生成式 AI (genAI) 模型极难测试,因为它们会大规模模仿人类生成的内容。 目标是让模型做和说它们没有被编程要做的事情,包括暴露偏见。他们依靠 LLM […]