引入的红队方法将弥补安全漏洞

Anthropic 引入的红队方法将弥补安全漏洞

事实证明，人工智能红队能够有效发现其他安全方法无法发现的安全漏洞，从而避免人工智能公司的模型被用于制作令人反感的内容。人择发布了 AI 红队指南上周，加入了包括谷歌，微软，美国国家标准与技术研究院，英伟达和开放人工智能，他们也发布了类似的框架。目标是识别并弥补人工智能模型的安全漏洞所有宣布的框架都有一个共同的目标，即识别和弥补人工智能模型中日益扩大的安全漏洞。正是这些日益扩大的安全漏洞让立法者和政策制定者感到担忧，并推动更加安全、可靠和值得信赖的人工智能。拜登总统于 2018 年 10 月 30 日发布的《安全、可靠和值得信赖的人工智能 (14110)》行政命令 (EO) 称，NIST“将制定适当的指导方针（用作国家安全系统组成部分的人工智能除外），包括适当的程序和流程，以使人工智能开发人员，尤其是双重用途基础模型的开发人员能够进行人工智能红队测试，从而部署安全、可靠和值得信赖的系统。” NIST 于 4 月下旬发布了两份草案出版物，以帮助管理生成式 AI 的风险。它们是 NIST 的 AI 风险管理框架的配套资源（我有RFM) 和安全软件开发框架 (SSDF）。德国联邦信息安全局（英国标准协会) 在其更广泛的 IT 基本防御框架中提供了红队演练。澳大利亚、加拿大、欧盟、日本、荷兰和新加坡都已建立了值得注意的框架。欧洲议会通过了欧盟人工智能法案今年三月。红队 AI 模型依赖于随机技术的迭代红队测试是一种交互式测试 AI 模型的技术，用于模拟各种不可预测的攻击，目的是确定其强项和弱点。生成式 AI (genAI) 模型极难测试，因为它们会大规模模仿人类生成的内容。目标是让模型做和说它们没有被编程要做的事情，包括暴露偏见。他们依靠 LLM […]

Tag: 引入的红队方法将弥补安全漏洞

Anthropic 引入的红队方法将弥补安全漏洞

信息