利用 ML Firepower 扑灭 AI 火灾

加州大学圣地亚哥分校计算机科学博士毕业生孔志峰是该故事的第一作者。

“现代深度生成模型经常产生不良输出,例如冒犯性文本、恶意图像或捏造的言论,并且没有可靠的方法来控制它们。 这篇论文是关于如何从技术上防止这种情况发生。”计算机科学与工程系博士毕业生、论文第一作者孔志峰说。

计算机科学教授 Kamalika Chaudhuri 说:“这项工作的主要贡献是正式确定如何思考这个问题以及如何正确地构建它以便解决它。”

消除有害内容的新方法

传统的缓解方法采用两种方法之一。 第一种方法是使用排除所有不需要的样本的训练集从头开始重新训练模型; 另一种方法是应用分类器来过滤不需要的输出或在内容生成后编辑输出。

这些解决方案对于大多数现代大型模型都有一定的局限性。 除了成本高昂(需要数百万美元从头开始重新训练行业规模模型)之外,这些缓解方法的计算量很大,而且无法控制第三方在获得源代码后是否会实施可用的过滤器或编辑工具。 此外,它们甚至可能无法解决问题:有时,即使训练数据中不存在,也会出现不需要的输出,例如带有伪影的图像。

1714683452
2024-05-02 20:42:58
#利用 #Firepower #扑灭 #火灾

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​