使用生成式人工智能改进软件测试 | 麻省理工学院新闻

生成式人工智能因其创建文本和图像的能力而受到广泛关注。 但这些媒体仅代表当今社会激增的数据的一小部分。 每当患者使用医疗系统、风暴影响航班或人与软件应用程序交互时,都会生成数据。

使用生成式人工智能围绕这些场景创建真实的合成数据可以帮助组织更有效地治疗患者、重新安排飞机航线或改进软件平台,尤其是在现实世界数据有限或敏感的场景中。

在过去的三年里,麻省理工学院的衍生公司 DataCebo 提供了一个名为 Synthetic Data Vault 的生成软件系统,帮助组织创建合成数据来执行测试软件应用程序和训练机器学习模型等任务。

综合数据库 (SDV) 的下载量已超过 100 万次,超过 10,000 名数据科学家使用该开源库来生成综合表格数据。 创始人 – 首席研究科学家 Kalyan Veeramachaneni 和校友 Neha Patki ’15、SM ’16 – 相信公司的成功归功于 SDV 彻底改变软件测试的能力。

SDV 病毒式传播

2016 年,数据到人工智能实验室的 Veeramachaneni 团队推出了一套开源生成式人工智能工具,帮助组织创建与真实数据的统计属性相匹配的合成数据。

公司可以在程序中使用合成数据而不是敏感信息,同时仍然保留数据点之间的统计关系。 公司还可以使用合成数据通过模拟运行新软件,以了解其性能,然后再向公众发布。

Veeramachaneni 的团队遇到了这个问题,因为他们正在与想要共享其研究数据的公司合作。

“麻省理工学院可以帮助您了解所有这些不同的用例,”帕特基解释道。 “你与金融公司和医疗保健公司合作,所有这些项目都有助于制定跨行业的解决方案。”

2020 年,研究人员创立了 DataCebo,为大型组织构建更多 SDV 功能。 从那时起,用例就变得多种多样,令人印象深刻。

例如,借助 DataCebo 的新型飞行模拟器,航空公司可以以仅使用历史数据无法实现的方式制定罕见天气事件计划。 在另一个应用程序中,SDV 用户合成医疗记录来预测囊性纤维化患者的健康结果。 来自挪威的一个团队最近使用 SDV 创建综合学生数据,以评估各种招生政策是否精英且没有偏见。

2021 年,数据科学平台 Kaggle 举办了一场数据科学家竞赛,他们使用 SDV 创建合成数据集,以避免使用专有数据。 大约 30,000 名数据科学家参与其中,根据公司的实际数据构建解决方案并预测结果。

随着 DataCebo 的发展,它始终忠于麻省理工学院的根源:该公司目前的所有员工都是麻省理工学院的校友。

增压软件测试

尽管他们的开源工具被用于各种用例,但该公司仍致力于提高其在软件测试方面的吸引力。

“你需要数据来测试这些软件应用程序,”Veeramachaneni 说。 “传统上,开发人员手动编写脚本来创建合成数据。 通过使用 SDV 创建的生成模型,您可以从收集的数据样本中学习,然后对大量合成数据(与真实数据具有相同的属性)进行采样,或者创建特定场景和边缘情况,并使用数据来测试您的应用程序。”

例如,如果银行想要测试一个旨在拒绝无钱账户转账的程序,则必须模拟许多账户同时进行交易。 使用手动创建的数据来执行此操作将花费大量时间。 借助 DataCebo 的生成模型,客户可以创建他们想要测试的任何边缘案例。

“对于行业来说,拥有某些方面敏感的数据是很常见的,”Patki 说。 “通常,当您处于包含敏感数据的域时,您需要处理法规,并且 即使没有法律规定,认真考虑谁在何时可以访问什么内容也符合公司的最大利益。 因此,从隐私角度来看,合成数据总是更好。”

扩展合成数据

Veeramachaneni 相信 DataCebo 正在推进所谓的合成企业数据领域,即根据大公司软件应用程序上的用户行为生成的数据。

“此类企业数据很复杂,并且与语言数据不同,它不具有普遍可用性,”Veeramachaneni 说。 “当人们使用我们的公开软件并报告是否适用于某种模式时,我们学到了很多这些独特的模式,这使我们能够改进我们的算法。 从一个角度来看,我们正在构建这些复杂模式的语料库,对于语言和图像来说,该语料库很容易获得。 “

DataCebo 最近还发布了提高 SDV 实用性的功能,包括评估生成数据的“真实性”的工具,称为 SDMetrics 库 以及一种比较模型性能的方法,称为 SD健身房

“这是为了确保组织信任这些新数据,”Veeramachaneni 说。 “[Our tools offer] 可编程合成数据,这意味着我们允许企业插入他们的具体洞察力和直觉来构建更透明的模型。”

随着各行业的公司纷纷采用人工智能和其他数据科学工具,DataCebo 最终将帮助他们以更加透明和负责任的方式实现这一目标。

“未来几年,生成模型的合成数据将改变所有数据工作,”Veeramachaneni 说。 “我们相信 90% 的企业运营可以通过合成数据来完成。”

1709669123
#使用生成式人工智能改进软件测试 #麻省理工学院新闻
2024-03-05 05:00:00

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​