不平衡数据的最新使用示例第3部分(机器学习2024)| 通过 Monodeep Mukherjee | 2024年4月

  1. SEMRes-DDPM:基于残差网络的扩散建模应用于不平衡数据(arXiv)

作者 : Ming Zheng, 杨洋, Zhi-Hang Zhao, Shan-Chao Gan, 杨晨, Si-Kai Ni, 杨露

摘要:在数据挖掘和机器学习领域,常用的分类模型无法在不平衡数据中有效学习。 为了在模型训练之前平衡数据分布,常常采用过采样的方法来生成少量类的数据,以解决不平衡数据的分类问题。 经典的过采样方法大多基于SMOTE技术,只关注数据的局部信息,因此生成的数据可能存在不够真实的问题。 目前基于生成网络的过采样方法中,基于GAN的方法可以捕获数据的真实分布,但在训练中存在模式崩溃和训练不稳定的问题; 基于去噪扩散概率模型的过采样方法中,使用U-Net进行逆扩散过程的神经网络不适用于表格数据,虽然可以使用MLP来替代U-Net,但存在问题是由于结构简单,降噪效果较差。 噪声去除效果差的问题。 为了克服上述问题,我们提出了一种新颖的过采样方法SEMRes-DDPM。在SEMRes-DDPM后向扩散过程中,采用了一种新的神经网络结构SEMST-ResNet,该结构适用于表格数据,具有良好的噪声去除效果,并且可以生成更高质量的表格数据。 实验表明SEMResNet网络比MLP更好地去除噪声; SEMRes-DDPM 生成的数据分布比 TabDDPM 与 CWGAN-GP 更接近真实数据分布; 在具有 9 个分类模型的 20 个真实不平衡表格数据集上,SEMRes-DDPM 在三个评估指标(F1、G-mean、AUC)方面提高了生成的表格数据的质量,具有比其他 SOTA 过采样方法更好的分类性能。

1713383491
#不平衡数据的最新使用示例第3部分机器学习2024 #通过 #Monodeep #Mukherjee #2024年4月
2024-04-17 19:42:46

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​