不平衡数据的最新使用示例第3部分（机器学习2024）| 通过 Monodeep Mukherjee | 2024年4月

SEMRes-DDPM：基于残差网络的扩散建模应用于不平衡数据(arXiv)

作者： Ming Zheng, 杨洋, Zhi-Hang Zhao, Shan-Chao Gan, 杨晨, Si-Kai Ni, 杨露

摘要：在数据挖掘和机器学习领域，常用的分类模型无法在不平衡数据中有效学习。为了在模型训练之前平衡数据分布，常常采用过采样的方法来生成少量类的数据，以解决不平衡数据的分类问题。经典的过采样方法大多基于SMOTE技术，只关注数据的局部信息，因此生成的数据可能存在不够真实的问题。目前基于生成网络的过采样方法中，基于GAN的方法可以捕获数据的真实分布，但在训练中存在模式崩溃和训练不稳定的问题；基于去噪扩散概率模型的过采样方法中，使用U-Net进行逆扩散过程的神经网络不适用于表格数据，虽然可以使用MLP来替代U-Net，但存在问题是由于结构简单，降噪效果较差。噪声去除效果差的问题。为了克服上述问题，我们提出了一种新颖的过采样方法SEMRes-DDPM。在SEMRes-DDPM后向扩散过程中，采用了一种新的神经网络结构SEMST-ResNet，该结构适用于表格数据，具有良好的噪声去除效果，并且可以生成更高质量的表格数据。实验表明SEMResNet网络比MLP更好地去除噪声； SEMRes-DDPM 生成的数据分布比 TabDDPM 与 CWGAN-GP 更接近真实数据分布；在具有 9 个分类模型的 20 个真实不平衡表格数据集上，SEMRes-DDPM 在三个评估指标（F1、G-mean、AUC）方面提高了生成的表格数据的质量，具有比其他 SOTA 过采样方法更好的分类性能。

1713383491
#不平衡数据的最新使用示例第3部分机器学习2024 #通过 #Monodeep #Mukherjee #2024年4月
2024-04-17 19:42:46