Hugging Face · Daily Papers

Non-IID 数据的 Federated Learning 中使用 Multi-Task Autoencoders 进行样本选择

Sample Selection Using Multi-Task Autoencoders in Federated Learning with Non-IID Data

Emre Ardıç, Yakup Genç

二〇二六年四月三十日 · arXiv:2604.26116 · PDF

摘要

Federated learning 是一种机器学习范式，多个设备在中央服务器的监督下协同训练模型，同时确保数据隐私。然而，其性能常受到冗余样本、恶意样本或异常样本的影响，导致模型退化和效率下降。为解决这些问题，我们提出了用于图像分类的新型样本选择方法，采用 multitask autoencoder 通过 loss 和 feature 分析来估计样本贡献。我们的方法引入了 unsupervised outlier detection，由中央服务器管理 one-class support vector machine（OCSVM）、isolation forest（IF）和 adaptive loss threshold（AT）方法，以过滤客户端上的噪声样本。我们还提出了一种由中央服务器控制的 multi-class deep support vector data description（SVDD）loss，以增强基于 feature 的样本选择。

我们在 CIFAR10 和 MNIST 数据集上验证了这些方法，实验涵盖不同数量的客户端、non-IID 分布以及最高 40% 的噪声水平。结果表明，基于 loss 的样本选择显著提升了准确率：在 CIFAR10 上使用 OCSVM 最高提升 7.02%，在 MNIST 上使用 AT 最高提升 1.83%。此外，我们的 federated SVDD loss 进一步改善了基于 feature 的样本选择，在 CIFAR10 上结合 OCSVM 时最高带来 0.99% 的准确率提升。这些结果表明，我们的方法能够在不同客户端数量和噪声条件下有效提升模型准确率。