Dataset balancing can hurt model performance
R. Channing Moore, Daniel P. W. Ellis, Eduardo Fonseca, Shawn Hershey, Aren Jansen, Manoj Plakal
[Google Research]
数据集均衡化可能会影响模型性能
-
动机:在机器学习中,如果训练数据的类别分布不均,可能会导致模型偏向于常见类别的性能,而忽视了稀有类别的性能。因此,许多研究者使用数据集平衡技术来改善模型的性能。然而,本文发现,虽然平衡可以提高公开的 AudioSet 评估数据的性能,但同时也会损害在相同条件下收集的未公开评估集的性能。 -
方法:通过改变平衡的程度,展示了其优势的脆弱性以及对评估集的依赖性。同时,没有发现证据表明平衡可以改善稀有类别相对于常见类别的性能。 -
优势:本文的研究结果提醒了我们,不能盲目地应用平衡技术,也不能过分关注公开评估集上的小幅度改进。这对于机器学习模型的训练和评估具有重要的参考价值。
通过实验发现,数据集平衡技术并不总是能提高模型性能,其效果可能与评估集的类别先验分布有关,因此不能盲目地应用平衡技术。
https://arxiv.org/abs/2307.00079
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...