吴凯、张凯、范伟、高建和 Edwards A
一种有效的不平衡数据流分类框架
在现实环境中,对具有倾斜分布的数据流进行分类有许多应用;然而,只有少数方法解决了数据流分类和不平衡数据学习的共同问题。在本文中,我们提出了一种新颖的重要性采样驱动的动态特征组加权框架(DFGW-IS)来解决这一问题。我们的方法解决了概念漂移、不平衡流数据的内在特性。具体而言,不断发展的概念由在一系列特征组上训练的集成来处理,每个子分类器(即单个分类器或集成)都根据其判别能力和稳定水平加权。另一方面,不均匀的类别分布由基于特定特征组构建的子分类器来解决,其底层分布通过重要性采样技术重新平衡。我们对所提算法的泛化误差界限进行了理论分析。在多个倾斜数据流上进行的大量实验表明,所提出的算法不仅在标准评估指标上优于竞争方法,而且还能很好地适应不同的学习场景。