Wu K, Zhang K, Fan W, Gao J et Edwards A
Un cadre efficace pour la classification des flux de données déséquilibrés
La classification des flux de données avec une distribution asymétrique trouve de nombreuses applications dans des environnements réalistes ; cependant, seules quelques méthodes abordent ce problème conjoint de classification des flux de données et d'apprentissage de données déséquilibrées . Dans cet article, nous proposons un nouveau cadre de pondération dynamique des groupes de caractéristiques basé sur l'échantillonnage d'importance (DFGW-IS) pour résoudre ce problème. Notre approche aborde les caractéristiques intrinsèques des données en continu déséquilibrées et à dérive conceptuelle. Plus précisément, le concept en constante évolution est traité par un ensemble formé sur un ensemble de groupes de caractéristiques, chaque sous-classificateur (c'est-à-dire un classificateur unique ou un ensemble) étant pondéré par son pouvoir discriminant et son niveau stable. La distribution de classe inégale, en revanche, est combattue par le sous-classificateur construit dans un groupe de caractéristiques spécifique avec la distribution sous-jacente rééquilibrée par la technique d'échantillonnage d'importance. Nous fournissons l'analyse théorique sur la limite d'erreur de généralisation de l'algorithme proposé. Des expériences approfondies sur plusieurs flux de données asymétriques démontrent que l' algorithme proposé surpasse non seulement les méthodes concurrentes sur les métriques d'évaluation standard, mais s'adapte également bien dans différents scénarios d'apprentissage.