Journal de génie informatique et des technologies de l'information

Système de classification des courriers indésirables Random Forests

Khongbantabam Susila Devi

Le courrier électronique est un outil de communication rapide et rentable pour les utilisateurs. À l'inverse, le nombre d'utilisateurs de courrier électronique a entraîné une croissance intense des courriers indésirables au cours des dernières années. Ce problème de courriers indésirables est l'un des risques importants liés à Internet. Le nombre croissant de courriers indésirables rend les filtres anti-spam fiables importants. En général, les spammeurs envoient des courriers indésirables et non sollicités à divers destinataires et ces courriers indésirables ont pour la plupart des caractéristiques identiques. Il est donc essentiel de mettre en place un système de défense capable de détecter efficacement les courriers indésirables et de fournir un processus alternatif pour un filtre autonome. Ainsi, dans cet article, un nouveau cadre de classification des courriers électroniques en courriers indésirables et en courriers indésirables à l'aide de la classification des forêts aléatoires basée sur les attributs est proposé. Le processus commence par le calcul de la probabilité de spam bayésien pour chaque jeton, le schéma de pondération TF-IDF calcule le poids de chaque jeton et du courrier, le calcul du score est effectué en fonction de l'aptitude génétique et enfin le processus de classification est effectué à l'aide d'un classificateur de forêts aléatoires pour classer les e-mails en spam et en ham. Les résultats sont comparés aux méthodes de classification du spam existantes en termes de précision de classification, de précision pondérée et de mesure F1. Les résultats montrent que le système proposé présente des résultats prometteurs par rapport aux autres algorithmes existants.

Avertissement: Ce résumé a été traduit à l'aide d'outils d'intelligence artificielle et n'a pas encore été examiné ni vérifié