Abhya Tripathi
Le résumé de document est une tâche très difficile dans l'exploration de texte. Résumer un document volumineux en phrases courtes et concises qui est un sous-groupe du texte initial est appelé résumé extractif. Il existe diverses applications du résumé de texte, mais ici, les articles de CNN News sont résumés en ses phrases clés. Dans ce projet, l'algorithme de modélisation de sujets, l'allocation de Dirichlet latente, est utilisé pour générer un résumé de texte extractif. Il est utilisé pour capturer les sujets importants du texte et plus tard, en utilisant le mécanisme de pondération de distribution, les phrases sont extraites du texte. Le modèle fonctionne bien sur les données et récupère le résumé de l'article d'actualité. Cela permet de gagner du temps pour lire de longs textes ou documents. Le résumé de document est un moyen de dériver des données significatives et pertinentes du document et de créer une information complète et significative. Dans ce projet, un résumé extractif de documents volumineux est effectué en utilisant des documents segmentés en liste de phrases et appliqué à l'algorithme d'allocation de Dirichlet latente (LDA) pour extraire les sujets principaux. Ensuite, en utilisant la fréquence des mots de ces sujets dans les phrases, les phrases clés sont extraites ayant la plus grande distribution pour résumer le texte. Le rapport est structuré ci-dessous dans les sections suivantes. La revue de la littérature dans la section II qui discute du travail de divers auteurs sur le résumé de documents et LDA. La section III spécifie la méthodologie réelle mise en œuvre à l'aide du modèle LDA et comprend le traitement des données. Les résultats empiriques de la modélisation de texte et du résumé de documents sont discutés dans le segment IV. Enfin, la section V confère la conclusion et la portée future. Résumer ces informations est d'une grande importance et d'une nécessité. Le résumé de documents est devenu une recherche importante dans les domaines du traitement du langage naturel (NLP) et du Big Data. Le résumé extractif utilisant l'algorithme LDA de modélisation de sujets génère avec succès un résumé des phrases importantes du document d'origine. Il offre également un bon niveau de diversité de sujets. Plus tard, nous voudrons peut-être étudier progressivement les travaux ciblés et améliorer davantage la génération de résumés et utiliser diverses techniques de modélisation de sujets. De même, nous avons l'intention d'évaluer notre façon de traiter différents dialectes. Il existe une possibilité future de générer des résumés abstraits qui ressemblent davantage à des résumés humains et qui nécessiteront des outils d'apprentissage automatique lourds pour la génération de langage sémantique.