Priya Mansi
Aujourd'hui, les algorithmes sont comme des mots à la mode. Tout le monde cherche à apprendre différents types d'algorithmes - régression logistique, forêts aléatoires, arbres de décision, SVM, algorithmes de boosting de gradient, réseaux neuronaux, etc. Chaque jour, de nouveaux algorithmes sont créés. Mais la science des données ne consiste pas seulement à appliquer différents algorithmes aux données. Avant d'appliquer un algorithme, vous devez comprendre vos données, car cela vous aidera à améliorer les performances de vos algorithmes plus tard. Pour tout problème, il faut itérer sur les mêmes étapes - préparation des données, planification du modèle, construction du modèle et évaluation du modèle, pour améliorer la précision. Si nous passons directement à la construction du modèle, nous nous retrouvons sans direction après une itération. Voici quelques étapes définies par moi pour aborder tout problème d'apprentissage automatique : La première étape que je suggère est de bien comprendre votre problème avec une bonne compréhension du marché des affaires. Il n'y a pas de scénario du genre : voici les données, voici l'algorithme et Bam ! Une bonne compréhension de l'entreprise vous aidera à gérer les données dans les étapes à venir. Par exemple, si vous n'avez aucune idée du système bancaire, vous ne comprendrez pas si une fonctionnalité comme le revenu du client doit être incluse ou non. L'étape suivante consiste à collecter des données pertinentes pour votre problème. Outre les données dont vous disposez en interne dans votre entreprise, vous devez également ajouter une source de données externe. Par exemple, pour la prévision des ventes, vous devez comprendre le scénario de marché pour les ventes de votre produit. Le PIB peut affecter vos ventes ou la population peut l'affecter. Collectez donc ce type de données externes. N'oubliez pas non plus que toutes les données externes que vous utilisez doivent être disponibles à l'avenir lorsque votre modèle sera déployé. Par exemple, si vous utilisez la population dans votre modèle, vous devriez également pouvoir collecter ces données l'année prochaine pour obtenir des prévisions pour l'année suivante. J'ai vu de nombreuses personnes qui n'utilisent que leurs données internes sans se rendre compte de l'importance des données externes pour leur ensemble de données. Mais en réalité, les fonctionnalités externes ont un bon impact sur notre cas d'utilisation. Maintenant que vous avez collecté toutes les données pertinentes pour votre problème, vous devez les diviser pour la formation et les tests. De nombreux data scientists suivent la règle 70/30 pour diviser les données en deux parties : ensemble d'entraînement et ensemble de test. Alors que beaucoup suivent la règle 60/20/20 pour diviser les données en trois parties : ensemble d'entraînement, ensemble de test et ensemble de validation. Je préfère la deuxième option car dans ce cas, vous utilisez l'ensemble de test pour améliorer votre modèle et l'ensemble de validation pour la vérification finale de votre modèle dans un scénario réel. avec ça. Je travaillais sur un problème de prédiction de prêt par défaut. Ma précision était de 78 %. J'ai présenté mon problème à la personne qui s'occupait des systèmes financiers liés aux prêts.