Une nouvelle méthodologie d’encodage de variable catégorielle en présence de bruit Cet événement est passé. 20 novembre @ 9 H 00 min - 10 H 30 min Les membres de la chaire Data Analytics & Models for Insurance vous invitent au prochain petit déjeuner thématique Accueil café à partir de 8h30 En apprentissage statistique, les variables catégorielles d’un tableau de données sont généralement considérées comme des objets qu’il faut encoder séparément pour les représenter en variables continues, par exemple, avec un codage de type 0/1. Les données “sales” non retraitées donnent lieu à des variables catégorielles avec une cardinalité très élevée et avec redondance: plusieurs sous-catégories reflètent en réalité la même catégorie. En pratique, ce problème est généralement résolu avec une étape de déduplication. Nous montrons qu’une approche simple peut traiter la redondance et apporter des gains significatifs. Nous étudions une généralisation de l’encodage 0/1, que nous appelons encodage par similarité, qui construit des vecteurs de caractéristiques à partir de similitudes entre les catégories. Nous effectuons une validation empirique approfondie sur des tableaux non retraités, un problème rarement étudié en apprentissage automatique. Les résultats sur sept jeux de données réels montrent que l’encodage par similarité apporte des gains significatifs en matière de prédiction par rapport aux méthodes de codage connues pour les variables catégorielles comme les chaînes, notamment l’encodage 0/1 et l’encodage à l’aide de n-grammes de caractères. Nous proposons des recommandations pratiques pour l’encodage de variables catégorielles “sales”: la similarité basées sur des tri-grammes semble être un bon choix pour capturer la ressemblance morphologique. Pour des variables avec une cardinalité très élevée, la réduction de dimension réduit de manière significative le coût de calcul avec une perte de performance minime: des projections aléatoires ou le choix d’un sous-ensemble de catégories de prototypes surpasse aussi les approches de codage classiques. Informations et inscriptions* ici *Inscription obligatoire Membres IA : points PPC Contact : Sophie CASTELBOU Coordinatrice sophie.castelbou@chaire-dami.fr Lieu BNP Paribas Cardif 14 Rue Bergère, Paris, 75009 France