Modèles et traitements mathématiques des données en très grande dimension

Projet scientifique

Dans le cadre de la mesure d’audience (internet, télévision, …), Médiamétrie collecte et traite des volumétries importantes de données de nature hétérogène. Le volume et la diversité de ces données nécessitent de repenser certains fondamentaux de la statistique tout en proposant de nouvelles idées. Cette évolution est rendue possible par l’avènement de nouvelles technologies informatiques de stockage et de calcul, comme par exemple les architectures MapReduce et Hadoop.

Face aux mégadonnées, les outils mathématiques utilisés relèvent de plusieurs disciplines comme la statistique, l’apprentissage automatique ou l’optimisation. Par ailleurs, ces mégadonnées peuvent provenir de contextes variés : web, téléphone mobile, box ADSL ou autres… Même si les idées et les méthodes sous-jacentes sont souvent similaires, chaque type de données nécessite des algorithmes spécifiques. L’accès plus répandu à ce type de données a permis l’essor des algorithmes de deep learning et pourrait accélérer le développement de nouvelles méthodes.

Dans ce contexte, Médiamétrie souhaite renforcer la R&D sur ces thématiques par des partenariats avec le monde académique.

Les recherches s’orienteront autour de 3 thèmes :

Rapprochement/fusion de bases de données
Enrichissement réciproque de données mixtes et hétérogènes (échantillons vs données exhaustives)
Les évolutions du Machine Learning : quelles innovations ?