Défense de mémoire de Monsieur Rodrigue Yando Djamen

Efficient Sampling for ML

Catégorie : mémoire
Date : 18/06/2025 17:30 - 18/06/2025 19:00
Lieu : Salle académique
Orateur(s) : Rodrigue Yando Djamen
Organisateur(s) : Benjamine Lurquin

Alors que les données deviennent un facteur clé dans les systèmes numériques, leur traitement à grande échelle soulève des défis partagés par plusieurs disciplines. En génie logiciel, les systèmes deviennent de plus en plus complexes et doivent pouvoir s’adapter aux besoins des utilisateurs. Cette variabilité fonctionnelle conduit à la génération d’un nombre potentiellement exponentiel de variants logicielles, rendant leur gestion ou leur test exhaustif difficilement envisageable. En machine learning (ML), les modèles dépendent directement des données sur lesquelles ils sont entraînés. Or, lorsque les ensembles de données deviennent massifs, le coût computationnel associé à leur traitement complet augmente considérablement. Cela peut affecter la rapidité d’entraînement, la consommation de ressources et la maintenabilité des pipelines de traitement. Dans ces deux contextes se pose alors la même problématique centrale : comment réduire la taille des données à traiter tout en conservant leur pertinence ? C’est là qu’interviennent les techniques d’échantillonnage, qui visent à sélectionner un sous-ensemble représentatif du jeu initial. L’objectif est de préserver l’essentiel de l’information nécessaire à la tâche visée (prédiction, test, validation), tout en limitant les coûts liés à la manipulation de données trop volumineuses.

Ce mémoire explore la possibilité de transférer certaines techniques d’échantillonnage développées dans le contexte des SPL vers des tâches d’apprentissage supervisé en ML. L’objectif est d’évaluer si ces approches conçues à l’origine pour maximiser la couverture des interactions dans les configurations logicielles peuvent également produire des échantillons de données d’apprentissage efficaces et économes.

Pour cela, plusieurs méthodes issues des Software Product Lines (SPL) (pairwise sampling, distance-based sampling) ont été comparées à des techniques classiques du ML (random sampling, GMM) sur des jeux de données tabulaires standards. Un protocole expérimental a été mis en place, avec optimisation des hyperparamètres des modèles (Random Forest, SVM, MLP, etc.), évaluation répétée pour limiter les biais aléatoires, et mesure des performances via l’accuracy et le temps de génération des échantillons.

Les résultats montrent que certaines méthodes simples, comme le random uniforme par classe (RandomP), permettent de réduire efficacement la taille des données tout en maintenant des performances proches de l’apprentissage sans échantillonnage (None). À l'inverse, des techniques plus complexes comme les modèles de mixtures de gaussiennes (GMM) qui visent à d'abord modéliser les données sont plus coûteuses et semblent plus instables.

Les techniques issues des SPL, comme Pairwise et DBS, apportent de la diversité mais restent limitées par des contraintes techniques (discrétisation, scalabilité) dans les contextes tabulaires.

Ces observations ouvrent la voie à des travaux futurs sur l’adaptation des méthodes SPL au ML, l’amélioration des outils de discrétisation et le développement d’approches hybrides plus automatisables.

Mots-clés : Échantillonnage, ML, SPL

Contact : Benjamine Lurquin - secretariat.info@unamur.be
Télecharger : vCal

Sections

Défense de mémoire de Monsieur Rodrigue Yando Djamen