Défense de mémoire de Messieurs Diego Alarcon Guzman et Donato Gentile
Evaluation et amélioration de LLMs locaux pour la génération d'exploits dans le domaine de la cybersécurité
Date : 19/06/2025 09:00 - 19/06/2025 10:30
Lieu : Salle Dijkstra
Orateur(s) : Dioego Alarcon Guzman et Donato Gentile
Organisateur(s) : Benjamine Lurquin
La cybersécurité est en pleine évolution depuis quelques années grâce à l’émer- gence des Larges Language Models (LLMs). Ces nouveaux outils, qui sont capables de générer du texte ainsi que du code à la demande, questionnent le monde technolo- gique. Ces nouveaux outils permettent également de déceler des failles informatiques. Notre travail questionnera la pertinence d’utiliser un assistant en cybersécurité em- ployant des modèles de langage locaux.
Pour répondre à cette problématique, nous avons constitué un corpus de 165 exercices classés par niveau de difficulté de la faille (de 1 à 4), que nous avons soumis à cinq LLMs locaux différents, certains spécialisés dans le code ou la cybersécurité. Une évaluation manuelle des résultats a été réalisée pour juger de la pertinence générale de la réponse.
Nos résultats montrent qu’un modèle spécialisé en cybersécurité atteint des scores notables en zero-shot prompting, notamment sur les failles classiques (buffer over- flow, injection SQL), tandis que d’autres peinent à examiner efficacement à la ques- tion posée. Un système RAG avec plus de TTC et accès web a également été testé pour renforcer les connaissances d’un modèle sélectionné sur la base des résultats préliminaires obtenus en zero-shot prompting. L’ajout d’un RAG améliore de ma- nière significative la performance globale du modèle, bien que ces apports restent irréguliers.
Ces résultats soulignent le potentiel, mais aussi les limites actuelles des LLMs dans des scénarios aussi bien offensifs que défensifs. Des perspectives d’amélioration incluent l’affinage des prompts, le RAG sur des jeux de données spécialisés, ou l’intégration de plusieurs itérations pour optimiser la cohérence par rapport à la question de base.
Mots-clés : Cybersécurité, Large Language Models, Retrieval Augmented Genera- tion, Intelligence Artificielle, Benchmark, Évaluation
Contact :
Benjamine Lurquin
-
secretariat.info@unamur.be
Télecharger :
vCal