Compression Personnalisée de la Parole par Apprentissage de Représentations à l’aide d’Auto-Encodeurs Variationnels à Quantification Vectorielle
Défense de mémoire de Simon Lejoly
Date : 22/06/2023 08:00 - 22/06/2023 10:00
Lieu : Salle académique
Orateur(s) : Lejoly Simon
Organisateur(s) : Isabelle Daelman
Ces dernières années, des codecs utilisant l'apprentissage profond ont fait leur apparition dans le domaine de la compression de parole. Ces codecs se sont révélés capables de taux de compression plus importants que les codecs traditionnels, tout en proposant une qualité sonore supérieure. Le deep learning ouvre ainsi de nouvelles possibilités en matière de compression, dont celle d'utiliser l'information vocale d'un locuteur pour mieux compresser sa voix. C'est cette possibilité de compression personnalisée de la parole qui est étudiée dans ce mémoire. Pour l'évaluer, deux modèles profonds ont été conçus : le premier afin d'extraire l'information vocale d'un locuteur, le second afin d'utiliser cette information pour fournir une compression audio améliorée. Les résultats obtenus montrent des gains de performances encourageants, tant en reconstruction du signal qu'en compression. Ces premiers pas laissent penser que des codecs audios à personnalisation pourraient repousser les limites de la compression de parole à l'avenir.
Mots-clés : Speech Coding, Compression Audio Personnalisée, VQ-VAE, Neural/Cognitive Speech Coding
Contact :
Isabelle Daelman
-
isabelle.daelman@unamur.be
Télecharger :
vCal