Vers une classification automatique des sons dans la post-production audiovisuelle. Ajustement du modèle BEATs vers l’ontologie du monteur son


Date : 2025
Auteur : Léo-Polde POULALION
Directeur(s) de mémoire : Laurent Millot et Modan Tailleur

Son

Résumé : Avec les récents progrès en apprentissage automatique et en traitement des signaux audio, de nouveaux outils émergent pour assister les professionnels de la post-production audiovisuelle. Nous traiterons en particulier du cas du monteur son et de la gestion de sa sonothèque, le rangement d’autant de données est d’une grande importance pour choisir au mieux les sons qui servent la narration. En ce sens, l’indexation – phase durant laquelle les fichiers sont annotés et organisés dans la sonothèque – est nécessaire à une navigation fluide et n’est pas à prendre à la légère. Depuis quelques années, la proposition de la norme UCS (Universal Category System), induit une classification des sources sonores et une convention de nommage adoptée par une majorité de professionnels de l’audio. Dans ce travail, nous nous demanderons s’il est possible d’automatiser une partie du processus d’indexation, en utilisant un algorithme pour classer les sons dans des catégories UCS. Pour explorer cette problématique, nous avons choisi d’ajuster les connaissances du classifieur audio BEATs pour l’adapter à une classification selon l’ontologie UCS. À cette fin, un jeu de données spécifique a été construit à partir de sons de nourriture et de cuisine. Le modèle ajusté atteint une précision de 87,65% sur le jeu d’évaluation. Ces résultats suggèrent la faisabilité d’un outil d’aide à l’indexation basé sur cette approche, et dont les performances pourraient s’étendre à une classification plus détaillée.

Mots-clés : Ontologie du sonore, Sémantique du sonore, Classification des sons environnementaux, Post-production audiovisuelle, Écoute causale, UCS, Audioset, Apprentissage automatique, Architecture Transformeur, BEATs.

Abstract: With recent advances in machine learning and audio signal processing, new tools are emerging to assist professionals working in audiovisual post-production. This study focuses specifically on the role of the sound editor and the management of their sound library. Organizing such a large volume of data is crucial to selecting sounds that best serve the narrative. In this context, the indexing phase — during which audio files are labeled and organized — is essential to ensure fluid and efficient navigation within the library and should not be taken lightly. In recent years, the Universal Category System (UCS) has been proposed as a standardized framework for sound source classification and naming conventions, and has since been adopted by a majority of audio professionals. In this work, we investigate whether part of the indexing process can be automated, using an algorithm to classify sounds into UCS categories. To explore this question, we chose to fine-tune the BEATs audio classifier so it could operate within the UCS ontology. For this purpose, a specific dataset was constructed using sounds related to food and cooking. The adapted model achieved an accuracy of 87.65% on the evaluation set. These results suggest the feasibility of a UCS-based indexing support tool, with potential to scale up to finer-grained classification tasks.

Keywords: Sound ontology, Sound semantics, Classification of environmental sounds, Audiovisual post-production, Causal listening, UCS, Audioset, Machine learning, Transformer architecture, BEATs.

Lire le mémoire


Lire le mémoire

Mémoires similaires