Localisation active de source sonore en robotique / Active source localization in robotics
LAAS-CNRS
Toulouse, France
il y a 3j

Description :

Stage Master2 / Ingénieur

Contrairement à la vision par ordinateur, exploitée depuis plusieurs décennies, l’introduction de la perception auditive en robotique est relativement récente.

Cette modalité ouvre de nombreuses perspectives (interaction humain-robot, tâches de search and rescue , ...) et suscite l’engouement d’un nombre croissant de chercheurs en provenance d’horizons variés : signal, parole, apprentissage automatique, psychologie.

  • L’analyse d’une scène auditive procède généralement en trois étapes : la cartographie des sources sonores actives ; leur extraction (filtrage spatial, séparation des flux) ;
  • leur interprétation (détection d’activité vocale, reconnaissance de locuteur, reconnaissance de parole, etc.).

    Les approches binaurales basées sur une tête (sphérique, anthropomorphe...) munie de deux microphones sont particulièrement séduisantes car elles simplifient l'ingénierie associée et permettent des connexions avec l'audition humaine : traitements bio-inspirés, dialogue avec des théories de la perception humaine, etc.

    Ainsi, les capacités de mouvement des robots ont donné lieu à des approches actives , en phase avec certains travaux en psychologie, où la perception est abordée comme un processus exploratoire impliquant de multiples rétroactions aux niveaux sensorimoteur et cognitif, plutôt qu’un processus passif purement bottom-up .

  • Dans ce contexte, le LAAS-CNRS a développé des schémas de localisation active binaurale de source qui, au niveau sensorimoteur : fusionnent des primitives spatiales extraites du flux audio avec les ordres moteurs du capteur ;
  • commandent le mouvement du capteur en boucle fermée sur cette fusion afin de réduire l’incertitude sur l’origine spatiale du son.

    Ces stratégies ont été implémentées et testées expérimentalement sur un robot mobile doté d'un mannequin anthropomorphe (1).

    L'objectif de ce stage est de compléter ces travaux par de nouvelles contributions validées sur des expériences en temps réel.

  • Sur le plan théorique, il s'agira de : comprendre les problèmes d'optimisation permettant de synthétiser le mouvement optimal du capteur (stratégie gloutonne 1-step-ahead maximisant un critère d'information au prochain instant vs stratégie anticipatrice de type N-step-ahead maximisant l'espérance d'un tel critère au terme d'une fenêtre glissante, relativement à la distribution de probabilité d'indices binauraux prédits sur cette fenêtre) ;
  • les compléter par l'exploitation de nouveaux indices binauraux, typiquement des combinaisons de différences interaurales en temps (ITDs) et en amplitude (ILD).

    Sur le plan expérimental, il s'agira de revisiter / compléter la librairie logicielle disponible pour permettre le déploiement de certaines stratégies anticipatrices coûteuses sur le plan calculatoire.

    Ce travail pourra éventuellement donner lieu à une poursuite en thèse, dont l'objectif est de permettre au robot d'apprendre des stratégies de fusion audio-motrice et de synthèse du mouvement optimal adaptées à des environnements moins contrôlés : bruit ambiant, réverbérations, etc.

    Le candidat / La candidate doit posséder des compétences solides en robotique, traitement du signal, développement logiciel (C et C++) et posséder un goût pour les mathématiques de l'estimation stochastique.

    1) https : / / www.youtube.com / watch?v p4f3iwHht2Q segment 1 : 03 : 16-1 : 04 : 38

    Master2 / Engineer internship

    Unlike computer vision, which has been used for several decades, the introduction of auditory perception in robotics is fairly recent.

    This modality opens many perspectives (human-robot interaction, search and rescue tasks, etc.) and arouses the enthusiasm of a growing number of researchers from various backgrounds : signal, speech, machine learning, psychology.

  • The analysis of an auditory scene generally proceeds in three stages : the mapping of active sound sources; their extraction (spatial filtering, flow separation);
  • their interpretation (voice activity detection, speaker recognition, speech recognition, etc.)

    Binaural approaches based on a head (spherical, anthropomorphic, etc.) equipped with two microphones are particularly attractive because they simplify engineering issues and enable connections with human hearing : bio-inspired processing, dialogue with theories of human perception, etc.

    Thus, robot motion capabilities have given rise to active approaches, in line with some works in psychology, where perception is tackled as an exploratory process involving multiple feedbacks at the sensorimotor and cognitive levels, rather than a purely bottom-up passive process.

  • In this context, LAAS-CNRS has developed binaural active source localization schemes which, at the sensorimotor level : merge spatial cues extracted from the audio stream with sensor motor commands;
  • control the movement of the sensor in closed-loop on this fusion so as to reduce the uncertainty about the spatial origin of sound.

    These strategies have been implemented and experimentally tested on a mobile robot equipped with an anthropomorphic mannequin (1).

    The objective of this internship is to complete this work with new contributions to be validated on real-time experiments.

  • Theoretical issues are as follows : understand the optimization problems making it possible to synthesize the optimal movement of the sensor (greedy 1-step-ahead strategy maximizing an information criterion at the next time step vs anticipatory N-step-ahead strategy maximizing the expectation of such a criterion at the end of a sliding window, relative to the probability distribution of binaural cues predicted on this window);
  • complete them by using new binaural cues, typically the combination of interaural time and / or level differences (ITDs / ILDs).

    On the experimental level, the available software library will be revisited / complemented so as to deploy some computationally expensive anticipatory strategies.

    This work may futher lead to a doctoral thesis, the objective of which is to endow the robot with the ability to learn strategies of audio-motor fusion and optimal movement synthesis suited to less controlled environments : ambient noise, reverberations, etc.

    The candidate must have strong skills in robotics, signal processing, software development (C and C ++) and have a taste for the mathematics of stochastic estimation.

    1) https : / / www.youtube.com / watch?v p4f3iwHht2Q segment 1 : 03 : 16-1 : 04 : 38 (in French)

    Indemnisation : OuiDurée : 5-6 moisNombre de personnes : 1 1 Candidater 2 Fin NOM Prénom du candidat

  • Courriel du candidat
  • Téléphone CV
  • Les fichiers doivent peser moins de 2 Mo .
  • Extensions autorisées : pdf doc docx odt . Lettre de motivation Les fichiers doivent peser moins de 2 Mo .

    Extensions autorisées : pdf doc docx odt . Relevés de notes Les fichiers doivent peser moins de 2 Mo .

    Extensions autorisées : pdf doc docx odt . Lettres de recommandation Les fichiers doivent peser moins de 2 Mo .

    Extensions autorisées : pdf doc docx odt . Références CAPTCHAAfin d'empêcher les robots d'envoyer du spam, merci de répondre à la question

    Signaler cette offre d'emploi
    checkmark

    Thank you for reporting this job!

    Your feedback will help us improve the quality of our services.

    Postuler
    Mon email
    En cliquant sur « Continuer », je consens au traitement de mes données et à recevoir des alertes email, tel que détaillé dans la Politique de confidentialité de neuvoo. Je peux retirer mon consentement ou me désinscrire à tout moment.
    Continuer
    Formulaire de candidature