Un algorithme pour extraire du son à partir d'une information visuelle
Des chercheurs du MIT ont mis au point un algorithme qui permet à partir d’une image vidéo d’extraire un son en fonction des mouvements infimes de l’objet filmé.
Je m’explique… Par exemple, si je vous mets dans une pièce fermée avec un paquet de chips vide et que vous discutez avec un ami (à la voix qui porte), le son sortant de votre magnifique organe va déplacer l’air et faire vibrer le paquet de chips.
À l’œil nu, on ne verra rien, mais avec une caméra haute vitesse, il est possible de capter ces vibrations infimes puis à partir de celles-ci, de reconstruire une piste audio.
Top pour espionner à distance et entendre ce qui se dit dans une pièce même insonorisée, simplement en filmant de loin une plante ou un emballage présent à l’intérieur de cette pièce. Excellent non ?
Loin de se limiter à ça, les chercheurs ont mis au point un second algorithme pour faire la même chose, mais avec de bonnes vieilles vidéos classiques à 60 fps filmées avec n’importe quelle caméra ou appareil photo du commerce. Le rendu est un peu plus sale, mais ça reste compréhensible. Je sens qu’il y en a qui vont s’amuser à ressortir les archives historiques filmées ou certaines vidéos Youtube et mettre enfin des mots ou de la musique sur tout ça.
Marrant non ? On se croirait presque dans un épisode des Experts !