Forestil dig, at du er i en travl lufthavn, til en koncert eller på en larmende café. Alt omkring dig er et kaos af lyde – andre mennesker, der taler, musik, der spiller, og alle mulige former for baggrundsstøj. Men hvad nu, hvis du kunne vælge at høre bare én persons stemme tydeligt midt i al denne støj?
Det er visionen bag et nyt forskningsprojekt, der ledes af forskere fra University of Washington og Microsoft. De har udviklet en ny teknologi, de kalder “Look Once to Hear”, som gør det muligt at fokusere på én bestemt persons tale og samtidig filtrere alle andre lyde fra. Teknologien er derefter indbygget i et par AI-hovedtelefoner.
Se én gang for at høre tydeligt
Teknologien fungerer ved, at man kigger på den person, man vil høre, i et par sekunder, mens man holder en knap på siden af headsettet nede. I løbet af disse sekunder opfanger to mikrofoner på højre og venstre side personens unikke stemmeaftryk, selv om der er meget støj i nærheden.
Dette stemmeaftryk bruges derefter af en smartphone-app eller en specialiseret enhed til at isolere personens stemme. Selv hvis du kigger væk eller bevæger dig rundt, vil du nu kunne høre personen tydeligt, som om du var alene i rummet.
AI-headsettet bruger avanceret maskinlæring til at opnå dette. Mikrofonoptagelser med baggrundsstøj behandles af et neuralt netværk, som er trænet til at skelne og forstærke målpersonens unikke stemmeaftryk.
Mange anvendelsesmuligheder for AI-hovedtelefoner
Forskerne forestiller sig mange potentielle anvendelser af teknologien. Den kan være nyttig til at høre en guide på et travlt museum eller en lærer i et klasseværelse med meget baggrundsstøj. Den kan også hjælpe mennesker med høretab, som har svært ved at følge med i samtaler i støjende omgivelser. At bygge teknologien ind i høreapparater er et naturligt næste skridt.
AI-hovedtelefonerne er i øjeblikket på prototypestadiet, men forskerne har demonstreret, at teknologien fungerer med almindelige hovedtelefoner, der er forbundet med en lille computer. De håber, at teknologien med tiden kan indbygges i almindelige smartphones og trådløse høretelefoner.
Bedre end støjreduktion
I modsætning til konventionelle støjreducerende hovedtelefoner, som blokerer for al lyd, giver de nye AI-hovedtelefoner dig mulighed for selektivt at vælge, hvilken lyd du vil høre. Det er et stort fremskridt inden for lydbehandling og har potentiale til at revolutionere, hvordan vi oplever lyd i støjende omgivelser.
Hvad med oversættelse?
Når det drejer sig om kunstig intelligens, er det let at forestille sig, at man også kan indarbejde direkte oversættelse fra et fremmedsprog til sit eget modersmål. Måske med personens egen stemmesignatur? Det ville gøre det muligt at rejse rundt i verden uden tolk og forstå det meste af, hvad der bliver sagt omkring dig.
Spionage
Vi kan ikke lade være med at spekulere på, om teknologien kunne bruges med onde hensigter. For hvad forhindrer folk i at udspionere andre? Først skal du isolere stemmen fra den person, du vil høre. For at gøre det skal du i dag sidde relativt tæt på, og personen skal tale direkte til dig. Mikrofonerne på hver side af dit hoved skal være lige langt fra den mund, der taler til dig, og så kan systemet adskille stemmen fra omgivelserne, idet hver lyd bevæger sig en forskellig afstand til hvert øre. Hvis du sidder for langt væk fra personen, vil stemmens faserespons ikke være forskellig nok fra det miljø, du ønsker at skelne mellem.
Men det forhindrer dig ikke i først at gå hen til personen og udveksle et venligt ord, mens der skabes en profil af stemmen. Og så kan man træde tilbage og udspionere personen, så meget man vil.
Hvis denne teknologi skal bruges i forbrugerprodukter, skal den person, der skal forstås, formentlig først give sit samtykke på en eller anden måde.
Kilde: dl.acm.org