Wie ooit al eens in een luide menigte spraakcommando's heeft proberen geven aan zijn digitale assistent, weet dat die dan meestal erg moeilijk heeft met het herkennen van je stem. Google werkt daarom nu aan een opvallend simpele oplossing, die ze uit de doeken doet in haar blog.

Het Amerikaanse bedrijf heeft een deep learning-algoritmes ontwikkeld die stemmen erg duidelijk uit een menigte kan isoleren. Het systeem kijkt naar iemands gezicht om te bepalen wie er aan het spreken is, en wat die precies zegt. Zo kan de technologie een spreker duidelijk isoleren van het achtergrondgeluid. Zelfs als twee sprekers op hetzelfde moment de aandacht willen, kan het programma ze erg goed van elkaar onderscheiden.

Virtuele feestjes

Google trainde haar AI door 'virtuele feestjes' te bouwen, met verschillende sprekers en een heleboel achtergrondgeluid. Onderzoekers lieten het programma bijleren door bewegingen van een sprekers gezicht te herkennen en te associëren met de juiste frequenties op het spectrogram. Daardoor moet de AI uiteindelijk een erg helder audiospoor overhouden dat de spreker isoleert van al het onnodige lawaai.

De technologie zit nog in een conceptuele fase zit, maar Google laat wel al weten dat ze tal van toepassingen voor de consumentenmarkt in gedachten hebben. Zo zou de audiokwaliteit van videogesprekken via Hangouts of Duo kunnen verbeteren of zouden automatisch gegenereerde ondertitels juister kunnen worden.