Intelligenza artificiale (speech recognition)
DrAfter123 @iStock (2018)
Tecnologia

L’intelligenza artificiale di Google sa (anche) isolare le voci

Grazie a una tecnica di machine learning, la grande G può distinguere singole voci all’interno di contesti affollati. Ecco come

Google sta utilizzando l’intelligenza artificiale per isolare singole voci all’interno di ambienti rumorosi. La tecnologia - che cerca di emulare il cosiddetto effetto cocktail party (o ascolto selettivo), ovvero quella particolare capacità del cervello umano di concentrarsi su una singola sorgente sonora ignorando il rumore di fondo - utilizza il machine learning per discernere due o più fonti audio presenti in contemporanea nello stesso ambiente.

Come funziona la tecnologia

Il modello adottato dalla grande G è stato pensato per lavorare su video nei quali sono presenti due o più voci che si sovrappongono. Nello specifico: l’intelligenza artificiale, che è stata allenata con oltre 100.000 video di conferenze e letture su YouTube, si occupa in primo luogo di associare le singole voci ai corrispondenti oratori, grazie anche all'interpretazione dei movimenti labiali, e quindi di isolarle in singoli frammenti audio.

Questi esempi aiutano a capire meglio cos’è possibile fare già ora utilizzando il modello su alcuni video nei quali ci sono due speaker in contemporanea.

Perché è importante

Una tecnologia del genere si presta a una moltitudine di declinazioni: si va dalla possibilità di diminuire o azzerare il rumore di fondo nelle riprese video, al perfezionamento di tutte le varie tecniche di riconoscimento vocale e traduzioni in simultanea.

Il rumore di fondo, come noto, è ancora oggi uno dei motivi che impedisce ai vari assistenti digitali di comprendere appieno il nostro parlato.

Quando potremo utilizzarla

Il modello è per il momento in fase sperimentale. Tuttavia, visti i risultati già incoraggianti, non è azzardato pensare a un suo possibile impiego (magari in fase beta) già a partire dal prossimo anno.

In questo senso, YouTube e Google Hangouts potrebbero essere i primi servizi che potrebbero usufruire di un'integrazione nativa della tecnologia.

Per saperne di più

I più letti

avatar-icon

Roberto Catania

Faccio a pezzi il Web e le nuove tecnologie. Ma coi guanti di velluto

Read More