Intelligenza artificiale e sound design

Da qualche anno a questa parte gli investimenti e il focus della ricerca informatica si sono spostati in maniera significativa sul campo del machine learning, dell’intelligenza artificiale, della realtà aumentata e del riconoscimento vocale. Già vediamo i primi prodotti commerciali, Tesla produce auto che guidano da sole, Apple implementerà nelle prossime release dei propri sistemi operativi algoritmi di machine learning sempre più avanzati e così Google, Amazon e tutti i big dell’informatica. La tendenza è quella di creare strumenti che non solo siano utili ad un determinato scopo, ma che “collaborino” attivamente per raggiungere quello scopo con metodologie che oggi possiamo solo immaginare. Si passerà da una generica manipolazione quantitativa di dati numerici ad una modalità di intervento con un forte carattere qualitativo e personalizzato per ogni singolo utente. Tutto ciò come potrebbe ripercuotersi nell’ambito del sound design?

Nel campo dell’audio i primi passi li muove Izotope che sfrutta questa tecnica producendo tools sempre più avanzati per il processing di segnali audio cominciando così a mettere sul mercato algoritmi che, non solo intervengono sul suono in maniera chirurgica, ma che sono anche capaci di comprendere quali parti nello spettro sonoro sono utili e quali no. Si tratta di strumenti che nella complessità delle frequenze di una registrazione riescono a riconoscere ed isolare una voce oppure riescono ad escludere le cose indesiderate, ad esempio lo sfregamento di un vestito sul microfono. Se ben in maniera molto semplice, questi algoritmi compiono delle “scelte” in completa autonomia e sono simili alle scelte che l’operatore umano usa fare costantemente durante il lavoro. Tutto ciò è possibile grazie al fatto che sono stati “addestrati” per farlo e questo grazie al deep learning.

Molto interessante è l’approccio con cui Andrew Owens del MIT (Massachusetts Institute of Technology) esplora le potenzialità di questa tecnologia nel campo del suono e dell’immagine. Sfruttando la rete neurale artificiale il software è capace di prevedere in autonomia quale suono sincronizzare ad un video muto, ne analizza sia il movimento, decidendo l’esatto momento temporale in cui far partire l’evento sonoro e riesce a capire il tipo di materiale ripreso in scena sintetizzando così il suono adatto. L’algoritmo si basa su un dataset chiamato “Greatest Hits” composto da quasi 1000 filmati e da 46000 effetti sonori . Si comporta come un foley artist, sceglie di produrre suoni non necessariamente generati dallo stesso oggetto presente sulla scena, ma ne utlizza altri che abbiano caratteristiche acustiche adatte a mimare un suono verosimile; basti pensare alle classiche noci di cocco per sonorizzare gli zoccoli del cavallo.

Il video qui sotto mostra il risultato di questo esperimento.

Qui potete scaricare il documento dettagliato dove sono esposti i dettagli tecnici e metodologici.

Un’altro studio, eseguito a Edimburgo da Eduardo Reck Miranda nel 1995, mira alla creazione di un’algoritmo capace di rivoluzionare il modo di fare sintesi sonora per mezzo del machine learning. Miranda ipotizza un sistema, chiamato ARTIST (Artificial intelligente sound tool), in cui l’utente può letteralmente dialogare con la macchina. Per mezzo di un vocabolario formato da termini che descrivono le caratteristiche del suono, l’algoritmo genera delle timbriche con le qualità richieste. La parte interessante del sistema è il fatto che, per come è concepito l’algoritmo, impara dalle richieste dell’utente e nel tempo genera dei comportamenti arbitrari suggerendo all’utente soluzioni basate sull’esperienza fatta. Secondo Miranda per valutare se un sistema può essere considerato intelligente bisogna che soddisfi in seguenti punti.

Deve rispondere in maniera intuitiva alle richieste dell’utente.
Deve poter essere configurato dall’utente.
Deve proporre soluzioni di sintesi alternative.
Deve essere un sistema con un certo grado di indeterminazione.
Deve imparare.

Per chi volesse approfondire qui un documento (in inglese) redatto da Miranda che spiega in dettaglio la sua idea.

Miranda costruisce un interessante impianto teorico e chissà che, al dipartimento di Google Brain, il team che si occupa del progetto Magenta non ne abbia tenuto conto. Da quelle parti hanno messo in pratica un sistema di sintesi basato sull’intelligenza artificiale tirando fuori Nsynth, un algoritmo capace di analizzare e comprendere le qualità intrinseche di un suono musicale prodotto da un qualsiasi strumento. Sulla base di questa conoscenza l’algoritmo da la possibilità di interpolare due o più suoni generando timbriche completamente nuove che però continuano a mantenere in maniera evidente le caratteristiche degli strumenti originali. Qui è possibile scaricare il software in formato Max for Live. Di seguito un video che dimostra il funzionamento di Nsynth.

In ambito accademico c’è molto fermento intorno a queste materia, le ricerche che tentano di insegnare ai software ad ascoltare, isolare e addirittura riconoscere il valore semantico del suono sono numerose e sono fondamentali per donare l’udito a quella super intelligenza artificiale con cui dialogheremo e lavoreremo in futuro.

Semplificando, la tecnologia di apprendimento automatico può essere divisa in tre grandi categorie:

Apprendimento supervisionato: Al computer vengono forniti degli esempi nella forma di possibili input e i rispettivi output desiderati e l’obiettivo è quello di estrarre una regola generale che associ l’input all’output corretto.
Apprendimento non supervisionato: il computer ha lo scopo di trovare una struttura negli input forniti, senza che gli input vengano etichettati in alcun modo.
Apprendimento per rinforzo: Il computer interagisce con un ambiente dinamico nel quale cerca di raggiungere un obiettivo (per esempio guidare un veicolo), avendo un insegnante che gli dice solo se ha raggiunto l’obiettivo. Un altro esempio è quello di imparare a giocare un gioco giocando contro un avversario

Nei casi esposti sopra l’apprendimento è di tipo supervisionato, bisogna fornire al software input taggati accuratamente per essere processati dall’algoritmo. Anche nel campo dell’audio esistono molte persone che si occupano di costruire e far crescere dataset di suoni organizzati in maniera specifica per l’apprendimento automatico. Uno dei più grandi è AudioSet di Google che avendo a disposizione il mare magnum di Youtube riesce facilmente a collezionare una quantità di ore audio imponente, ma non è il solo a fare questo lavoro, di seguito alcuni dataset audio trovati in rete.

Urban sound dataset

Environmental sounds

Dataset open source in collaborazione con Freesound.org

VidTimit un dataset audio video

Una lista di datasets specifici per la ricerca musicale

Sarebbe interessante se tutte le librerie audio in commercio tenessero conto delle caratteristiche di archiviazione per questo tipo di applicazione, aiuterebbero la neonata intelligenza artificiale ad avere materiale su cui studiare in futuro.

Naturalmente siamo ancora molto lontani da sistemi che possano sostituire l’uomo nella progettazione sonora, anche perché è qualcosa che coinvolge fortemente la componente emotiva, qualcosa che una macchina difficilmente riuscirà a comprendere.

Se vogliamo però fare un po di futurologia plausibile basta sposare la filosofia del “follow the money”. La tendenza degli investimenti economici in queste tecnologie lascia intravedere rivoluzioni soprattutto nel rapporto utente/software. Il mercato audio-video professionale è molto dinamico, cresce del 12% l’anno ed è previsto che nel 2020 possa arrivare a più di 180 miliardi di dollari di fatturato, in un contesto così dinamico non c’è da meravigliarsi se la tecnologia del machine learning troverà terreno fertile

Magari ci troveremo a lavorare in ambienti virtuali maneggiando interfacce olografiche e avremo un dialogo verbale con una workstation che ci suggerirà la soluzione creativa più adatta alle nostre esigenze dopo che avrà comparato tutti i casi simili, in tutti i media esistiti, dal giorno in cui è nato il cinema fino a quel dì. Avremo a disposizione software che ci proporranno gli elementi da usare per costruire un panorama sonoro in base alle coordinate geografiche, alla temperatura e all’umidita dedotta dalla scena. Sarà una macchina tarata sui nostri gusti e sulla nostra sensibilità, non dovremo più adattarci al workflow di questo o di quell’altro software, saranno loro ad adattarsi al nostro modo di lavorare e questo perché saremo noi ad insegnarglielo.

Di seguito qualche link a ricerche accademiche in corso.
Cornell university library
Arthur Juliani
SoundNet
Standford university (PDF)
Università Pompeu Fabra – Barcellona
Deep learning methods for environmental sound
Loria

Intelligenza artificiale e sound design

Mirko Perri

Lascia un commento Annulla risposta