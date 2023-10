Saremo tentati di chiamarla ultima frontiera, ma il dato è che non esistono più ne linee, né confini. Al massimo esiste una certezza: i software di intelligenza artificiale stanno minando quotidianamente le nostre certezze. L'ultima, solo in ordine di tempo, è quella che la nostra voce sia, al pari delle nostre impronte digitali, un vero e proprio segno identificativo. Oggi anche il prodotto delle nostre corde vocali può essere clonato (in modo più o meno preciso) dai nuovi strumenti di intelligenza artificiale. E le potenzialità, così come i rischi, sono enormi.

Ho parlato lingue che non ho mai studiato e presto succederà anche a voi

La prima barriera a cadere è quella linguistica. Solo nelle tre maggiori piattaforme audiovisuali del web (TikTok, Youtube e Vimeo), ogni 24 ore vengono caricati oltre un milione e mezzo di video. Per vederli tutti occorrerebbero oltre 150 anni. Presto la maggior parte di questi contenuti potrebbero essere fruibili anche nella nostra lingua senza bisogno di doppiaggio e sottotitoli, utilizzando la stessa voce dei creator che li ha prodotti. E molte piattaforme si stanno già attrezzando allo scopo. Lo scorso settembre Spotify ha annunciato che sta per lanciare dei podcast che manterranno, in più lingue, la stessa voce distintiva dell'autore. Miracoli del "voice cloning", la stessa tecnica che ho utilizzato nel video che potete visionare qui sotto per parlare due lingue che non padroneggio assolutamente. L'ha realizzato in esclusiva, per Today.it, Asc27, un'azienda che sta per lanciare,a giorni, un sito italiano per la creazione di avatar fotorealistici della stessa persona, capaci di conversare in qualsiasi lingua del mondo

E se il labiale presenta forse alcuni margini di miglioramento, l'intonazione audio anche in lingua straniera risulta molto efficace. Il "voice cloning", letteralmente "clonazione della voce", è un processo che porta alla creazione di una voce sintetica che suona identica (o molto simile) a quella della persona reale che l'ha emessa. Vengono utilizzati algoritmi di deep learning per analizzare degli estratti di parlato con cui estrarre le caratteristiche principali della voce che si vuole sintetizzare per poi generare nuovi discorsi, anche in lingue differenti. L'obiettivo è replicare il tono, lo stile e le emozioni dell'oratore.

Gli approcci per farlo sono al momento diversi. C'è il text to speech, in cui si addestra un modello di A.I. a riprodurre una voce, dandogli come input un testo. Alternativamente si può assegnare una skin vocale a un vocale audio preesistente. Tradotto: abbiamo in questo modo un modello vocale a cui sovrapponiamo le caratteristiche timbriche di un'altra voce.

Ne esiste, infine, uno basato sul vero e proprio learning language model: si basa sulla creazione di un enorme database con centinaia di migliaia di ore di audio. Sulla base di questa enorme mole di informazioni si chiede al software di parlare in maniera simile all'esempio che lo sviluppatore fornisce.

Per realizzare l'esempio sopra è stata clonata la mia voce e acquisito un mio video. Successivamente ho fornito un testo a cui è stata applicata una traduzione. La mia voce e il mio video è stato utilizzato infine per creare il mio avatar che parla francese e cinese. Siamo ai primordi di questa rivoluzione, ma l'impressione è che gli sviluppi potranno presto essere sorprendenti.

Da Asc27 ci dicono che il loro progetto è orientato all'attenzione per l'individuo e alla sicurezza delle informazioni, in piena conformità con il GDPR europeo. Il problema però è che molte delle piattaforme on-line permettono di manipolare ogni tipo di contenuto senza alcuna limitazione. Potrei quindi clonare la voce di Joe Biden e del mio vicino di casa. E i tempi sembrano maturi per una vera e propria epidemia: quella dei video e audio deep fake.

Se Biden dice che sono sbarcati gli alieni

"Sembra incredibile, ma le osservazioni scientifiche e l'evidenza stessa dei fatti inducono a credere che gli strani esseri atterrati stanotte nella fattoria del New Jersey non siano che l'avanguardia di un'armata di invasione proveniente da Marte. La battaglia che ha avuto luogo stanotte a Grovers Mill si è conclusa con una delle più strabilianti disfatte subite da un esercito nei tempi moderni". Con questi estratti, tratti dal classico della fantascienza "La guerra dei Mondi" (dell'ominimo H.G.Wells), un giovanissimo Orson Welles riuscì a gettare nel panico l'America. Era il 30 ottobre del 1938 quando il futuro cineasta annunciò dagli studi della Cbs, a una nazione incredula. l'imminente invasione marziana simulando un notiziario speciale.

"Le case si svuotavano e le chiese si riempivano; da Nashville a Minneapolis la gente alzava invocazioni e si lacerava gli abiti per strada" ricorda il regista. È uno dei primi esempi del potere dei mezzi di comunicazione di massa e delle conseguenze della diffusione, su larga scala, di notizie false. Sono passati più di 80 anni e anche i nostri "anticorpi" alle cosiddette fake news sono cresciuti. Ma nessuno può attualmente prevedere cosa succederà con la diffusione di massa dei cosiddetti "video deep fake".

L'uso del voce cloining si sta già diffondendo a macchia d'olio. I primi a utilizzarlo sono stati i nostri politici. Memorabile il video di Beppe Grillo che parla in cinese, che il padre dell'M5s ha pubblicato poco più di un mese fa. L'ha realizzato la Asc27, la stessa che ci ha permesso di realizzare in più lingue nel video sopra.

"Subito dopo la diffusione del video ci siamo trovati di fronte alle prime congetture e illazioni da parte dei giornalisti: alcuni pensavano che Grillo avesse addirittura utilizzato i soldi del Movimento per studiare il cinese, c'erano cascati in molti. Solo successivamente ha dichiarato che aveva utilizzato un software di A.I. smorzando polemiche e chiacchiericcio" racconta a Today.it Nicola Grandis, amministratore delegato di ASC 27 e di Aida46 azienda che si occupa di cybersecurity per importanti comparti della nostra difesa nazionale.

"Sono anni che lavoriamo a questa tecnologia che è nata nell’ambito della sicurezza nazionale - spiega a Today.it Nicola Grandis - Quella di Beppe Grillo è stata la prima uscita pubblica. Ci siamo concentrati a lungo su una tecnologia per riconoscere i deep fake, poi l'abbiamo utilizzata per il voce cloning e la creazione di avatar". E non è un caso che, nel sito che verrà lanciato a giorni, e che permetterà di creare avatar, particolare enfasi viene data alla protezione dei dati personali e all'utilizzo di video di persone terze. Perché il rischio del dilagare di deep fake, diffamazioni e fake news è concreto.

È il caso, ad esempio, del video di Joe Biden che ho realizzato con uno dei software più utilizzati on-line. Si chiama Rask e permette, inserendo un video con contenuto audio, di clonare in più lingue la voce di chi parla. Ma non solo: il sito permette anche di correggere il contenuto della traduzione e, di conseguenza, di adattarlo. In questo modo sono riuscito a creare un video del presidente americano e l'ho sottotitolato.

Ecco un video deep fake, pronto da diffondere sui canali social, in cui Biden afferma cose che non ha mai detto: ovvero che gli alieni sono appena sbarcati e che gli Stati Uniti sono pronti a resistere. Si basa sulle dichiarazioni rilasciate dal presidente americano lo scorso febbraio dopo l'abbattimento di tre oggetti non identificati sui cieli statunitensi. Per ottenere questo risultato è bastato variare le parole di Biden nel desk di traduzione del software e poi lavorare il video velocemente in post-produzione. Ma risultati simili, con esiti anche molto più realistici, potranno essere ottenuti anche con il nostro vicino di casa e il nostro compagno di banco. E il rischio è quello di un vero e proprio terremoto.

DeepFake e "furto della voce": cosa ci riserva il futuro

Sì, perché con l'ampia diffusione di questa tipologie di video la nostra voce potrebbe essere utilizzata per una miriade di scopi non esattamente nobili. Si pensi a un gruppo di ragazzi che utilizzano, per cyberbullismo, la voce di un coetaneo o una coetanea per attribuirgli cose che non ha mai pensato, né espresso. E ci sono già le prime storie di cronaca. È, ad esempio, la storia di Jennifer, mamma americana, che racconta di aver ricevuto una telefonata in cui la figlia di 15 anni affermava di essere stata rapita. I rapitori chiedevano 5mila dollari per il riscatto e, solo in extremis, ha capito che si trattava di una truffa, anche se la voce era esattamente quella della figlia. La vicenda è finita al Senato americano, ed è solo un piccolo esempio di quello che potrebbe aspettarci in un futuro prossimo con la larga diffusione di questi mezzi.

E questo potrebbe riverberarsi anche in politica con la larga diffusione di fake news. "La nostra voce potrebbe essere usata un domani anche per siglare dei contratti o per essere licenziati dal proprio lavoro dopo una telefonata - continua Nicola Grandis di ASC 27 - e Beppe Grillo potrebbe dire qualunque cosa. Quando si lascia la propria voce o i nostri dati on-line, a mio avviso, si deve fare attenzione a una vecchia regola aurea del web: quando il prodotto è gratis, il prodotto sei tu".

Mi chiedo, ad esempio, che fine facciano i dati biometrici della mia voce, dopo avere siglato un contratto con Hygen, sito molto attivo nella creazione di avatar online. Subito dopo l'iscrizione mi viene infatti chiesto di leggere un testo di svariati minuti. In cambio mi viene concesso di creare un mio avatar free per vari scopi.

Ma le tracce della nostra voce sono un po' ovunque, anche in software che utilizziamo quotidianamente che ne raccolgono molto più (e a una definizione maggiore), di quanto possono fare le startup oggi sul web. Di cosa parlliamo? Ad esempio di Whatsapp, Siri o Alexa. l'assistente vocale di Amazon. In tutti questi casi esistono comunque precisi termini di servizio per l'utilizzo (e la protezione) dei nostri dati personali che però nessuno legge in maniera attenta.

Così l'Intelligenza artificiale permette ai malati di non perdere la propria voce

Ma se i timori sono grandi, anche le potenzialità di questa tecnologia sonoi enormi. Dalla startup Asc27 ci raccontano di come abbiano utilizzato il "voice cloning" per aziende e piccoli imprenditori per promuovere i loro prodotti all'estero. E le applicazioni sono davvero varie: si pensi ad esempio al suo utilizzo nel campo dell'e-learning.

Un'altra azienda che, da anni, applica le nuove tecnologie dell'intelligenza artificiale alla traduzione di testi (anche audiovisivi) è l'italiana Translated.

L'azienda ha già lavorato per importanti multinazionali come Airbnb e, da tempo, utilizza e sviluppa modelli di intelligenza artificiale. Ora si sta muovendo sempre più nel campo dell'audiovideo. Ha già lanciato un programma di sottotitolaggio automatico chiamato "Mate Sub" per aiutare i traduttori conn i sottotitoli, che permette a chiunque di sottotitolare un video pagando una piccola somma.

L'ultima frontiera è ora quella del doppiaggio: "Abbiamo utilizzato un prodotto che si chiama Mate Dub che stiamo ancora raffinando. Permetterà la traduzione e l’adattamento del testo in modo da renderlo compatibile, ma anche di generare la (o le) voci disponibili. Un approccio rivoluzionario che permette di velocizzare di molto il lavoro dei traduttori e per le singole aziende di risparmiare fino al 30% dei costi di produzione" spiega a Today.it Fabio Minazzi, responsabile del settore audio-video di Translated. Il segno distintivo dell'azienda è l'interazione tra uomo e macchina e nel machine learning adattivo. Tutti i testi generati in maniera automatica vengono ricontrollati e ottimizzati da traduttori. "La lingua è un oggetto complesso e vivo, si pensi ad esempio a tutte le espressioni idiomatiche che non sempre le macchine riescono a cogliere" sottolinea Minazzi.

Ma queste nuove tecnologie, oltre a essere un volano per la diffusione di fake news, potrebbero anche essere uno strumento importantissimo per il progresso umano. Ad esempio permettendo a chi sta perdendo la propria voce di conservarla. È il progetto "Voice for Purpose" che Translated sta portando avanti (insieme all'Università Campus Bio-Medico di Roma, Centri Clinici NeMO, Nemo Lab, Translated e Dream On) per persone con disabilità vocali, come quelle che devono affrontare quotidianamente i malati di Sla.

I modelli vocali vengono addestrati da un motore di sintesi neurale all'avanguardia per generare un parlato con prosodia, ritmo e tono naturali. L'obiettivo è riuscire a sintetizzare il prodotto delle nostre corde vocali.

Per lo scopo è stata già allestita una vera e propria "banca" in cui ognuno può donare la propria voce. Più sono i dati raccolti, maggiori saranno le capacità del sistema di elaborare voci umane simili alle originali. L'ultima frontiera è quella di carpire anche le emozioni del parlato, non solo le parole. L'obiettivo è permettere a tutti, un domani, di riuscire a parlare con la propria voce anche se di fatto si è impossibilitati a farlo. Miracoli della tecnologia. Una vera e propria utopia che potrebbe diventare presto realtà.

