Matteo Salvini parla francese? No, è “solo” l’intelligenza artificiale

Francesco Marino 19 settembre 2023 11:14

“Ma davvero Matteo Salvini ha imparato a parlare francese”? Qualcuno se l’è chiesto, nei commenti a un video che il ministro dei Trasporti ha pubblicato sui suoi profili social, lo scorso 16 settembre.

@matteosalviniufficiale Chers amis français, rendez-vous demain, à #Pontida23, avec @Marine Le Pen 🇮🇹 🇫🇷 (Fatto con #HeyGen ♬ son original - Matteo Salvini

Nella clip, il segretario della Lega presenta al pubblico transalpino Pontida 23, in occasione dell’intervento di Marine Le Pen. Il francese è fluente, il labiale non fa pensare, tranne in alcuni momenti, a un doppiaggio: la voce, del resto, è proprio quella di Salvini. Già dalla didascalia, però, l’illusione si rompe: “fatto con HeyGen”, specifica la caption, enfatizzando le potenzialità dell’intelligenza artificiale.

Che cos’è HeyGen e come funziona

E in effetti Salvini è salito su uno dei nuovi trend dell’intelligenza artificiale generativa. Divenuta celebre grazie a un tweet dell’esperto Jon Finger, HeyGen è una piattaforma di montaggio e creazione video tramite IA. La sua funzione principale è la creazione di deepfake. Basta caricare un video di due minuti di una persona che parla di fronte a una telecamera e il sistema è in grado di genere un avatar: un alter ego digitale realistico, pronto a leggere qualunque testo scritto con movimenti e voce dell’originale. Di recente, HeyGen ha aggiunto una funzione piuttosto interessante, forse più intuitiva e semplice: si inserisce in input un video, si sceglie la lingua di destinazione e il sistema restituisce la clip tradotta, sempre replicando la voce originale e cambiando il labiale.

Testing out @HeyGen_Official translation on French and German. I don’t speak either language so let me know if it sounds natural if you do.
I hope if you pay you can turn off the color correction.
It didn’t work on my phone so I had to upload on my pc.https://t.co/FMJp9sJEBI pic.twitter.com/iF5eONAQ3c
— Jon Finger (@mrjonfinger) September 11, 2023

HeyGen sfrutta l’intelligenza artificiale in tutte le fasi del processo. In primo luogo, trascrive il parlato del video e lo traduce; poi, impara a replicare la voce di partenza, che legge quel nuovo testo. In ultimo, modifica il labiale per tenere viva l’illusione che tutto sia reale.

L’intelligenza artificiale per clonare qualunque voce

Forse una delle caratteristiche più sorprendenti è proprio quella capacità di replicare la voce originale. Il Voice cloning, in effetti, è una delle applicazioni più potenzialmente dirompenti dell’intelligenza artificiale generativa: sempre più servizi online consentono di replicare voci in modo molto credibile, a partire da esempi molto brevi. A Eleven Labs, il servizio usato da HeyGen, tra i più noti del settore, basta circa un minuto di parlato per essere in grado di clonare quella voce.

E anche Apple, con l’uscita di iOS 17, ha lanciato Personal Voice, che consente di usare iPhone per duplicare la propria voce grazie all’intelligenza artificiale. Funziona in maniera piuttosto semplice: si leggono 150 frasi con la propria voce e l’IA crea un modello basato su di noi. A quel punto, si può usare per parlare senza parlare, digitando semplicemente il testo che poi sarà letto dal sistema.

Da Matteo Salvini a Gerry Scotti, fino ad Aldo, Giovanni e Giacomo

A una rapida ricerca, Matteo Salvini sembra essere il primo personaggio pubblico ad aver utilizzato la piattaforma HeyGen per creare un video da pubblicare sui social network. Sono tanti, però, gli esempi online, dalla semplice clonazione di voci famose alla vera e propria traduzione. Su TikTok, in queste settimane, sta emergendo un profilo che si chiama Italian Comedy Dub, che propone clip della commedia italiana tradotte in inglese. Tra le più celebri ci sono quelle di Aldo, Giovanni e Giacomo: la scena di Ajeje Brazorf, in inglese, non perde del tutto la sua verve comica.

Un altro dei trend riguarda le cover di canzoni famose. In quel caso non c’è traduzione, ma solo clonazione di voce: la wave di queste settimane ha come protagonista Gerry Scotti, che grazie all’intelligenza artificiale finisce a interpretare brani che vanno da Italodisco dei The Kolors a Cenere di Lazza.

@carmenai69 Gerry canta Cenere di Lazza #gerry #gerryscotti #cenere #lazza #aicover #deepfake #aiclone #aivoice ♬ original sound - CarmenAI

Quali sono le conseguenze?

Le conseguenze di questa ondata e della diffusione di questi strumenti al grande pubblico sono sostanzialmente due. La prima è la perdita della proprietà della voce: chiunque abbia pubblicato un audio online è potenzialmente replicabile, senza particolari barriere tecniche all’ingresso. Con un rischio su tutti: un caos di significato, in cui la voce smette di essere una prova di identità.

La seconda è l’impatto sui professionisti dell’intrattenimento, della voce, del cinema. È una delle ragioni dello sciopero degli sceneggiatori di Hollywood, sostenuto anche da un gruppo piuttosto folto di attori: cosa succede a determinate categorie di professionisti quando l’intelligenza artificiale rende il loro lavoro troppo costoso?