Articoli

Mi sono fatto un deep fake da solo: come mi sono clonato voce e immagine

, ,

Si parla da molto tempo di digital twin: il “gemello digitale” è una replica digitale di un oggetto, sistema o processo del mondo reale. O, se vogliamo, anche di una persona (in realtà il vero digital twin è praticamente autonomo) anche se in quel caso sarebbe più opportuno parlare di “second brain”.
Ora, con gli strumenti di intelligenza artificiale a disposizione di tutti, è possibile “clonarsi”, creare un avatar con la nostra faccia e la nostra voce, che fa e dice cose che non abbiamo mai fatto né detto. Rovescio della medaglia: i deep fake, vale a dire video o audio manipolati che utilizzano l’IA per creare l’illusione che determinate azioni o discorsi siano stati eseguiti da persone reali. Il termine “deepfake” è una combinazione di “deep learning” (un sottocampo dell’IA) e “fake”, che indica qualcosa di falso o ingannevole. Un esempio? Zelensky che si arrende a Putin.

Per comprende meglio il meccanismo, mi sono creato un deep fake da solo. Ecco come ho fatto, passo per passo.

Eleven Labs: generatore di Voci basato sull’IA

Prima di tutto dovevo clonarmi la voce. Per questo ho usato Eleven Labs: l’azienda newyorkese ha creato un modello generativo che consente di progettare da zero voci artificiali. In altre parole, è possibile generare voci personalizzate che non corrispondono a nessuna voce esistente. Oppure, ed è questo che ci interessa, è possibile dare allo strumento in pasto dei campioni della propria voce per “clonarla”, per generare una voce sintetica con stesse caratteristiche (estensione, timbro, intensità, tono, stile, ecc.). L’ho fatto. Ho preso 15 file audio contenenti la registrazione della mia voce e li ho dato in pasto all’algoritmo.

Una volta clonata la mia voce, sono passato alla sezione “Speech Synthesis” (in pratica “sintesi vocale”) e ho scritto il testo per l’avatar. Un testo breve, da 500 caratteri per un parlato da circa mezzo minuto. A quel punto il “text to speech” ha fatto il suo dovere e ho scaricato il file audio del mio parlato virtuale.

 

A quel punto mi serviva un avatar parlante.

D-ID.com: creazione di Avatar Realistici con AI

D-ID.com è una piattaforma Web che utilizza l’animazione facciale in tempo reale e il text-to-speech avanzato per creare esperienze di intelligenza artificiale conversazionale immersive, simili a quelle reali. Utilizzando D-ID, ho caricato una foto di me stesso (avrei potuto usare anche il mio avatar) e ho poi personalizzato la mia animazione caricando il file audio.

A quel punto non ho fatto altro che aspettare la magia. Dopo qualche minuto ho scaricato il video (un po’ “metallico”, ma interessante) con la mia immagine parlante e con le labbra del ritratto in sincrono con il parlato. Vuoi vedere l’effetto finale?

Il video del mio deep fake

Una volta scaricato il video da D-ID.com ho fatto un minimo di montaggio video, ed ecco il risultato:

Come ti sembra?

La combinazione di Eleven Labs e D-ID.com ha reso possibile la creazione del mio avatar parlante. Questi strumenti di IA non solo hanno ridotto i costi e il tempo necessario per la produzione video, ma hanno anche offerto una flessibilità e un controllo senza precedenti sul risultato finale. Con l’effetto “wow” dei video generati da IA, sono stato in grado di creare l’effetto wow!

 

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email

Come si crea un deep fake?

,

Il tema dei deep fake è letteralmente esploso, additato giustamente da molti come un’emergenza.

Faccio una premessa: nessuno aveva mai sentito questa espressione prima del 2018:

Ma cosa si intende per deep fake, letteralmente un “falso profondo”? Si tratta di una tecnica per la sintesi dell’immagine umana, basata sull’intelligenza artificiale, usata per manipolare e sovrapporre immagini e video originali con altre immagini e video fake, al fine di creare video falsi, contraffatti. Un esempio concreto? Qui fanno dire a Barak Obama cose che non ha mai detto, con la sua voce e con il volto che si muove naturalmente:

Esistono addirittura siti porno che usano i volti (si parla di face swap) e i corpi delle celebrità. In realtà questo lo può fare chiunque, per esempio con la app FaceMagic:

Come ho creato il deep fake di me stesso?

Per dimostrare quanto è facile creare dei deep fake, ho provato uno di questi strumenti su me stesso. Ho preso una mia immagine, un primo piano. E gli ho fatto cantare la Traviata. Ecco il risultato:

Impressionante, vero? Sai quanto tempo ci ho messo? Un paio di minuti. Ora ti racconto come.

Passo molto tempo in ascolto della rete (scusa per giustificare il mio cazzeggio sui social) e ultimamente sto trovando un sacco di spunti su TikTok, social che – a differenza di Instagram – non crea una tua bolla, ma ti mette sempre in contatto con account e contenuti nuovi. Casualmente, seguendo degli esperti tech, ho scoperto diversi tool di intelligenza artificiale interessanti. Insieme a strumenti quali, per esempio, Autodraw (tool che sfrutta l’A.I. per riconoscere automaticamente lo schizzo creato da una persona), mi sono imbattuto anche in Singing Portraits.

Come funziona Singing Portraits?

Il tool dei “ritratti cantanti”, in pratica, funziona così. Ti fai un selfie oppure scegli la foto (sotto i 10 Megapixel) che vuoi far cantare, quindi scegli la canzone tra quelle disponibili. Tra le altre, un bell’Happy birthday o un Feliz navidad, utilissime per mandare video di auguri originali…

A questo punto, il video viene elaborato automaticamente, ed è pronto in pochi secondi. Quindi puoi scaricarlo liberamente e farne quello che vuoi. Attenzione, però: con il piano gratuito si può creare una sola animazione. Eventualmente si possono anche comprare cinque animazioni per 5,99 dollari, oppure un abbonamento da 8 dollari al mese.

Buon deep fake!