Articoli

Mi sono fatto un deep fake da solo: come mi sono clonato voce e immagine

, ,

Si parla da molto tempo di digital twin: il “gemello digitale” è una replica digitale di un oggetto, sistema o processo del mondo reale. O, se vogliamo, anche di una persona (in realtà il vero digital twin è praticamente autonomo) anche se in quel caso sarebbe più opportuno parlare di “second brain”.
Ora, con gli strumenti di intelligenza artificiale a disposizione di tutti, è possibile “clonarsi”, creare un avatar con la nostra faccia e la nostra voce, che fa e dice cose che non abbiamo mai fatto né detto. Rovescio della medaglia: i deep fake, vale a dire video o audio manipolati che utilizzano l’IA per creare l’illusione che determinate azioni o discorsi siano stati eseguiti da persone reali. Il termine “deepfake” è una combinazione di “deep learning” (un sottocampo dell’IA) e “fake”, che indica qualcosa di falso o ingannevole. Un esempio? Zelensky che si arrende a Putin.

Per comprende meglio il meccanismo, mi sono creato un deep fake da solo. Ecco come ho fatto, passo per passo.

Eleven Labs: generatore di Voci basato sull’IA

Prima di tutto dovevo clonarmi la voce. Per questo ho usato Eleven Labs: l’azienda newyorkese ha creato un modello generativo che consente di progettare da zero voci artificiali. In altre parole, è possibile generare voci personalizzate che non corrispondono a nessuna voce esistente. Oppure, ed è questo che ci interessa, è possibile dare allo strumento in pasto dei campioni della propria voce per “clonarla”, per generare una voce sintetica con stesse caratteristiche (estensione, timbro, intensità, tono, stile, ecc.). L’ho fatto. Ho preso 15 file audio contenenti la registrazione della mia voce e li ho dato in pasto all’algoritmo.

Una volta clonata la mia voce, sono passato alla sezione “Speech Synthesis” (in pratica “sintesi vocale”) e ho scritto il testo per l’avatar. Un testo breve, da 500 caratteri per un parlato da circa mezzo minuto. A quel punto il “text to speech” ha fatto il suo dovere e ho scaricato il file audio del mio parlato virtuale.

 

A quel punto mi serviva un avatar parlante.

D-ID.com: creazione di Avatar Realistici con AI

D-ID.com è una piattaforma Web che utilizza l’animazione facciale in tempo reale e il text-to-speech avanzato per creare esperienze di intelligenza artificiale conversazionale immersive, simili a quelle reali. Utilizzando D-ID, ho caricato una foto di me stesso (avrei potuto usare anche il mio avatar) e ho poi personalizzato la mia animazione caricando il file audio.

A quel punto non ho fatto altro che aspettare la magia. Dopo qualche minuto ho scaricato il video (un po’ “metallico”, ma interessante) con la mia immagine parlante e con le labbra del ritratto in sincrono con il parlato. Vuoi vedere l’effetto finale?

Il video del mio deep fake

Una volta scaricato il video da D-ID.com ho fatto un minimo di montaggio video, ed ecco il risultato:

Come ti sembra?

La combinazione di Eleven Labs e D-ID.com ha reso possibile la creazione del mio avatar parlante. Questi strumenti di IA non solo hanno ridotto i costi e il tempo necessario per la produzione video, ma hanno anche offerto una flessibilità e un controllo senza precedenti sul risultato finale. Con l’effetto “wow” dei video generati da IA, sono stato in grado di creare l’effetto wow!

 

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email

Parla con il mio chatbot: chiedi quello che vuoi sui miei libri

,

Da qualche anno tengo corsi sull’A.I. generativa, ma è dall’esplosione di ChatGPT alla fine del 2022, che ho iniziato a sperimentare quotidianamente chatbot, generatori di testi e altro. Sto testando diversi chatbot, soprattutto alimentandoli con i miei contenuti. In questo caso ho dato in pasto a Dante AI una ventina di miei libri (da Questo titolo spacca a Musica Liquida, da Anche i nerd nel loro piccolo sghignazzano a Guida calcistica di LinkedIn), lui li ha digeriti e ora puoi interrogarlo su tutti quei contenuti. Qualche esempio di domanda che puoi fargli? Eccoli:

  • Leggimi 5 battute tecnologiche
  • Che cosa si intende per LinkedIn SEO?
  • Come posso scrivere titoli online più efficaci?

Parla con il mio chatbot

Ed ecco il mio chatbot a tua completa disposizione. Interrogalo in italiano (ma anche in altre lingue) in “Write your message”.

I tool per clonarsi

Stavo testando diversi strumenti per creare chatbot personalizzati (per esempio whismer.com oppure igenius.ai) quando mi sono imbattuto negli ottimi Dante AI e ChatBase. Il chatbot che vedi sopra è di ChatBase. Ora ti mostro come creare una cosa simile anche con Dante.
La promessa nella home page di Dante era intrigante: “Chatbot basato su GPT personalizzato e alimentato con i tuoi dati. Zero programmazione. Condividilo sul tuo sito in pochi minuti”.

 

Sembrava un miraggio poter creare, addestrare e implementare un chatbot personalizzato in soli cinque minuti, ma così è stato. Questo strumento basato sull’intelligenza artificiale (e ChatGPT) consente a chiunque, indipendentemente dalle competenze tecniche, di realizzare una chatbot su misura in pochi e semplici passaggi. Cosa che, fino allo scorso anno, avrebbe richiesto un team di sviluppatori e costi nell’ordine delle decine di migliaia di euro. Tra l’altro, Dante permette agli utenti più esperti di integrare il chatbot personalizzato in una serie di altre applicazioni o piattaforme, come questo sito WordPress.

Una nota per chi volesse provarlo: Dante offre un piano gratuito che dà agli utenti accesso al modello GPT-3.5-Turbo, insieme a 30 crediti/messaggio al mese. Dante offre anche piani a pagamento a partire da soli 10 dollari al mese: il piano che ho sottoscritto io (ma che non mi consente di personalizzare il chatbot che vedi qui sotto).

Il training per la knowledge base

Con Dante, gli utenti possono addestrare il chatbot utilizzando una vasta gamma di tipi di dati. È possibile alimentarla con vari formati di file, siti web, immagini e video, creando così una base di conoscenza adattata alle specifiche esigenze. Io ho scelto i miei libri.

Per istruire il chatbot di Dante AI gli ho fornito la versione DOC dei miei testi (che promettono di salvare in “secure and encrypted AWS servers”, vedi FAQ). Usare documenti “puliti”, e non PDF con impaginazioni “rognose”, è sempre meglio. La procedura di caricamento dei documenti nella knowledge base è semplicissima, basta prendere i file e trascinarli sul sito. Anche il training sui contenuti dura pochissimi secondi, dopo i quali il sistema è in grado di rispondere, in modo evoluto, a qualsiasi domanda riguardante i contenuti caricati. Può rispondere anche ad altre domande non pertinenti (tipo “Come si fa una pizza col cornicione ripieno?”), come farebbe ChatGPT (il cui motore sta alla base di Dante AI), ma il valore aggiunto del io chatbot sta ovviamente nella conoscenza specifica.

Ecco qui la schermata che conferma la conclusione del training sui miei dati:

Ecco qui invece il prompt che Dante AI usa per interrogare quella base di dati:

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email