Come anonimizzare i documenti prima di darli in pasto all’AI

, ,

C’è una scena che ormai vedo ovunque nei corsi: qualcuno carica un PDF su ChatGPT o su un altro strumento AI e dice “fammi un riassunto”. Domanda: cosa c’era dentro quel PDF? Nome, cognome, codice fiscale, partita IVA, email, indirizzi, magari dei clienti. E a quel punto non stai più usando l’AI: stai regalando dati personali.

Il problema non è l’AI. È come la usi

L’intelligenza artificiale è uno strumento straordinario. Ma ha una caratteristica che spesso ignoriamo:
non distingue tra dato utile e dato sensibile. Se carichi un documento “sporco”, lei lo elabora comunque.

E qui nasce il rischio:

  • violazioni GDPR
  • perdita di controllo sui dati
  • condivisione involontaria di informazioni riservate
  • esposizione di clienti, fornitori, dipendenti

Non è paranoia. È igiene digitale di base.

La regola aurea: prima anonimizza, poi usa l’AI

Dovrebbe essere una procedura standard, come lavarsi le mani prima di operare.

Prima di caricare qualsiasi documento su un sistema AI:

  • rimuovi nomi e cognomi
  • cancella email e numeri di telefono
  • elimina codici fiscali, P.IVA, IBAN
  • oscura indirizzi e riferimenti geografici precisi

Se non lo fai, stai creando un problema. Non subito. Ma prima o poi.

Caso pratico: redactpdf.io

Dalle immagini che hai raccolto emerge uno strumento interessante: redactpdf.io.

Funziona così:

  • carichi il documento
  • il sistema individua automaticamente i dati sensibili
  • tu verifichi le modifiche
  • scarichi il PDF anonimizzato

Semplice.

Nella versione gratis si può caricare un solo documento alla volta (da 25 pagine), massimo 5 Mb.

È sicuro?

Lo strumento dichiara:

  • crittografia dei documenti
  • elaborazione lato browser o in ambiente sicuro
  • nessun uso di AI di terze parti
  • server in Europa
  • cancellazione immediata dei file dopo il download
  • nessun account richiesto

Tradotto: privacy by design.

Il punto critico che molti ignorano

“Uso uno strumento sicuro, quindi sono a posto”.

Non è così.

Il vero problema non è lo strumento. È il processo.

Se tu:

  • carichi il file sbagliato
  • dimentichi un dato sensibile
  • non controlli l’output

hai già perso. L’AI aiuta, ma non sostituisce la responsabilità umana.

Alternativa più robusta: lavorare in locale

Se lavori con dati sensibili (aziende, PA, sanità), la domanda è un’altra:

Ha senso usare strumenti online?

Spesso la risposta è no.

Qui entra in gioco un approccio più solido, come quello di Microsoft Presidio, un framework open source progettato per:

  • rilevare dati personali (PII)
  • anonimizzare testi e documenti
  • lavorare su dati strutturati e non
  • funzionare in ambienti controllati (anche on-premise)

Non è plug-and-play come redactpdf.io. Ma è molto più governabile. E quando gestisci dati veri, la governance vale più della comodità.

Workflow consigliato (quello che spiego nei corsi)

Ti propongo una procedura concreta, replicabile subito:

  1. Classifica il documento
    • contiene dati personali?
    • contiene dati sensibili?
    • contiene segreti aziendali?
  2. Scegli il livello di protezione
    • basso rischio → tool online
    • medio rischio → tool verificati + revisione manuale
    • alto rischio → solo strumenti locali
  3. Anonimizza
    • automatico (AI)
    • manuale (controllo umano)
  4. Verifica
    • rilettura completa
    • ricerca di pattern (email, numeri, nomi)
  5. Solo ora usa l’AI

Questo è il punto:
l’AI è l’ultimo passo, non il primo.

Una domanda scomoda (ma necessaria)

Se quel documento finisse online domani, cosa succederebbe?

Se la risposta è “nulla”, sei tranquillo.

Se la risposta è “un problema”, allora devi cambiare processo.

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email

0 commenti

Lascia un Commento

Vuoi partecipare alla discussione?
Sentitevi liberi di contribuire!

Lascia un commento