Me lo chiedono spesso, durante i corsi e le conferenze sull’intelligenza artificiale. Mentre ancora si chiacchiera alla fine della sessione, qualcuno si avvicina e mi fa la domanda vera: “Ma tutta questa roba tecnica – i token, gli embedding, il fine-tuning – devo davvero capirla?”. La risposta breve è: no, non devi diventare un ingegnere. Ma sì, capire cosa c’è sotto ti cambia il modo di usare questi strumenti. Ti rende più efficace, più consapevole.
Ho selezionato i 10 concetti che tornano sempre nelle mie formazioni sull’AI generativa: quelli che generano più confusione, ma anche più soddisfazione quando si capiscono davvero.
1. Token e Tokenizzazione: il segreto che ChatGPT non dice al primo incontro
Quando scrivi un prompt, il modello non legge parole. Legge token: frammenti di testo che possono essere parole intere, parti di parola, o persino singoli caratteri. La parola “Intelligenza” potrebbe diventare tre o quattro token diversi.
Perché conta? Perché i modelli hanno un limite di token per conversazione (il cosiddetto context window), e perché il costo delle API si calcola in token. Ma soprattutto perché capire la tokenizzazione aiuta a costruire prompt migliori: parole rare, termini tecnici o nomi stranieri vengono “sminuzzati” in più token, e questo può influenzare la qualità della risposta.
In pratica: più il tuo linguaggio è preciso e comune, meglio il modello ti capisce.
2. Attention Mechanism e Transformer: cosa fa davvero la macchina quando “pensa”
L’architettura Transformer è la base di quasi tutti i modelli linguistici moderni – da GPT a Gemini, da Claude a Mistral. Il suo cuore è il meccanismo di attention (attenzione): la capacità del modello di valutare quali parole di un testo sono più rilevanti rispetto alle altre, in modo dinamico e contestuale.
Quando scrivi “ho lasciato le chiavi sulla tavola”, il modello capisce che tavola indica un tavolo e non una tavola tecnica, perché interpreta il contesto dato da “chiavi” e “lasciato”. Non applica regole grammaticali rigide: valuta le probabilità basandosi su schemi appresi durante l’addestramento.
È questo che rende i transformer così potenti – e così diversi dai sistemi basati su regole che li hanno preceduti.
3. Fine-Tuning e Transfer Learning: trasferire intelligenza da un dominio all’altro
Un modello base come GPT-5 è stato addestrato su enormi quantità di testo generico. Ma se un’azienda vuole un assistente specializzato nel diritto del lavoro, o un medico vuole un modello che parli il linguaggio della clinica, si fa il fine-tuning: si “aggiusta” il modello pre-addestrato su dati specifici del dominio.
Il Transfer Learning è il principio più ampio: si prende l’intelligenza acquisita in un contesto (milioni di pagine web) e la si trasferisce in un altro (contratti, cartelle cliniche, normative fiscali). È quello che rende possibile creare modelli specializzati senza partire da zero – il che richiederebbe risorse computazionali e finanziarie fuori dalla portata di chiunque.
Nelle mie formazioni, questo è il concetto che più interessa ai team IT: quando conviene fare fine-tuning, e quando è meglio usare un approccio diverso come il RAG (lo vediamo al punto 8).
4. Hallucination: quando la macchina mente con molta fiducia
Le allucinazioni sono forse il problema più noto dell’AI generativa – e il più frainteso. Il modello non “mente” nel senso umano del termine: non ha intenzione di ingannarti. Semplicemente, genera la sequenza di token statisticamente più probabile, anche quando quella sequenza corrisponde a informazioni false.
Il risultato sono risposte plausibili ma errate: citazioni di articoli che non esistono, date storiche sbagliate, nomi di persone inventati. Il modello le propone con lo stesso tono sicuro con cui ti direbbe il nome della capitale della Francia.
Questo è il motivo per cui non si usa l’AI come fonte primaria senza verifica. Ed è anche il motivo per cui capire le allucinazioni non serve a smettere di usare l’AI: serve a usarla nel modo giusto.
5. Temperature: la fisica del non-determinismo
Hai mai notato che lo stesso prompt, fatto più volte, produce risposte diverse? Non è un bug. È la temperature (temperatura): un parametro che regola quanto il modello è “creativo” o “deterministico” nelle sue scelte.
Temperature alta (vicino a 2): il modello sceglie token meno probabili, produce risposte più varie, creative, imprevedibili. Temperature bassa (vicino a 0): il modello sceglie quasi sempre il token più probabile, produce risposte più prevedibili, precise, ripetibili.
Nelle applicazioni professionali – analisi legali, revisioni contabili, assistenza medica – si preferisce temperatura bassa. Nelle applicazioni creative – brainstorming, scrittura, ideazione – si lavora con temperatura più alta. Scegliere consapevolmente questo parametro può fare una differenza enorme nei risultati.
6. Embedding: la geometria dei significati
Gli embedding sono rappresentazioni numeriche del significato. Ogni parola, frase o documento viene trasformato in un vettore – un punto nello spazio matematico – in modo che concetti semanticamente vicini siano anche geometricamente vicini.
L’esempio classico: nello spazio degli embedding, “re” – “uomo” + “donna” = “regina”. Non è magia: è geometria dei significati. È questo che permette ai motori di ricerca semantici di capire che “auto” e “automobile” sono sinonimi, o che una domanda su “come si cura il raffreddore” è pertinente rispetto a un documento che parla di “rimedi per i sintomi influenzali”.
Gli embedding sono alla base di molte applicazioni pratiche dell’AI nelle aziende: ricerca documentale, classificazione automatica, sistemi di raccomandazione.
7. Chain of Thought Prompting: insegnare alla macchina a ragionare passo per passo
I modelli linguistici fanno errori nei ragionamenti complessi se gli si chiede direttamente la risposta finale. Ma se li si invita a “pensare ad alta voce” – a esplicitare i passaggi intermedi – le performance migliorano significativamente.
Questa tecnica si chiama Chain of Thought (CoT): invece di chiedere “Quanto fa 347 × 28?”, si chiede “Risolvi passo per passo: prima calcola le centinaia, poi le decine, poi le unità”. Il risultato è molto più accurato.
Applicato al mondo professionale: nei prompt per analisi complesse, revisioni di documenti o valutazioni strategiche, chiedere al modello di esplicitare il ragionamento riduce gli errori e rende il processo verificabile. È uno dei consigli pratici che porto sempre nelle mie sessioni di formazione sul prompt engineering.
8. RAG – Retrieval Augmented Generation: quando la macchina va a cercare (e non allucina)
Il RAG è la soluzione più elegante al problema delle allucinazioni per applicazioni aziendali. Invece di chiedere al modello di “ricordare” informazioni apprese durante il training (che potrebbero essere obsolete o errate), si costruisce un sistema che recupera i documenti pertinenti da una base di conoscenza verificata, e li fornisce al modello come contesto prima della risposta.
In pratica: vuoi un chatbot che risponda solo in base ai tuoi manuali interni, ai tuoi contratti, alle tue policy aziendali? Non fai fine-tuning. Fai RAG. Il modello legge i tuoi documenti in tempo reale e risponde basandosi su quelli.
Il RAG è oggi la tecnologia più richiesta nelle implementazioni enterprise di AI. L’ho visto applicare con grande efficacia in aziende di tutti i tipi, dalla manifattura ai servizi professionali. Per esempio, NotebookLM è considerato un ottimo strumento RAG.
9. Bias in AI Generativa: le discriminazioni che insegniamo senza volerlo
I modelli imparano dai dati. E i dati umani contengono bias: stereotipi di genere, pregiudizi culturali, squilibri di rappresentazione. Il risultato è che un modello addestrato su testi scritti prevalentemente da uomini occidentali tende a riprodurre e amplificare quella prospettiva.
I bias nell’AI non sono un problema teorico o futuristico: si manifestano oggi, nei sistemi di selezione del personale che favoriscono certi profili, nei traduttori automatici che assegnano generi grammaticali basandosi su stereotipi, nei motori di ricerca che mostrano certi volti per certe query.
Capire i bias non significa rinunciare all’AI. Significa scegliere strumenti più equi, progettare sistemi più consapevoli, e sapere quando i risultati di un modello vanno verificati con un occhio critico. È il tema che, nelle mie conferenze, genera sempre il dibattito più ricco.
10. Scaling Laws e il Cinese della Stanza: perché i modelli grandi sono più intelligenti (forse)
Le Scaling Laws descrivono una relazione empirica sorprendente: aumentando le dimensioni del modello (numero di parametri), la quantità di dati di training e la potenza computazionale, le performance migliorano in modo prevedibile e consistente. Questo ha guidato la corsa ai modelli sempre più grandi degli ultimi anni.
Ma qui entra in scena il Cinese della Stanza di John Searle: un celebre esperimento mentale che mette in discussione se questi sistemi “capiscano” davvero, o se stiano solo manipolando simboli secondo regole, senza alcuna comprensione reale. Una persona chiusa in una stanza con un manuale per rispondere in cinese sembra capire il cinese – ma non lo capisce affatto.
La questione non è risolta. E forse non lo sarà a breve. Ma è la domanda più importante che possiamo porci mentre questi sistemi diventano sempre più pervasivi: cosa significa davvero “intelligenza”?
Conoscere questi concetti non ti trasforma in uno scienziato. Ti trasforma in una persona che capisce cosa sta usando.
Non serve una laurea in informatica per usare bene l’AI generativa. Serve quella forma di curiosità consapevole che ti fa chiedere: come funziona davvero? Perché risponde così? Cosa non mi sta dicendo?
Nei miei corsi e conferenze sull’intelligenza artificiale – che tengo per aziende, scuole, associazioni di categoria e professionisti in tutta Italia – parto sempre da questi fondamentali. Perché chi capisce i meccanismi di base usa l’AI in modo più efficace, più critico, e con meno paura.
Se vuoi portare questa formazione nella tua organizzazione, scrivimi o contattami su WhatsApp al 339.6325418.
Domande frequenti sull’AI generativa e i suoi concetti chiave
Cosa sono i token nell’AI generativa?
I token sono le unità base con cui i modelli linguistici elaborano il testo. Non corrispondono necessariamente alle parole: una parola lunga o rara può essere suddivisa in più token. La tokenizzazione influenza la qualità delle risposte e il costo delle API.
Cos’è un’allucinazione nell’intelligenza artificiale?
Un’allucinazione è una risposta generata dal modello che appare plausibile ma contiene informazioni false. Il modello non “mente” intenzionalmente: produce la sequenza di token statisticamente più probabile, anche se errata. Per questo è essenziale verificare sempre le informazioni critiche.
Cosa significa RAG nell’AI?
RAG sta per Retrieval Augmented Generation. È una tecnica che combina la generazione linguistica con il recupero di documenti da una base di conoscenza verificata. Riduce le allucinazioni e permette di creare assistenti AI basati su documenti specifici dell’azienda o del dominio.
Cos’è la temperature nei modelli linguistici?
La temperature è un parametro che controlla la variabilità delle risposte. Con temperature alta le risposte sono più creative e imprevedibili; con temperature bassa sono più precise e deterministiche. Scegliere il valore giusto dipende dall’applicazione: creatività o precisione.
Dove posso seguire una formazione sull’AI generativa in Lombardia?
Tengo corsi e conferenze sull’intelligenza artificiale generativa per aziende, scuole e professionisti a Milano, Bergamo, Brescia e in tutta Italia. Per organizzare un evento formativo, è possibile contattarmi tramite il sito o WhatsApp al 339.6325418.
