Glossario essenziale di Intelligenza Artificiale Generativa: dal Machine Learning all’LLM

,

“Navigare nel mondo dell’intelligenza artificiale generativa può sembrare un viaggio attraverso una giungla di termini tecnici e acronimi”: questa frase l’ha scritta ChatGPT. Ed è vera. Durante i miei corsi ho sentito l’esigenza di scrivere questo glossario essenziale sull’intelligenza artificiale generativa (ispirato a “The economic potential of generative AI: The next productivity frontier” di McKinsey) dove spiego i concetti fondamentali dell’IA generativa, dal machine learning e deep learning agli LLM, e altro ancora.

La nostra acqua

Prima di tuffarti nel glossario, leggi questa storiella raccontata a dei laureandi dallo scrittore americano David Foster Wallace:

Ci sono due giovani pesci che nuotano uno vicino all’altro e incontrano un pesce più anziano che, nuotando in direzione opposta, fa loro un cenno di saluto e poi dice “Buongiorno ragazzi. Com’è l’acqua?” I due giovani pesci continuano a nuotare per un po’, e poi uno dei due guarda l’altro e gli chiede “ma cosa diavolo è l’acqua?”

Perché l’ho riportata? Lo faccio spiegare a ChatGPT:

Ecco il glossario promesso in ordine alfabetico.

AGI (Artificial General Intelligence)

Forma ipotetica di intelligenza artificiale in grado di svolgere qualsiasi compito cognitivo umano. Diversamente dagli attuali modelli specializzati, l’AGI saprebbe apprendere, ragionare e adattarsi come (o meglio di) un essere umano. “Attualmente, non esiste una vera e propria AGI, ma sono in corso attività di ricerca e sviluppo in tal senso”: parola di Google.

Agente

Sistema autonomo che può compiere operazioni complesse per conto di un utente, combinando LLM, strumenti e memoria. Può prenotare voli, risolvere problemi tecnici o generare report, tutto in autonomia. Si inizia a vedere qualcosa di interessante: per esempio Manus.

Alignment

Allineamento tra gli obiettivi del sistema AI e i valori umani. È cruciale per evitare che un’AI agisca in modo dannoso, anche senza intenzioni malevole.

Allucinazione (Hallucination)

Quando l’AI inventa: un modello genera contenuti plausibili ma falsi. È uno dei principali problemi dei LLM attuali.
Un esempio raccontato da Wired: un avvocato fiorentino ha presentato in tribunale una memoria difensiva contenente sentenze della Cassazione inesistenti, generate da ChatGPT e non verificate. Il giudice ha riconosciuto l’errore ma, rilevando l’assenza di malafede, ha rigettato la richiesta di condanna per lite temeraria, sottolineando comunque l’importanza del controllo umano sull’uso dell’IA in ambito legale.

Application Programming Interface (API)

L’interfaccia di programmazione delle applicazioni (API) è un modo per accedere in modo programmatico a modelli, set di dati o altri software, solitamente esterni. In parole povere, se voglio usare la potenza di ChatGPT sul mio sito, devo accedervi grazie alle API.

Apprendimento supervisionato (Supervised learning)

Metodo in cui l’AI apprende da dati etichettati, cioè con input associati a output corretti. È il cuore di molte applicazioni AI tradizionali.

Apprendimento non supervisionato (Unsupervised learning)

Tecnica in cui il modello cerca pattern nei dati senza che gli siano stati forniti esempi etichettati.

Apprendimento per rinforzo (Reinforcement learning)

L’AI apprende agendo in un ambiente e ricevendo ricompense o punizioni. È usato, per esempio, per addestrare agenti in giochi o robotica.

Apprendimento self-supervised

L’AI genera le etichette da sola a partire dai dati, permettendo l’uso di grandi dataset non etichettati.

Artificial Intelligence (AI)

L’intelligenza artificiale (IA o AI in inglese) è la capacità del software di eseguire compiti che richiedono tradizionalmente l’intelligenza umana. Se ne parla dalla metà del Novecento:

Catena di pensiero (Chain of thought)

Tecnica di prompting che incoraggia il modello a “pensare ad alta voce”, suddividendo un problema in passaggi logici. Migliora le prestazioni nei compiti complessi.

Contesto (Context window)

Quantità di testo che un modello può considerare contemporaneamente. Modelli come GPT-4o arrivano a gestire decine di migliaia di token. Per un’elaborazione ancora più estesa, OpenAI ha introdotto GPT-4.1, che offre una finestra di contesto fino a 1 milione di token . Tuttavia, GPT-4.1 è disponibile solo tramite l’API di OpenAI e non è ancora integrato in ChatGPT.

Deep Learning

Il deep learning è un sottoinsieme del machine learning (che a sua volta è un sottoinsieme dell’intelligenza artificiale) che utilizza reti neurali profonde, strati di “neuroni” connessi i cui collegamenti hanno parametri o pesi che possono essere addestrati. È particolarmente efficace nell’apprendimento da dati non strutturati come immagini, testi e audio. Facciamo un esempio: Netflix che ti propone show che potrebbero piacerti è machine learning. ChatGPT che inventa testi originali è deep learning.

Deepfake

Contenuto (audio, video, immagini) generato dall’AI per imitare una persona reale. Potenzialmente usato per truffe, disinformazione, o arte.
Uno degli esempi più clamorosi di deepfake è il finto video di Barack Obama creato da Jordan Peele nel 2018, che ancora oggi viene citato come caso scuola.

Embedding

Rappresentazione numerica di parole, frasi o documenti in uno spazio vettoriale. Permette all’AI di “capire” il significato semantico dei testi.

Explainability (Explainable AI)

Capacità di un sistema di spiegare in modo comprensibile le sue decisioni. Fondamentale in ambiti sensibili come sanità, giustizia o finanza.

Few-shot learning

Capacità di apprendere da pochi esempi. È uno dei punti di forza dei modelli di ultima generazione.

Filtro sicurezza (AI Safety Filter)

Sistema che blocca output potenzialmente pericolosi o non etici. Serve a ridurre l’abuso dell’AI, ma può anche limitare la libertà espressiva.
Un esempio clamoroso e concreto di filtro di sicurezza attivo in un sistema di intelligenza artificiale è il caso delle restrizioni di ChatGPT nel generare istruzioni per la costruzione di esplosivi, anche in forma teorica.

Fine-Tuning

Letteralmente la “messa a punto fine” è il processo di adattamento di un modello di base pre-addestrato per eseguire meglio un compito specifico. Questo comporta un periodo relativamente breve di addestramento su un set di dati etichettati, che è molto più piccolo del set di dati su cui il modello è stato inizialmente addestrato. Questo ulteriore addestramento permette al modello di apprendere e adattarsi alle sfumature, alla terminologia e ai modelli specifici trovati nel set di dati più piccolo.

Foundation Model (FM)

I modelli di base (FM) sono modelli di deep learning addestrati su enormi quantità di dati non strutturati e non etichettati che possono essere utilizzati per una vasta gamma di compiti direttamente o adattati a compiti specifici attraverso il fine-tuning. Esempi di questi modelli sono GPT-4, PaLM, DALL·E 2 e Stable Diffusion.

Generative AI

L’IA generativa è un’intelligenza artificiale che è tipicamente costruita utilizzando FM e ha capacità che l’IA precedente non aveva, come il generare contenuti: testi, post, audio, video, ecc. Ma non solo. I modelli di base possono anche essere utilizzati per scopi non generativi (per esempio, classificare il “sentiment” dell’utente come negativo o positivo sulla base delle trascrizioni delle chiamate) offrendo un miglioramento significativo rispetto ai modelli precedenti. Un esempio concreto: un’azienda di e-commerce, mettiamo Amazon, potrebbe utilizzare l’AI per generare raccomandazioni personalizzate di prodotti in base al comportamento passato del cliente, alle preferenze e ad altri dati pertinenti. Questo può migliorare l’engagement del cliente, aumentare le vendite e creare un’esperienza più soddisfacente per l’utente.

Graphics Processing Units (GPUs)

Le unità di elaborazione grafica (GPU) sono chip originariamente sviluppati per produrre grafica per computer (per esempio per i videogiochi) e sono anche utili per le applicazioni di deep learning. In contrasto, il machine learning tradizionale di solito viene eseguito su unità di elaborazione centrale (CPU), normalmente indicate come il “processore” di un computer.

Negli ultimi tempi si parla molto dell’esplosione del valore dell’azienda Nvidia, proprio per la continua crescita della domanda di processori per gestire le piattaforme di machine learning.

Inference

Fase in cui il modello produce un output. Dopo l’addestramento, è il momento in cui l’AI “risponde” o genera contenuti.

Large Language Model (LLM)

I modelli di linguaggio di grandi dimensioni (LLM) costituiscono una classe di modelli di base che possono elaborare enormi quantità di testo non strutturato e apprendere le relazioni tra parole o parti di parole, noti come token. Questo permette agli LLM di generare testo in linguaggio naturale, eseguendo compiti come la sintesi o l’estrazione di conoscenze. GPT-4 (che sottende ChatGPT) e LaMDA (il modello dietro Bard di Google) sono esempi di LLM.

Una LLM molto interessante è Alpaca, progetto dell’università di Stanford. Con 7 miliardi di parametri, Alpaca offre performance paragonabili a text-davinci-003 di OpenAI, ma con costi di gestione notevolmente ridotti. Sorprendentemente, il modello può funzionare su un comune PC con 16 GB di RAM e una CPU da 6-8 core, rendendo l’IA avanzata più accessibile. Mentre i modelli più grandi richiedono più RAM, le esigenze di Alpaca rimangono al di sotto di un supercomputer.

Personalmente ho fatto un esperimento: ho installato un LLM sul mio computer. Ecco come è andata:

Machine Learning (ML)

Il machine learning (ML) è un sottoinsieme dell’IA in cui un modello acquisisce capacità dopo essere stato addestrato su molti punti dati di esempio. Gli algoritmi di machine learning rilevano i modelli e apprendono come fare previsioni e raccomandazioni elaborando dati ed esperienze, oppure ricevendo istruzioni di programmazione esplicite. Gli algoritmi si adattano in risposta a nuovi dati ed esperienze.

Ho già fatto l’esempio delle raccomandazioni personalizzate di Netflix, ne riporto un altro. Le banche e le società di carte di credito usano il machine learning per identificare modelli di comportamento sospetti che potrebbero indicare frodi. Per esempio, se la tua carta di credito viene improvvisamente utilizzata in un altro paese per fare acquisti molto costosi, il sistema può rilevare questa anomalia e bloccare ulteriori transazioni per prevenire frodi. Lo stesso meccanismo si usa per l’anti-spam:

Multimodal AI

Modello che integra diverse modalità di input: testo, immagini, audio, video. È il futuro dell’interazione uomo-macchina.

Overfitting

Problema statistico in cui un modello si adatta troppo ai dati di training, perdendo la capacità di generalizzare.

Prompt Engineering

L’ingegneria del prompt si riferisce al processo di progettazione, affinamento e ottimizzazione dei prompt di input per guidare un modello di IA generativo verso la produzione di output desiderati (cioè accurati). Ho creato il metodo G.O.L. per dare uno schema nella creazione di buoni prompt:

Prompt injection

Attacco in cui si manipola un prompt (o un’istruzione) per indurre il modello a produrre output non previsti, potenzialmente dannosi.

Retrieval-Augmented Generation (RAG)

Tecnica che combina AI generativa con un sistema di ricerca documentale, per aumentare l’accuratezza e l’aggiornamento delle risposte.
Immagina uno studio legale che usa un assistente basato su intelligenza artificiale per rispondere alle domande giuridiche dei clienti. Questo assistente non si affida solo alla memoria del modello (come GPT), ma accede in tempo reale a documenti legali interni (es. sentenze, contratti, normativa aggiornata).

Structured Data

I dati strutturati sono dati tabulari (per esempio, organizzati in tabelle, database o fogli di calcolo) che possono essere utilizzati per addestrare efficacemente alcuni modelli di machine learning. Lavorando su diversi progetti di AI personalizzata, mi sono reso conto che quello che fa davvero la differenza è la qualità del dato usato per addestrare la macchina: ideale sarebbe avere file di testo e PDF “puliti”.

Token

Un token è una unità minima di testo che i modelli linguistici (come quelli di OpenAI) usano per elaborare l’input e generare output. Un token può essere una parola intera, una parte di parola (es. “informatica” può essere divisa in più token), oppure un simbolo (come la punteggiatura). Ad esempio:

"ciao" = 1 token

"intelligenza artificiale" = 3 token

"L'AI è potente!" = 6 token

La suddivisione dipende dal tokenizer usato (vedi Tokenizer di OpenAI).

Transformer

Transformer è un tipo di modello di apprendimento automatico, spesso utilizzato nell’elaborazione del linguaggio naturale (NLP), la tecnologia che consente alle macchine di capire, rispondere e interagire con il linguaggio umano. Questi modelli sono chiamati “transformer” perché “trasformano” le informazioni di input (ad esempio, un testo scritto) in output (ad esempio, una traduzione di quel testo, una risposta a una domanda, ecc.) attraverso una serie di calcoli matematici. All’interno di un Transformer, ci sono due parti principali: l’encoder, che legge e interpreta l’input, e il decoder, che genera l’output. Ad esempio, se stai traducendo dall’italiano all’inglese, l’encoder leggerà e interpreterà l’italiano, e il decoder genererà l’equivalente inglese.

Un aspetto chiave dei modelli Transformer è l’attenzione, o “self-attention”, che permette al modello di dare più importanza a certe parole o frasi durante la traduzione o risposta. Ad esempio, se stai traducendo una frase come “Il gatto ha mangiato il suo cibo”, il modello potrebbe dare più importanza alla parola “gatto” perché è il soggetto della frase.

Inoltre, i modelli Transformer possono gestire input di lunghezze diverse e mantenere informazioni da tutte le parti dell’input, il che li rende molto utili per compiti come la traduzione, la generazione di testo e altre attività di NLP. Un esempio famoso di un modello Transformer è GPT (Generative Pretrained Transformer).

Use Case

I casi d’uso sono applicazioni mirate a una specifica sfida aziendale che producono uno o più risultati misurabili. Ad esempio, nel marketing, l’IA generativa potrebbe essere utilizzata per generare contenuti creativi come email personalizzate.

Unstructured Data

I dati non strutturati mancano di un formato o di una struttura coerente (per esempio: testo, immagini e file audio) e richiedono di solito tecniche più avanzate per estrarre intuizioni. Ma anche da questo punto di vista i passi avanti sono notevoli. Per esempio qui ho raccontato l’esperimento di LLaVa:

Zero-shot learning

Capacità del modello di affrontare un compito mai visto prima, basandosi solo sulla generalizzazione e su prompt ben costruiti.

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email

0 commenti

Lascia un Commento

Vuoi partecipare alla discussione?
Sentitevi liberi di contribuire!

Lascia un commento