LLaVA: l’intelligenza artificiale che riconosce le immagini e chatta

, ,

ChatGPT è una killer application, ma non è l’unico strumento di intelligenza artificiale da effetto wow. Da Midjourney (immagini da input testuale) a Beautiful.ai (presentazioni automatiche), da Algor (mappe mentali create dall’AI) a Humata (chattare con i propri PDF) sono tanti gli strumenti che ci stanno mostrando le potenzialità, spesso ancora in nuce, dell’intelligenza artificiale alla portata di tutti. Ma sempre a proposito di effetto meraviglia, in questo articolo ti voglio parlare di LLaVA e quindi di computer vision.

Che cos’è LLaVA?

LLaVA è un progetto gratis per uso non commerciale e open source di Microsoft, sviluppato con due importanti università americane. L’acronimo sta per “Large Language and Vision Assistant”: si tratta di un modello multimodale, ovvero, al contrario di ChatGPT, può analizzare input non solo testuali. Nel caso specifico serve per interpretare le immagini. Va detto che anche GPT4 promette una cosa del genere, ma al momento abbiamo visto solo delle demo.
Come è stato istruito LLaVA? Il dataset di quasi 600.000 immagini è stato raccolto nell’aprile 2023, attraverso l’API GPT-4-0314 di OpenAI.

Tutto questo non è una novità. Da anni Facebook usa strumenti di riconoscimento delle immagini per classificarle. Guarda qui: basta andare nel codice della pagina Facebook per capire che applica etichette a tutte le foto caricate. In questo caso ha scambiato il mio avatar in un’altra persona…

Il funzionamento è molto semplice. Basta aprire il sito https://llava-vl.github.io, che non richiede registrazione. Poi è sufficiente caricare l’immagine da far analizzare dove c’è scritto “Drop image here or click to upload” e iniziare a chattare.

I test con LLaVA

Per comprendere le potenzialità dello strumento, ho fatto alcuni test. Ho caricato l’immagine presa durante un mio evento, un corso sui social. Ho chiesto a LLaVA di descriverne il contenuto. Risultato eccellente:

“Nell’immagine, un uomo è in piedi in una stanza piena di persone e a un grande schermo. Sembra che stia tenendo una presentazione o una lezione. Ci sono diverse persone sedute, alcune delle quali con un blocco sulle ginocchia, a indicare che stanno prendendo appunti e sono interessate.”

Ho proseguito sulla stessa strada. Ho caricato un’altra immagine simile: ho chiesto, questa volta in italiano, se riesce a capire qual è l’argomento dell’evento. Ha un indizio importante: il titolo del corso nella slide alle mie spalle. In effetti capisce che si parla di social e digital marketing, grazie all’OCR (riconoscimento ottico dei caratteri).

Con una slide è facile, ma ce la fa anche con gli appunti? Sì.
Va detto che questo la fa già molto bene anche Google Lens.

Nel riconoscere le immagini è bravino ma non ancora fenomenale (non sa leggere le ore di un orologio a lancette, per esempio). Ma ne comprende il senso? Se carico un’immagine divertente, sa perché fa ridere? In questo caso sì, ha capito che c’è qualcosa che non va nella capigliatura del lama.

Gli usi futuri

Quali potrebbero essere gli usi pratici, in futuro? Ne butto lì quattro, tra i tanti.

  • Riconoscimento delle immagini di prodotto per creare schede per gli e-commerce
  • Realizzazione di post e articoli a partire dalla foto di un evento
  • Telemedicina, per le diagnosi. Per esempio, c’è chi ha mostrato a LLaVA la radiografia di una frattura, e LLaVA ha capito quale osso era rotto.
  • Anticontraffazione

Scrivimi per organizzare un evento o un corso sull’intelligenza artificiale generativa

Scrivimi mandami un WhatsApp al 339.6325418 per organizzare un corso o una conferenza sull’A.I. generativa.

Inviaci email

 

0 commenti

Lascia un Commento

Vuoi partecipare alla discussione?
Fornisci il tuo contributo!

Lascia un commento