banner
Casa / Blog / I Vision Transformers superano le sfide con la nuova patch
Blog

I Vision Transformers superano le sfide con la nuova patch

Dec 17, 2023Dec 17, 2023

Pubblicato

SU

Di

Le tecnologie di intelligenza artificiale (AI), in particolare i Vision Transformers (ViT), hanno mostrato enormi promesse nella loro capacità di identificare e classificare gli oggetti nelle immagini. Tuttavia, la loro applicazione pratica è stata limitata da due sfide significative: gli elevati requisiti di potenza computazionale e la mancanza di trasparenza nel processo decisionale. Ora, un gruppo di ricercatori ha sviluppato una soluzione rivoluzionaria: una nuova metodologia nota come "attenzione Patch-to-Cluster" (PaCa). PaCa mira a migliorare le capacità dei ViT nell'identificazione, classificazione e segmentazione degli oggetti immagine, risolvendo contemporaneamente i problemi di lunga data delle richieste computazionali e della chiarezza del processo decisionale.

I trasformatori, grazie alle loro capacità superiori, sono tra i modelli più influenti nel mondo dell'intelligenza artificiale. La potenza di questi modelli è stata estesa ai dati visivi attraverso ViT, una classe di trasformatori addestrati con input visivi. Nonostante l'enorme potenziale offerto dai ViT nell'interpretazione e comprensione delle immagini, sono stati frenati da un paio di problemi importanti.

Innanzitutto, a causa della natura delle immagini contenenti grandi quantità di dati, i ViT richiedono una notevole potenza di calcolo e memoria. Questa complessità può essere schiacciante per molti sistemi, soprattutto quando si gestiscono immagini ad alta risoluzione. In secondo luogo, il processo decisionale all’interno dei ViT è spesso contorto e opaco. Gli utenti hanno difficoltà a comprendere il modo in cui i ViT differenziano i vari oggetti o caratteristiche in un'immagine, il che è fondamentale per numerose applicazioni.

Tuttavia, l’innovativa metodologia PaCa offre una soluzione a entrambe queste sfide. "Affrontiamo la sfida relativa alle esigenze computazionali e di memoria utilizzando tecniche di clustering, che consentono all'architettura del trasformatore di identificare e mettere a fuoco meglio gli oggetti in un'immagine", spiega Tianfu Wu, autore corrispondente di un articolo sul lavoro e professore associato di Ingegneria elettrica e informatica presso la North Carolina State University.

L'uso di tecniche di clustering in PaCa riduce drasticamente i requisiti computazionali, trasformando il problema da un processo quadratico a uno lineare gestibile. Wu spiega ulteriormente il processo: "Grazie al clustering, siamo in grado di renderlo un processo lineare, in cui ogni unità più piccola deve essere confrontata solo con un numero predeterminato di cluster".

Il clustering serve anche a chiarire il processo decisionale nei ViT. Il processo di formazione dei cluster rivela come il ViT decide quali caratteristiche sono importanti nel raggruppare insieme sezioni dei dati dell'immagine. Poiché l'intelligenza artificiale crea solo un numero limitato di cluster, gli utenti possono facilmente comprendere ed esaminare il processo decisionale, migliorando significativamente l'interpretabilità del modello.

Attraverso test approfonditi, i ricercatori hanno scoperto che la metodologia PaCa supera gli altri ViT su diversi fronti. Wu spiega: "Abbiamo scoperto che PaCa ha sovraperformato SWin e PVT in ogni modo". Il processo di test ha rivelato che PaCa eccelleva nella classificazione e identificazione degli oggetti all'interno delle immagini e nella segmentazione, delineando in modo efficiente i confini degli oggetti nelle immagini. Inoltre, si è rivelato più efficiente in termini di tempo, poiché esegue le attività più rapidamente rispetto ad altri ViT.

Incoraggiato dal successo di PaCa, il gruppo di ricerca mira a favorirne lo sviluppo addestrandolo su set di dati fondamentali più ampi. In tal modo, sperano di ampliare i confini di ciò che è attualmente possibile con l’intelligenza artificiale basata sulle immagini.

Il documento di ricerca, "PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers", sarà presentato alla prossima conferenza IEEE/CVF sulla visione artificiale e il riconoscimento dei modelli. Si tratta di un traguardo importante che potrebbe aprire la strada a sistemi di intelligenza artificiale più efficienti, trasparenti e accessibili.

Leader tecnologici che evidenziano i rischi dell'intelligenza artificiale e l'urgenza di una solida regolamentazione dell'intelligenza artificiale

Alex McFarland è uno scrittore brasiliano che tratta gli ultimi sviluppi dell'intelligenza artificiale. Ha lavorato con le principali aziende e pubblicazioni di intelligenza artificiale in tutto il mondo.