4 punti di discussione dalla vittoria dei Miami Heat sui Denver Nuggets in Gara 2 delle finali NBA
Jun 07, 2023I 6 migliori dispositivi di protezione da sovratensione e prese multiple del 2023, secondo gli esperti
Oct 24, 2023Il litio ACME accelera per il test di pompaggio dopo l'installazione del pozzo di prova TW
May 24, 2023L'evento Relay for Life dell'American Cancer Society al DeBartolo Commons a Boardman, Ohio, include cena e crociera in auto
Apr 13, 2023Amie Just: staffetta "Cenerentola" del Nebraska; notizie strazianti su Hoffman; aggiornamento degli escursionisti
Apr 17, 2023I Vision Transformers superano le sfide con la nuova patch
Pubblicato
SU
Di
Le tecnologie di intelligenza artificiale (AI), in particolare i Vision Transformers (ViT), hanno mostrato enormi promesse nella loro capacità di identificare e classificare gli oggetti nelle immagini. Tuttavia, la loro applicazione pratica è stata limitata da due sfide significative: gli elevati requisiti di potenza computazionale e la mancanza di trasparenza nel processo decisionale. Ora, un gruppo di ricercatori ha sviluppato una soluzione rivoluzionaria: una nuova metodologia nota come "attenzione Patch-to-Cluster" (PaCa). PaCa mira a migliorare le capacità dei ViT nell'identificazione, classificazione e segmentazione degli oggetti immagine, risolvendo contemporaneamente i problemi di lunga data delle richieste computazionali e della chiarezza del processo decisionale.
I trasformatori, grazie alle loro capacità superiori, sono tra i modelli più influenti nel mondo dell'intelligenza artificiale. La potenza di questi modelli è stata estesa ai dati visivi attraverso ViT, una classe di trasformatori addestrati con input visivi. Nonostante l'enorme potenziale offerto dai ViT nell'interpretazione e comprensione delle immagini, sono stati frenati da un paio di problemi importanti.
Innanzitutto, a causa della natura delle immagini contenenti grandi quantità di dati, i ViT richiedono una notevole potenza di calcolo e memoria. Questa complessità può essere schiacciante per molti sistemi, soprattutto quando si gestiscono immagini ad alta risoluzione. In secondo luogo, il processo decisionale all’interno dei ViT è spesso contorto e opaco. Gli utenti hanno difficoltà a comprendere il modo in cui i ViT differenziano i vari oggetti o caratteristiche in un'immagine, il che è fondamentale per numerose applicazioni.
Tuttavia, l’innovativa metodologia PaCa offre una soluzione a entrambe queste sfide. "Affrontiamo la sfida relativa alle esigenze computazionali e di memoria utilizzando tecniche di clustering, che consentono all'architettura del trasformatore di identificare e mettere a fuoco meglio gli oggetti in un'immagine", spiega Tianfu Wu, autore corrispondente di un articolo sul lavoro e professore associato di Ingegneria elettrica e informatica presso la North Carolina State University.
L'uso di tecniche di clustering in PaCa riduce drasticamente i requisiti computazionali, trasformando il problema da un processo quadratico a uno lineare gestibile. Wu spiega ulteriormente il processo: "Grazie al clustering, siamo in grado di renderlo un processo lineare, in cui ogni unità più piccola deve essere confrontata solo con un numero predeterminato di cluster".
Il clustering serve anche a chiarire il processo decisionale nei ViT. Il processo di formazione dei cluster rivela come il ViT decide quali caratteristiche sono importanti nel raggruppare insieme sezioni dei dati dell'immagine. Poiché l'intelligenza artificiale crea solo un numero limitato di cluster, gli utenti possono facilmente comprendere ed esaminare il processo decisionale, migliorando significativamente l'interpretabilità del modello.
Attraverso test approfonditi, i ricercatori hanno scoperto che la metodologia PaCa supera gli altri ViT su diversi fronti. Wu spiega: "Abbiamo scoperto che PaCa ha sovraperformato SWin e PVT in ogni modo". Il processo di test ha rivelato che PaCa eccelleva nella classificazione e identificazione degli oggetti all'interno delle immagini e nella segmentazione, delineando in modo efficiente i confini degli oggetti nelle immagini. Inoltre, si è rivelato più efficiente in termini di tempo, poiché esegue le attività più rapidamente rispetto ad altri ViT.
Incoraggiato dal successo di PaCa, il gruppo di ricerca mira a favorirne lo sviluppo addestrandolo su set di dati fondamentali più ampi. In tal modo, sperano di ampliare i confini di ciò che è attualmente possibile con l’intelligenza artificiale basata sulle immagini.
Il documento di ricerca, "PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers", sarà presentato alla prossima conferenza IEEE/CVF sulla visione artificiale e il riconoscimento dei modelli. Si tratta di un traguardo importante che potrebbe aprire la strada a sistemi di intelligenza artificiale più efficienti, trasparenti e accessibili.
Leader tecnologici che evidenziano i rischi dell'intelligenza artificiale e l'urgenza di una solida regolamentazione dell'intelligenza artificiale
Alex McFarland è uno scrittore brasiliano che tratta gli ultimi sviluppi dell'intelligenza artificiale. Ha lavorato con le principali aziende e pubblicazioni di intelligenza artificiale in tutto il mondo.