Aiutare la visione artificiale e i modelli linguistici a comprendere ciò che vedono

Aiutare la visione artificiale e i modelli linguistici a comprendere ciò che vedono

I ricercatori utilizzano dati sintetici per migliorare la capacità dei modelli di cogliere informazioni concettuali, il che potrebbe migliorare i sistemi di didascalia automatica e di risposta alle domande.

Potente algoritmi di apprendimento automatico noti come modelli di visione e linguaggio, che imparano ad abbinare il testo alle immagini, hanno mostrato risultati notevoli quando è stato chiesto loro di generare didascalie o riassumere video.

I ricercatori del MIT hanno creato un nuovo set di dati sintetici annotati di immagini che descrivono un’ampia gamma di scenari, che possono aiutare i modelli di apprendimento automatico a comprendere i concetti in una scena.  Nella foto è raffigurata una scena dal set di dati sintetico e la descrizione testuale dettagliata dice: “Questa scena contiene una scatola e un essere umano.  Sono in rovina di un castello con vecchie pietre.  La scatola è a sinistra dell'umano.  La scatola è di fronte all'umano.  L'umano ruota il salto.  L'umano è maschio.  L’umano indossa una maglietta nera e jeans blu scuro”.

I ricercatori del MIT hanno creato un…

Aiutare la visione artificiale e i modelli linguistici a comprendere ciò che vedono

2023-09-16 18:49:10

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *