Bing

Microsoft Research crea un sistema in grado di generare automaticamente sottotitoli "intelligenti".

Sommario:

Anonim

Sicuramente ti sei imbattuto in una didascalia confusa, errata o che dice poco dell'immagine a cui si riferisce; ed è anche possibile che, se ti dedichi alla pubblicazione dei tuoi articoli, trovi più noioso compilare questa sezione. Bene, le persone di Redmond hanno creato uno strumento che mira a semplificarti le cose.

Un'opera pubblicata da Microsoft Research che si descrive come un "sistema di generazione di didascalie" in grado di imitare le caratteristiche narrative del linguaggio umano, ovvero una tecnologia in grado di descrivere schermate come se riguardassero uno di noi, con il relativo contesto.Qualcosa su cui aziende come Facebook, Microsoft e Google stanno lavorando da tempo, ma questa volta supera le aspettative.

In cosa consiste

Si è divertito moltissimo

In questo modo il sistema ha la capacità di raccontare una storia completa anche da più immagini, descrivendola e raccontandola come se fosse un libro. Un'utilità che, secondo gli esperti, potrebbe finire per diventare una funzionalità che fornisce un tocco più umano a determinate applicazioni, applicazioni di riconoscimento vocale, generazione automatica di descrizioni in altre aree e molto altro.

E il fatto è che lo strumento non si limita a dire, brevemente, ciò che “vede”, ma fornisce piuttosto una visione più ampia contesto della situazione che si riflette nell'immagine, raggiungendo un "contesto narrativo e uno stile narrativo unico", ha spiegato Frank Ferraro, uno degli autori di questo lavoro.Per metterci in una situazione, ci dà un chiaro esempio

Sua madre era orgogliosa di lui

Pertanto, proponiamo il seguente caso: “Immaginiamo di avere un album fotografico di alcuni amici che hanno festeggiato un compleanno in un Pub. Alcune delle prime immagini mostrano persone che ordinano birra e la bevono, mentre le ultime mostrano qualcuno addormentato su un divano”, commenta.

Un sistema convenzionale “potrebbe semplicemente indicare qualcosa come c'è una persona sdraiata su un divano, mentre il nostro sistema potrebbe includere che probabilmente si trovano in quella situazione perché sono ubriachi dopo aver bevuto qualche drink ”. Un'aggiunta che fornisce comprensione e una certa carica emotiva che si riflette anche attraverso le immagini e le didascalie delle foto incluse in questo articolo.

Via | Revisione della tecnologia del MIT

In Xataka Windows | Microsoft lancia un'app che determina la razza del tuo cane

Bing

Scelta dell'editore

Back to top button