E siamo al V.I.A., la “Video Intelligenza Artificiale”

Dai sottotitoli in diretta, all’elaborazione e creazione di immagini, fino alle gestioni d’archivio: ecco come l’I.A., basata su “computer cognitivi” con microprocessori “a rete neurale” dal funzionamento simile al cervello umano, può facilitare e migliorare il mondo della televisione

di Carlo Solarino

Figura 1 – Un chip di DNN, Deep Neural Network, per intelligenza artificiale

Di Intelligenza Artificiale o IA – ovvero “AI, Artificial Intelligence” – si parla sempre più spesso e non sempre in termini positivi, accompagnata come è, e in particolare nel mondo dello spettacolo, da messaggi allarmistici: “ci toglie lavoro”, “film e video si faranno solo con le macchine” e così via. Ma cosa rappresenta effettivamente la IA e come interviene nelle produzioni televisive? Vediamo di rispondere a queste domande cercando così di fornire una prima piattaforma di consapevolezza su di essa o, quantomeno, per non lasciarsi tentare da un suo superficiale rifiuto.

Dalle “informazioni” ai “contenuti”

Con diretta derivazione dall’informatica, l’IA ne segue le medesime procedure operative: inserzione di un input verso un computer, elaborazione di tali dati da parte del “microprocessore” dello stesso computer, e conseguente risposta in output. Ma la differenza creata dall’IA consiste nel fatto che i dati di ingresso non sono più precise e univoche “informazioni” dalla sicura interpretazione (numeri, lettere dell’alfabeto, immagini, note musicali e così via), bensì “contenuti” ovvero “percezioni” o “sensazioni”, esattamente come avviene per il nostro cervello che arriva ad elaborare anche ricordi o semplici impressioni.

E alla base di tutto ciò, ecco il Computer Cognitivo, il cui cuore non è più rappresentato dal “vecchio” microprocessore che lavora linearmente e su un solo percorso di dati, bensì da una Rete Neurale che, ispirata appunto al cervello umano e basata su un esteso insieme di nodi sensibili, lavora su numerosi e complessi flussi contenutistici gestiti in simultanea.

Con maggiore precisione, il nome di questa nuova “rete-microprocessore”, come dal corrente linguaggio del settore, è indicato con DNN, Deep Neural Network, traducibile come “Rete Neurale Profonda”. Se poi questo componente, anziché su una sola, opera su due reti in parallelo (come richiesto, per esempio, nel creare una sintesi d’immagine da due diverse figure d’ingresso) assume la dicitura di GAN, Generative Adversarial Network, da intendersi come “Rete generativa per controtendenza” tra le caratteristiche proprie delle due immagini di input (come meglio vedremo subito dopo). Possiamo poi aggiungere che i nodi neurali del cervello sono valutati in 85 miliardi circa, contro quelli dell’IA che arrivano anche a 10.000 miliardi!

Malgrado le complessità delle loro architetture interne, non preoccupiamoci tuttavia per la realizzazione pratica delle DNN: tali componenti presentano infatti medesimi aspetti e dimensioni dei precedenti e ben noti microprocessori (Figura), con il marchio NVIDIA, in particolare, tra i leader mondiali dei relativi costruttori.

Applicazioni nell’area video

Tutto ciò premesso, vediamo dunque le principali funzioni svolta dalla IA nel settore di nostro interesse, ovvero nelle applicazioni multimediali e televisive in particolare, partendo dalle scritte per sottotitolazioni, per passare alle immagini sia fisse che in movimento e concludere con avanzate gestioni d’archivio dei registrati.

Sottotitoli e ASR, Automatic Speach Recognition:

In quest’ambito, il principale settore di intervento dall’IA è rappresentato dai sottotitoli per le dirette, tra cui in primo luogo i telegiornali come pure alcuni talk show, sia per traduzioni dal vivo ma, soprattutto, per le fruizioni in Teletext ai non udenti. Un servizio che richiede dunque di essere creato in tempo reale, mentre i sottotitoli in differita per documentari o film, non soggetti a tale vincolo, seguono processi più tradizionali.

La sottotitolazione in diretta si avvale dunque della stenotipia, la rapida scrittura dei testi eseguita da personale specializzato su apposite tastiere nonché, appunto, dell’IA tramite la funzione ASR, da intendersi quale “riconoscimento automatico del parlato”.

È opportuno però chiarire che la stessa IA, a oggi, non è ancora in grado garantire il 100% nella perfezione dei risultati.

La ASR, infatti e sempre riferita alle dirette, è soggetta a due principali limiti: non è grado di operare rigorosamente in tempo reale inserendo dei fuori sincro tra voce e testi anche di svariati secondi (fino a 10 o 12); e di garantire la “disambiguazione” tra significati differenti: basti pensare alle iniziali di cognomi corrispondenti a oggetto o aggettivi (valga per tutti, il cognome Rossi), per lo più riportate in minuscolo. Entrambi difetti che, nei contenuti non strettamente legati alla diretta, quali interviste o servizi girati qualche ora prima dell’andata in onda, vengono eliminati: ma tramite verifica (come dire intelligenza) umana.

La Computer Vision

Con questo termine si intende la capacità, da parte di un dispositivo informatico, di riconoscere delle immagini quali volti (“riconoscimento facciale”) oppure oggetti. Ma in quest’ambito la IA sta facendo veramente miracoli. E così diventa possibile, tramite adeguate DNN sottoposte a processi di addestramento e apprendimento (siamo nei “computer cognitivi”), creare, estrarre o inserire elementi di base o “pattern”, per arrivare fino a evoluti e raffinati processi contenutistici e creativi.

Grazie alla già anticipata rete GAN, in particolare, si possono per esempio estrarre le atmosfere pittoriche da un quadro di Raffaello, per poi applicarle a un attuale scatto fotografico, come indicato in Figura 2 con l’immagine di Ornella Muti. E così entriamo nel profondo della creatività ma con il vantaggio, dato appunto dall’IA, di poter eseguire tale operazione da parte di tutti e in pochi secondi, anziché dover richiedere l’intervento di personale specializzato e per molte ore o giorni interi di lavoro.

Sempre nella grafica, un’interessante applicazione dell’IA e di ben più vasto uso è poi rappresentata dalla Interpolazione tra pixel, che consente di adeguare, ma senza perdita di contenuti e definizione, immagini in SD (Standard Definition) a immagini in HD (High Definition) o anche in UHD (Ultra High Definition, standard ben più noto come 4K). Il passaggio tradizionale tra tali differenti definizioni avviene infatti tramite un semplice “copia e incolla” dei pixel: e così un solo pixel SD viene spalmato su 4 pixel dell’HD o su 16 dell’UHD, generando immagini prive di dettagli e anche di adeguato grading cromatico. Entrambi difetti che la IA, grazie all’interpolazione – come dire alla costruzione di pixel virtuali di intermediazione – è in grado di eliminare.

Quale un’immediata applicazione pratica di tutto ciò? Subito detto: le videocamere amatoriali e più economiche presentano soltanto zoom digitale, che sgrana l’immagine, rispetto al ben più costoso zoom ottico, che garantisce invece definizione costante. Ma grazie all’IA e inserendo nella camera un chip DNN, certamente molto meno costoso di uno zoom ottico, la nitidezza d’immagine viene sempre assicurata.

E qui, in merito all’IA applicata alle immagini, ci fermiamo: ma le possibili prestazioni sono ben più ampie entrando anche, con riferimento al video, alla comprensione dei ritmi espositivi, per arrivare fino ai contenuti, drammatici o leggeri che siano.

Metadati e gestioni d’archivio

Per chi ha qualche anno d’esperienza professionale nel video, e magari anche nel precedente cinema, è ben noto che l’organizzazione degli archivi era basata su “etichette” con i dati di riferimento dei girati (anno di produzione, nomi di attori e registi e così via), da appiccicare alle videocassette o alle “pizze” delle pellicole. E l’intero archivio non era altro che un voluminoso sistema di armadi e scaffali, opportunamente organizzato.

Le tecnologie digitali, oltre alla nuova costruzione delle immagini, hanno però determinato, nei processi d’archivio, una vera rivoluzione con l’introduzione dei “metadati”. Da intendersi quali “dati oltre ai dati”, riportano le informazioni d’etichetta ma ben più puntuali e precise con attitudine inoltre, e su regole standardizzate, di strutturare e organizzare l’intero archivio.

Ma siamo ancora nell’era informatica. Ed ora che cosa può avvenire – e, in parte, già avviene – con la IA? Capace come è di entrare anche negli aspetti contenutistici, la IA è in grado non solo di intervenire nella costruzione automatica dei metadati (anni di produzione, nomi di registi e attori, come detto) limitando così gli interventi umani; ma è in grado anche – e sempre in modo automatico – di dar vita a sintesi in video degli stessi contenuti, facilitandone così le consultazioni.

Facciamo subito un esempio: se un programma sportivo decidere di richiamare qualche famosa partita di calcio per mostrarne al pubblico le parti più significative, ovvero i suoi “high-light”, ecco che, grazie alla IA, gli stessi high-light sono subito pronti senza dover far scorrere manualmente l’intero incontro. E così, quante ore lavoro di personale qualificato vengono risparmiate? Davvero molte. Valga dunque questo semplice esempio a dimostrare anche l’importanza e l’utilità della IA anziché continuare, come detto fin dall’inizio, a temerla se non addirittura a demonizzarla.

Figura 2 – Ornella Muti in stile Raffaello ottenuta con IA (Joseph Ayerle)

Come la IA ha fatto nascere la “Video Intelligenza Artificiale”