Und wir sind bei V.K.I., der „Video Künstlichen Intelligenz“

Von Live-Untertiteln über die Verarbeitung und Erstellung von Bildern bis hin zur Archivverwaltung: So kann KI, basierend auf „kognitiven Computern“ mit „neuronalen Netzwerk“-Mikroprozessoren, die ähnlich wie das menschliche Gehirn funktionieren, die Welt des Fernsehens erleichtern und verbessern

von Carlo Solarino

Abbildung 1 – Ein DNN-Chip (Deep Neural Network) für künstliche Intelligenz

Von Künstlicher Intelligenz oder KI – also „AI, Artificial Intelligence“ – wird immer häufiger gesprochen, und nicht immer in positiven Begriffen, begleitet wie sie ist, insbesondere in der Unterhaltungswelt, von alarmierenden Botschaften: „Sie nimmt uns die Arbeit weg„, „Filme und Videos werden nur noch mit Maschinen gemacht“ und so weiter. Aber was stellt KI tatsächlich dar und wie greift sie in Fernsehproduktionen ein? Lassen Sie uns versuchen, diese Fragen zu beantworten und so eine erste Plattform des Bewusstseins darüber zu schaffen oder zumindest, um sich nicht von einer oberflächlichen Ablehnung verführen zu lassen.

Von „Informationen“ zu „Inhalten“

Mit direkter Ableitung aus der Informatik folgt die KI denselben operativen Verfahren: Eingabe eines Inputs in einen Computer, Verarbeitung dieser Daten durch den „Mikroprozessor“ desselben Computers und daraus resultierende Ausgabe. Aber der Unterschied, den KI schafft, besteht darin, dass die Eingabedaten nicht mehr präzise und eindeutige „Informationen“ mit sicherer Interpretation sind (Zahlen, Buchstaben des Alphabets, Bilder, Musiknoten und so weiter), sondern „Inhalte“ oder „Wahrnehmungen“ oder „Empfindungen“, genau wie es bei unserem Gehirn der Fall ist, das sogar Erinnerungen oder einfache Eindrücke verarbeitet.

Und an der Basis von all dem steht der Kognitive Computer , dessen Herz nicht mehr durch den „alten“ Mikroprozessor dargestellt wird, der linear und auf einem einzigen Datenpfad arbeitet, sondern durch ein Neuronales Netzwerk , das, inspiriert vom menschlichen Gehirn und basierend auf einer ausgedehnten Reihe von empfindlichen Knoten, auf zahlreichen und komplexen Inhaltsströmen arbeitet, die gleichzeitig verwaltet werden.

Genauer gesagt wird der Name dieses neuen „Netzwerk-Mikroprozessors“, wie in der aktuellen Fachsprache, als DNN, Deep Neural Network bezeichnet, was als „Tiefes Neuronales Netzwerk“ übersetzt werden kann. Wenn diese Komponente dann, anstatt auf einem einzigen, auf zwei parallelen Netzwerken arbeitet (wie es zum Beispiel bei der Erstellung einer Bildsynthese aus zwei verschiedenen Eingangsbildern erforderlich ist), nimmt sie die Bezeichnung GAN, Generative Adversarial Network an, was als „Generatives gegnerisches Netzwerk“ zwischen den eigenen Eigenschaften der beiden Eingangsbilder zu verstehen ist (wie wir gleich genauer sehen werden). Wir können hinzufügen, dass die neuronalen Knoten des Gehirns auf etwa 85 Milliarden geschätzt werden, im Gegensatz zu denen der KI, die sogar bis zu 10.000 Milliarden erreichen!

Trotz der Komplexität ihrer internen Architekturen sollten wir uns jedoch keine Sorgen um die praktische Realisierung der DNNs machen: Diese Komponenten weisen in der Tat die gleichen Aspekte und Dimensionen wie die vorherigen und wohlbekannten Mikroprozessoren auf (Abbildung), wobei insbesondere die Marke NVIDIA zu den weltweit führenden Herstellern gehört.

Anwendungen im Videobereich

Unter diesen Voraussetzungen lassen Sie uns nun die Hauptfunktionen betrachten, die KI in unserem Interessenbereich erfüllt, nämlich in multimedialen und insbesondere Fernsehanwendungen, beginnend mit Untertitelungen, über Standbilder und bewegte Bilder bis hin zu fortgeschrittenen Archivverwaltungen von Aufzeichnungen.

  • Untertitel und ASR, Automatic Speech Recognition:

In diesem Bereich ist der Haupteinsatzbereich der KI die Untertitelung für Live-Sendungen, darunter in erster Linie Nachrichtensendungen sowie einige Talkshows, sowohl für Live-Übersetzungen als auch vor allem für Teletext-Nutzungen für Gehörlose. Ein Service, der also in Echtzeit erstellt werden muss, während Untertitel für Dokumentationen oder Filme, die nicht dieser Einschränkung unterliegen, traditionelleren Prozessen folgen.

Die Live-Untertitelung nutzt also die Stenotypie , das schnelle Schreiben von Texten durch spezialisiertes Personal auf speziellen Tastaturen, sowie eben KI durch die Funktion ASR , die als „automatische Spracherkennung“ zu verstehen ist.

Es ist jedoch angebracht zu klären, dass die KI selbst heute noch nicht in der Lage ist, 100% Perfektion in den Ergebnissen zu garantieren.

Die ASR ist in der Tat, immer bezogen auf Live-Sendungen, zwei Haupteinschränkungen unterworfen: Sie ist nicht in der Lage, streng in Echtzeit zu arbeiten und fügt Verzögerungen zwischen Stimme und Text von mehreren Sekunden ein (bis zu 10 oder 12); und sie kann keine „Disambiguierung“ zwischen verschiedenen Bedeutungen garantieren: Man denke nur an die Initialen von Nachnamen, die Objekten oder Adjektiven entsprechen (als Beispiel der Nachname Rossi), die meist in Kleinbuchstaben wiedergegeben werden. Beide Mängel werden bei Inhalten, die nicht streng an die Live-Übertragung gebunden sind, wie Interviews oder Beiträge, die einige Stunden vor der Ausstrahlung gedreht wurden, beseitigt: aber durch menschliche Überprüfung (sozusagen menschliche Intelligenz).

  • Computer Vision

Mit diesem Begriff wird die Fähigkeit eines Computergeräts bezeichnet, Bilder wie Gesichter („Gesichtserkennung“) oder Objekte zu erkennen. Aber in diesem Bereich vollbringt KI wirklich Wunder. Und so wird es möglich, durch geeignete DNNs, die Trainings- und Lernprozessen unterzogen werden (wir befinden uns bei „kognitiven Computern“), grundlegende Elemente oder „Muster“ zu erstellen, zu extrahieren oder einzufügen, um zu fortgeschrittenen und raffinierten inhaltlichen und kreativen Prozessen zu gelangen.

Dank des bereits erwähnten GAN-Netzwerks kann man zum Beispiel die malerischen Atmosphären aus einem Gemälde von Raffael extrahieren und dann auf ein aktuelles Foto anwenden, wie in Abbildung 2 mit dem Bild von Ornella Muti gezeigt. Und so dringen wir tief in die Kreativität ein, aber mit dem Vorteil, der eben durch KI gegeben ist, dass diese Operation von allen in wenigen Sekunden ausgeführt werden kann, anstatt den Einsatz von Fachpersonal und viele Stunden oder ganze Tage Arbeit zu erfordern.

Eine weitere interessante Anwendung der KI in der Grafik, die viel breiter genutzt wird, ist die Interpolation zwischen Pixeln , die es ermöglicht, SD-Bilder (Standard Definition) an HD-Bilder (High Definition) oder sogar UHD-Bilder (Ultra High Definition, ein Standard, der besser als 4K bekannt ist) anzupassen, ohne Verlust von Inhalten und Definition. Der traditionelle Übergang zwischen diesen verschiedenen Definitionen erfolgt nämlich durch einfaches „Kopieren und Einfügen“ von Pixeln: So wird ein einzelnes SD-Pixel auf 4 Pixel des HD oder auf 16 des UHD verteilt, was zu Bildern ohne Details und auch ohne angemessenes Farbgrading führt. Beide Mängel kann die KI dank der Interpolation – sozusagen der Konstruktion virtueller Zwischenpixel – beseitigen.

Was ist eine unmittelbare praktische Anwendung davon? Schnell gesagt: Amateur- und günstigere Videokameras haben nur digitalen Zoom, der das Bild verpixelt, im Gegensatz zum viel teureren optischen Zoom, der hingegen eine konstante Definition garantiert. Aber dank KI und durch Einfügen eines DNN-Chips in die Kamera, der sicherlich viel weniger kostet als ein optischer Zoom, wird die Bildschärfe immer gewährleistet.

Und hier hören wir in Bezug auf KI, angewandt auf Bilder, auf: Aber die möglichen Leistungen sind viel umfangreicher und reichen bis zum Verständnis der Darstellungsrhythmen, um sogar bis zu den Inhalten zu gelangen, ob dramatisch oder leicht.

  • Metadaten und Archivverwaltung

Für diejenigen mit einigen Jahren Berufserfahrung im Video und vielleicht auch im vorherigen Kino ist es wohlbekannt, dass die Organisation der Archive auf „Etiketten“ mit Referenzdaten der Aufnahmen (Produktionsjahr, Namen von Schauspielern und Regisseuren und so weiter) basierte, die auf Videokassetten oder Filmrollen geklebt wurden. Und das gesamte Archiv war nichts anderes als ein umfangreiches System von Schränken und Regalen, das entsprechend organisiert war.

Die digitalen Technologien haben jedoch neben der neuen Bildkonstruktion in den Archivierungsprozessen eine wahre Revolution mit der Einführung von „Metadaten“ bewirkt. Zu verstehen als „Daten über Daten“, enthalten sie die Etiketteninformationen, aber viel präziser und genauer, mit der Fähigkeit, auf standardisierten Regeln das gesamte Archiv zu strukturieren und zu organisieren.

Aber wir sind noch im Informationszeitalter. Und was kann jetzt – und teilweise geschieht es schon – mit KI passieren? Fähig, wie sie ist, auch in inhaltliche Aspekte einzugreifen, ist KI in der Lage, nicht nur bei der automatischen Erstellung von Metadaten (Produktionsjahre, Namen von Regisseuren und Schauspielern, wie gesagt) einzugreifen und so menschliche Eingriffe zu begrenzen; sondern sie ist auch in der Lage – und immer automatisch – Videozusammenfassungen derselben Inhalte zu erstellen und so deren Konsultation zu erleichtern.

Lassen Sie uns sofort ein Beispiel machen: Wenn eine Sportsendung beschließt, ein berühmtes Fußballspiel aufzurufen, um dem Publikum die bedeutendsten Teile zu zeigen, also seine „Highlights“, sind dank KI dieselben Highlights sofort bereit, ohne das gesamte Spiel manuell durchlaufen zu müssen. Und so, wie viele Arbeitsstunden qualifizierten Personals werden eingespart? Wirklich viele. Möge dieses einfache Beispiel also auch die Bedeutung und Nützlichkeit der KI demonstrieren, anstatt sie, wie anfangs gesagt, weiterhin zu fürchten oder gar zu dämonisieren.

Abbildung 2 – Ornella Muti im Stil von Raffael, erstellt mit KI (Joseph Ayerle)