Freud, Leid und unbekannte Seekühe: der Microsoft Video Indexer im Test
Kürzlich fand die Build 2017 statt, eine Entwicklerkonferenz, bei der Microsoft seine Schätze zeigte und (wie immer) große Pläne verkündete. Mit Zahnpasta-Lächeln schilderte man dort, was die schlauen Dienste so alles mit Cloud-Daten anfangen können. Das ist übrigens immer genau der Moment, wo die Datenschützer ihre Selbstmord-Kapseln herauskramen. Ein gutes Beispiel für die neuen Techniken ist der Video Indexer, den auch Sie ausprobieren können – wenn Sie sich trauen. Denn wenn Microsoft hier von „einer Demokratisierung der Überwachungswerkzeuge“ spricht, so ist das nicht gelogen.
So wunderbar sieht die Zukunft auf der Build 2017 aus
Künstliche Intelligenz kommt langsam, aber mächtig auch im Alltag an. Microsoft stellt mit dem Video Indexer der Allgemeinheit ein mächtiges Werkzeug vor, um Videos auf vielen Ebenen gleichzeitig analysieren zu lassen. Dort belässt man es nicht schnöde bei Filmlänge, Dateiformat oder Dateinamen, es werden Personen, Inhalte, Sprache und sogar Emotionen gesucht. Wird der Azure-Server bemerken, wenn ich fröhlich bin? Grund genug, für den Blog ein paar eigene Videos hochzuladen und den schlauen Indexer mal machen zu lassen.
Der Microsoft Video Indexer ist ein Online Dienst, also schaut man bei https://www.videoindexer.ai vorbei, meldet sich dort kostenlos an und schon kann man seine Filme hochladen. Ich nehme einen bunten Mix von Videos (auch aus dem Ashampoo-Umfeld) und jage alles in die Cloud. Schon ein paar Minuten später liegt die Auswertung vor und mir bleibt etwas die Spucke weg. Denn was beim Natur-Video leer bleibt (da fällt dem Indexer nichts ein, er kennt wohl keine Seekühe!), gewinnt z.B. bei einem Interview sehr schnell an Tiefe. Zentrale Inhalte werden erkannt und rechts vom Video aufgeführt als Keywords (Stichworte). Klickt man sie an, springt man sofort an die passende Stelle. Nach diesen Keywords kann man auch ganze Sammlungen durchsuchen und so aus diversen Videos genau jenes finden, wo der Begriff fällt. Das ist beeindruckend und, wie mir auffällt, der feuchte Traum eines jeden Geheimdienstes.
Kann alles, was es sollte - und wohl etwas mehr
Erwähnenswert sind auch die Transkripte. In diesem Fall heißt es, dass die Sprache automatisch ausgewertet und in Textform festgehalten wird. Natürlich multilingual, auf Wunsch wird sofort übersetzt. Hier ist die Tonqualität wichtig, Amateuraufnahmen werden bruchstückhaft erfasst, echte Interviews mit gutem Mikro fast vollständig. Ein paar lustige Fehler sind noch drin, mein Chef hat im Fernsehen garantiert nicht mit „Niere. Niemals Leben“, geantwortet, als er zur Datensicherheit befragt wurde. Es ist noch alles in der Entwicklung (man arbeitet z.B. gerade am Verständnis der Körpersprache), aber schon der heutige Stand lässt staunen. Kommen Zahlen oder Buchstaben ins Bild, werden auch diese erkannt. Wie manche Staaten z.B. Nummernschilder per Kamera erfassen und auswerten können – hier sieht man es am konkreten Beispiel.
Natürlich können auch Gesichter erkannt werden. Persönlichkeiten des öffentlichen Lebens findet der Video Indexer gleich über die Suchmaschine Bing, Privatpersonen kann man selbst identifizieren, sie werden danach automatisch wiedererkannt. Auch hier ist die Video-Qualität entscheidend, bei Unschärfe oder schlechten Lichtverhältnissen werden sonst Arbeitskollegen mitunter als Hollywood-Stars oder Politiker identifiziert. Zum Teil sehr schmeichelnd, aber halt fehlerhaft. Anhand der Gesichter wird auch analysiert, in welchen Momenten und in welcher Gewichtung ein Mensch im Video auftritt. Bei einer gefilmten Diskussionsrunde kam der lauteste Krakeeler auf glatte 40% der Kamerazeit und hängte alle anderen weit ab. So lernt man noch etwas fürs Leben!
Spannend wurde es beim Speech Sentiment (Sprachgefühl), hier analysiert der Indexer, wie der Sprecher zum Thema steht. Hier scheint es bislang nur auf Englisch zuverlässig zu funktionieren, sind Deutsche schwerer zu knacken? Es gibt die Zustände Neutral, Positiv und Negativ, alles wird nett über einen farbigen Zeitstrahl angezeigt und die Trefferquote ist hoch. Ein Video, in dem leicht beschwipste Freunde über ihre Urlaubsreise berichten, erstrahlt in sattem Grün, (positiv), eine wissenschaftliche Abhandlung bleibt zumeist in neutralem Grau. Als ein älterer Herr über die Regierung spricht, erlebe ich ein Fest in Rot, diese Wut bleibt selbst Microsoft nicht verborgen! Einzig bei lauten Freudenausbrüchen scheiterte der Indexer, hier wurde der lautstarker Jubel nach einem Tor als Aggression ausgelegt. Als weitere Funktion können auch Videos auf „explizite Inhalte“ durchsucht werden. Da ich aber kein unanständiges Video zur Hand hatte, wurde dies nicht getestet. Ehrlich.
Noch in Arbeit ist ein erweitertes Verständnis der gezeigten Inhalte. So sollen noch Gegenstände, Tätigkeiten, Körperhaltungen und vieles mehr von den Systemen erkannt werden. Auch wenn der aktuelle Stand noch als Preview (Vorschau) bezeichnet wird, lässt sich schon erahnen, welch leistungsstarkes Paket Microsoft hier am Start hat. Wer Tonnen an Videos (mit Menschen und Sprache) sein Eigen nennt und für eine Sichtung sonst Ewigkeiten brauchen würde, findet schnelle Hilfe. Wenn er sich denn mit dem Konzept der Cloud und den Nutzungsbedingungen anfreunden kann. Und genau daran scheiden sich die Geister, denn lokal (installiert auf dem eigenen Rechner) soll es den Video Indexer nicht geben.
Ein Fazit fällt schwer, denn neben der technischen Brillanz drängen sich immer neue Fragen bei der Nutzung auf. Wie werden Privatpersonen, aber auch Arbeitgeber oder Behörden solche Möglichkeiten verwenden? Microsoft spendiert seinen Diensten eine offene API (Programmierschnittstelle), andere Anbieter können die Technik also nutzen und für eigene Zwecke anpassen. Wo setzt Microsoft Grenzen bei der Nutzung, wie streng werden diese Regeln eingehalten und überprüft? Microsoft selbst sieht sich auf der sicheren Seite. Man spricht sich gegen „unmoralische Nutzung“ aus, doch wo sind die Grenzen davon? Wenn man technische Möglichkeiten bietet, die eine Überwachung, Zensur und Erfassung von Inhalten möglich machen, so ist dies nie ohne Risiko. Und man fragt sich insgeheim, ob alles getan werden muss, nur, weil es technisch möglich ist.
Alle Bilder: Microsoft (Azure)