Deepfakes: Trauen Sie Ihren Augen nicht!
Schon immer wurde gefälscht, was nur möglich war. Ob in Ungnade gefallene Genossen unter Stalin aus Bildern retuschiert wurden, Models in der Werbung auf Wespentaille modelliert werden oder Tante Trude per Photoshop ein paar Falten verlieren will - man begegnet Bildern inzwischen mit gesunder Skepsis. Videos hingegen waren schwerer zu manipulieren, Manipulationen waren aufwändig und konnten oft schnell enttarnt werden. Forscher der Carnegie Mellon University haben nun aber ein Verfahren entwickelt, das ein neues Zeitalter der Fälschungen einläuten könnte. Mit künstlicher Intelligenz, die weitgehend autonom arbeitet, werden Videos möglich, die mir den Atem stocken ließen.
Es können so Inhalte (wie Bewegungen, Mimik, etc.) von einem Video in ein anderes übertragen werden und das Ergebnis ist täuschend echt! In einem Beispiel nahm man ein Obama-Interview, eine Trump-Aufnahme und erzeugte damit ein Video, in dem Trump den Obama-Text lippensynchron sprach. Oder man nahm die Gesichtsausdrücke des US-Moderators John Oliver, um sie auf seinen Latenight-Kollegen Stephen Colbert zu übertragen – Kopfnicken, Lächeln und Blinzeln inklusive. Was diese Videos von den üblichen Videobearbeitungen unterscheidet: Menschen müssen kaum noch eingreifen. Während früher das Team von Forrest Gump die langwierige und komplizierte Aufgabe hatte, historische Aufnahmen für den Film zu manipulieren, übernimmt hier die künstliche Intelligenz das Ruder. Wo man vorher Spezialisten brauchte, um auch nur einen Mundwinkel zu animieren, können hier ganze Gesichter (in Zukunft auch Personen oder ganze Szenarien) vom Computer lebensecht manipuliert werden. Schaut man genauer hin, sieht man noch kleine Fehler, doch steht die Entwicklung hier auch erst am Anfang. Und man sollte nicht vergessen: Künstliche Intelligenz lernt immer weiter, braucht keinen Urlaub und hat nie Feierabend. Also genau das, was mein Chef sich von mir wünscht!
Wie die künstliche Intelligenz lernt, möchte ich mit einer kleinen Analogie erklären. Stellen Sie sich vor, Verbrecher möchten Falschgeld herstellen, haben aber wenig Ahnung davon. Also bringen sie ihre ersten, stümperhaften Versuche in Umlauf. Die Polizei bemerkt die schlecht gemachten Blüten sofort und gibt eine Pressemitteilung ab. Dort beschreibt die Polizei, woran man das Falschgeld erkennen kann. Die Geldfälscher lesen die Pressemitteilung, erkennen ihre Fehler und das nächste Falschgeld wird schon etwas besser. Die Polizei erkennt die Blüten dennoch, arbeitet sich zudem immer tiefer in das Thema hinein und veröffentlicht die nächste Pressemitteilung – und das ganze Spiel beginnt wieder von vorne. Es sind also zwei Instanzen, die einander bekämpfen, daher spricht man auch von einem "erzeugenden gegnerischen Netzwerk" (Generative Adversarial Network = GAN). Der Schöpfer (Generator = Fälscherbande) erzeugt in unserem Fall Falschgeld, der Kritiker (Diskriminator = Polizei) meckert und meldet die gefundenen Fehler (Pressemitteilung) und die nächste Runde beginnt. Erst wenn das Ergebnis perfekt ist und der Kritiker keine mehr Einwände hat, ist das Projekt beendet.
<div class="mt-8 flex flex-col-reverse items-center gap-x-8 gap-y-4 [grid-area:1/1] @[640px]:flex-row">
<label x-data class="initial:max-w-max initial:font-semibold font-normal whitespace-nowrap">
<div class="flex">
<input type="checkbox"
name=""
value=""
class=" shrink-0 peer"
x-model="alwaysUnlockCheckboxState"
>
<div class="w-full ml-3 relative text-left peer-disabled:opacity-50 transition">
Immer entsperren
</div>
</div>
</label> <button
class="AshButton AshButton--neutral "
x-data="button({ isButton: true })"
x-bind="button"
x-on:click="play()"
<svg class="AshButton__icon" fill="currentColor" xmlns="http://www.w3.org/2000/svg" viewBox="0 0 384 512"><!--! Font Awesome Free 6.7.1 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) Copyright 2024 Fonticons, Inc. --><path d="M73 39c-14.8-9.1-33.4-9.4-48.5-.9S0 62.6 0 80L0 432c0 17.4 9.4 33.4 24.5 41.9s33.7 8.1 48.5-.9L361 297c14.3-8.7 23-24.2 23-41s-8.7-32.2-23-41L73 39z"/></svg>
Video laden
<span x-cloak class="absolute top-0 left-0 flex items-center justify-center w-full h-full pointer-events-none transition-all duration-150"
x-bind:class="{
'invisible opacity-0 [animation-play-state:paused]': typeof isSubmitting === 'undefined' || !isSubmitting,
'visible opacity-100 [animation-play-state:running]': typeof isSubmitting !== 'undefined' && isSubmitting
}"
aria-hidden="true"
>
<span class="flex gap-4 [animation-play-state:inherit]">
<span
class="block initial:w-8 initial:h-8 initial:border-4 rounded-full animate-spin [animation-play-state:inherit] border-t-gray-500 border-gray-400/25 dark:invert dark:brightness-0"
style="
animation-timing-function: cubic-bezier(.53, .28, .36, .59);
"
</div>
</div>
</div>
<div
class="relative -z-1 place-self-center [grid-area:1/1] pointer-events-none"
x-show="isLoading"
x-transition.opacity.duration.300ms
>
<span
class="block initial:w-8 initial:h-8 initial:border-4 rounded-full animate-spin [animation-play-state:inherit] border-t-white border-white/50 w-16 h-16"
style="
animation-timing-function: cubic-bezier(.53, .28, .36, .59);
"
<div
class="justify-self-stretch [grid-area:1/1] transition duration-300"
x-bind:class="{
'invisible opacity-0': !isLoading
}"
>
<iframe
x-bind:src="isLoading && `https://www.youtube.com/embed/ehD3C60i6lw`"
width="100%"
height="100%"
frameborder="0"
allow="autoplay; encrypted-media"
allowfullscreen
></iframe>
</div>
</div>
Diese Netzwerke können sogar eigenständig schöpferisch tätig werden! Am 25. Oktober 2018 wurde im weltbekannten Auktionshaus Christie’s in New York das Bild von Edmond de Belamy für 423.500$ verkauft. Gut, es gibt teurere Bilder und Künstler, die bekannter sind, dennoch war die Versteigerung eine Sensation, denn Edmond de Belamy ist kein Mensch! Auch hier war ein erzeugendes gegnerisches Netzwerk tätig und versuchte, erfolgreich, ein Bild zu malen. Statt einer Signatur steht entsprechend ein Algorithmus unter dem Bild, dem das ganze Projekt zugrunde liegt. Und es geht noch weiter, die ersten Musikstücke künstlicher Intelligenz sind bereits auf dem Markt, Filme, Computerspiele und auch Programme für selbstfahrende Autos stehen ebenso in den Startlöchern. Natürlich kann die KI bei Bedarf auch nur einen Teil eines Projekts übernehmen. Wenn wir uns ein Computerspiel vorstellen, wo der Spieler durch eine riesige virtuelle Welt streifen kann, so ist die Gestaltung dieser Landschaften bislang sehr aufwändig. Das Spiel Just Cause 4 hat z.B. eine gigantische, 1024 Quadratkilometer große Spielwelt, in der viele Details bis hin zu schlechten Straßen, einzelnen Sträuchern und wildlebenden Tieren vorhanden sind. Die künstliche Intelligenz könnte hier eine realistische Welt erschaffen, die der Mensch nur noch abschließend kontrollieren müsste, so könnte man Millionen Entwicklungskosten sparen.
Doch über allen Projekten schwebt (natürlich) der drohende Missbrauch durch Deepfakes, falsche, aber täuschend echt wirkende Bilder oder Videos. Wie das Beispiel von Obama und Trump zeigt, ist schon heute schwer zu unterscheiden, was echt und was künstlich generiert wurde. Sieht man, was in den sozialen Netzwerken unter dem Begriff Fake News durch das Netz wabert, wäre die neue Technik in den falschen Händen schlicht fatal. Wie schnell könnte ein Politiker stürzen, käme ein glaubwürdig gefälschtes Video in Umlauf, das ihn als Gewalttäter zeigt? Wie schnell würden Geheimdienste realistische Videos von angeblichen Verbrechen der gegnerischen Staaten erstellen? Würden wir schlimme Bilder später wieder aus dem Kopf kriegen, sollten sie sich im Nachhinein als Fälschungen entpuppen? Das alles sind Fragen, denen wir uns bald wohl stellen müssen. Die Entwickler der Netzwerke sind sich dieser Gefahr ebenfalls bewusst und versuchen, zeitgleich Analysemöglichkeiten zu entwickeln, um künstliche Videos zuverlässig enttarnen zu können. Dennoch wird man auch damit nicht alles wieder in die Büchse der Pandora stopfen können, die man mit dieser Technik geöffnet hat. Wenn Sie also in Zukunft Videos sehen sollten, auf denen Donald Trump inbrünstig die sowjetische Nationalhymne schmettert oder der Papst vor großem Publikum eine kecke Stepptanz-Einlage hinlegt – seien Sie auf der Hut!
Was mich interessieren würde: Sind Sie nun misstrauischer, wenn Sie „enthüllende“ Videos im Internet sehen? Oder glauben Sie sowieso nur maximal die Hälfte von dem, was Ihnen präsentiert wird?