Ihre Stimme ist unverwechselbar? Nicht mehr lange!
Stimmen haben etwas Magisches. Wir wachsen mit den Stimmen unserer Eltern auf, erkennen unsere Mitmenschen daran und lauschen gerne Schauspielern oder Sprechern mit charakteristischen Stimmen. Was bisher gänzlich unnatürlich klang, waren Computerstimmen. Egal, ob Assistenten wie Cortana oder Navigationsgeräte, alles klang etwas fremd, ungelenk und – künstlich. Mit der Software Lyrebird soll sich das ändern. Was vorher unverwechselbar war, Ihre Stimme, soll in Zukunft perfekt imitiert werden.
Die Technik dahinter kommt von einem kanadischen Startup-Unternehmen und gibt uns einen ersten Eindruck davon, was in Zukunft alles möglich sein wird. Der echte Lyrebird (Leierschwanz) ist ein sehr findiger Vogel, der Geräusche und Stimmen nachmachen kann und das Programm will mit selbstlernenden Algorithmen ähnliches erreichen. Tausende Stimmen wurden bereits analysiert, um der „DNA der Stimme“ (so das Unternehmen selbst) auf die Schliche kommen. Was macht eine Stimme so unverwechselbar und wie kann man dies künstlich erzeugen? Dabei ist es nicht nur die Stimmfarbe, die imitiert werden kann. Auch Gefühle wie Stress, Freude oder Ärger sollen erzeugt werden können. Das Projekt schaffte man es bereits in die Schlagzeilen, indem man gleich drei künstlich generierte amerikanische Politiker (Clinton, Trump und Obama) über die Software sprechen ließ.
Also starte ich mal den Selbstversuch! Zuerst muss man sich per Mail, Facebook oder Google+ anmelden. Ich nehme Letzteres, weil Lyrebird meine E-Mail-Adresse partout nicht will. Nach der Anmeldung kann man sein Sprachprofil einrichten und muss dabei 30 Sätze einsprechen. Momentan ist noch alles auf Englisch (das soll sich ändern), aber egal. So quäle ich mich also durch 30 ziemlich sinnfreie Sätze und spreche sie ins Mikro. Laut Lyrebird komme ich so auf minimal eine Minute Aufnahme (bei mir werden es eher 2 gewesen sein). Das System verarbeitet dann die Aufnahmen und nur ein paar Minuten später ist mein Profil einsatzbereit. Ich kann nun per Tastatur alles eingeben, was der Computer mit meiner Stimme sagen soll. Als Test nehme ich etwas aus der U.S-Verfassung. Das Ergebnis ernüchtert mich zuerst, es klingt immer noch künstlich und so gar nicht nach mir. Schnell, monoton und mit metallischem Schnarren wird der Text herunter gerattert. Als ich es aber nichtsahnenden Kollegen vorspiele, kommt die Überraschung: Meine Stimme wird sofort erkannt! Klangfarbe und Charakteristika sind ähnlich, aber natürlich (noch) stark verfremdet. Da bin ich aber platt.
Wie leicht lassen wir uns täuschen?
Überlegt man sich jetzt, dass Lyrebird ein Startup ist, das nur ein, zwei Minuten Aufnahmen von mir hatte, die Software noch in den Kinderschuhen steckt und mit jeder Aufnahme besser werden soll, wird es richtig spannend. Mit Emotionen, Dehnungen und variierender Sprachgeschwindigkeit wäre es schon jetzt weitaus realistischer. Die Einsatzmöglichkeiten wären groß. Was heute noch nervig in Warteschleifen, digitalen Assistenten oder Navigationsgeräten quäkt, könnte nicht nur lebendiger, sondern auch viel individueller gestaltet werden. Ein Navigationsgerät mit der Stimme eines geliebten Menschen, Texte die vom Lieblingsschauspieler vorgelesen werden oder die digitale Assistentin Cortana, die wie das eigene Kind spricht, all das wäre plötzlich möglich. Auch kranke Menschen wie Stephen Hawking könnten davon profitieren. Es wäre für viele, die ihre Stimme verloren haben, ein wichtiger Schritt, endlich wieder menschlich zu klingen. Zwar gibt es auch aktuell schon Fortschritte in diesem Bereich, eine wirklich natürliche Sprachausgabe findet man darunter aber noch nicht.
Wie bei fast jedem Fortschritt gibt es aber auch Bedenken. Betrug und Manipulation sind mit einer solchen Technik wohl Tür und Tor geöffnet. Wie werden sprachgesteuerte Autorisierungs-Systeme reagieren? Auch Telefonbetrügereien wären so noch schwieriger zu erkennen. Muss man sich irgendwann fragen, wer denn nun gerade wirklich anruft? Wie steht es mit dem Telefonverkauf, wo ja die selbst gesprochene Zustimmung zum Kauf ja so wichtig ist? Hören wir bald manipulierte Aufnahmen von Politikern, deren Karrieren so ein plötzliches Ende finden? Was sind Aufnahmen als Beweisstücke vor Gericht dann noch wert? Reanimiert man die Stimmen längst verstorbener Persönlichkeiten, um sie Werbung für Tütensuppen sprechen zu lassen? Die Möglichkeiten für den Missbrauch dieser Technik sind enorm.
Die Sprecher von Lyrebird wiegeln natürlich ab. Sie sprechen von Wasserzeichen, die in solche Aufnahmen integriert werden, um die künstlichen Stimmen maschinell erkennbar zu machen. Aber was passiert, wenn die Firma oder deren Technik aufgekauft werden? Google, Adobe und andere verfügen bereits über ähnliche Systeme. Und schon heute gibt es Software wie FakeApp, mit der man Gesichter problemlos auf andere Körper montieren oder Mundbewegungen von Videos in Echtzeit manipulieren kann. Wird dann auch noch die Stimme täuschend echt erzeugt, ist die Illusion perfekt! In Zeiten, wo Diskussionen über „Fake News“ die Medien beherrschen, ist jede technische Innovation in dieser Richtung doppelt gefährlich. Hoffen wir, dass die absolut realistischen Fälschungen noch etwas auf sich warten lassen!
Was mich interessieren würde: Wie schätzen Sie diesen technischen Fortschritt ein? Sinnvoll oder gefährlich?