Stimmen haben etwas Magisches. Wir wachsen mit den Stimmen unserer Eltern auf, erkennen unsere Mitmenschen daran und lauschen gerne Schauspielern oder Sprechern mit charakteristischen Stimmen. Was bisher gänzlich unnatürlich klang, waren Computerstimmen. Egal, ob Assistenten wie Cortana oder Navigationsgeräte, alles klang etwas fremd, ungelenk und – künstlich. Mit der Software Lyrebird soll sich das ändern. Was vorher unverwechselbar war, Ihre Stimme, soll in Zukunft perfekt imitiert werden.
Die Technik dahinter kommt von einem kanadischen Startup-Unternehmen und gibt uns einen ersten Eindruck davon, was in Zukunft alles möglich sein wird. Der echte Lyrebird (Leierschwanz) ist ein sehr findiger Vogel, der Geräusche und Stimmen nachmachen kann und das Programm will mit selbstlernenden Algorithmen ähnliches erreichen. Tausende Stimmen wurden bereits analysiert, um der „DNA der Stimme“ (so das Unternehmen selbst) auf die Schliche kommen. Was macht eine Stimme so unverwechselbar und wie kann man dies künstlich erzeugen? Dabei ist es nicht nur die Stimmfarbe, die imitiert werden kann. Auch Gefühle wie Stress, Freude oder Ärger sollen erzeugt werden können. Das Projekt schaffte man es bereits in die Schlagzeilen, indem man gleich drei künstlich generierte amerikanische Politiker (Clinton, Trump und Obama) über die Software sprechen ließ.
Also starte ich mal den Selbstversuch! Zuerst muss man sich per Mail, Facebook oder Google+ anmelden. Ich nehme Letzteres, weil Lyrebird meine E-Mail-Adresse partout nicht will. Nach der Anmeldung kann man sein Sprachprofil einrichten und muss dabei 30 Sätze einsprechen. Momentan ist noch alles auf Englisch (das soll sich ändern), aber egal. So quäle ich mich also durch 30 ziemlich sinnfreie Sätze und spreche sie ins Mikro. Laut Lyrebird komme ich so auf minimal eine Minute Aufnahme (bei mir werden es eher 2 gewesen sein). Das System verarbeitet dann die Aufnahmen und nur ein paar Minuten später ist mein Profil einsatzbereit. Ich kann nun per Tastatur alles eingeben, was der Computer mit meiner Stimme sagen soll. Als Test nehme ich etwas aus der U.S-Verfassung. Das Ergebnis ernüchtert mich zuerst, es klingt immer noch künstlich und so gar nicht nach mir. Schnell, monoton und mit metallischem Schnarren wird der Text herunter gerattert. Als ich es aber nichtsahnenden Kollegen vorspiele, kommt die Überraschung: Meine Stimme wird sofort erkannt! Klangfarbe und Charakteristika sind ähnlich, aber natürlich (noch) stark verfremdet. Da bin ich aber platt.
Wie leicht lassen wir uns täuschen?
Überlegt man sich jetzt, dass Lyrebird ein Startup ist, das nur ein, zwei Minuten Aufnahmen von mir hatte, die Software noch in den Kinderschuhen steckt und mit jeder Aufnahme besser werden soll, wird es richtig spannend. Mit Emotionen, Dehnungen und variierender Sprachgeschwindigkeit wäre es schon jetzt weitaus realistischer. Die Einsatzmöglichkeiten wären groß. Was heute noch nervig in Warteschleifen, digitalen Assistenten oder Navigationsgeräten quäkt, könnte nicht nur lebendiger, sondern auch viel individueller gestaltet werden. Ein Navigationsgerät mit der Stimme eines geliebten Menschen, Texte die vom Lieblingsschauspieler vorgelesen werden oder die digitale Assistentin Cortana, die wie das eigene Kind spricht, all das wäre plötzlich möglich. Auch kranke Menschen wie Stephen Hawking könnten davon profitieren. Es wäre für viele, die ihre Stimme verloren haben, ein wichtiger Schritt, endlich wieder menschlich zu klingen. Zwar gibt es auch aktuell schon Fortschritte in diesem Bereich, eine wirklich natürliche Sprachausgabe findet man darunter aber noch nicht.
Wie bei fast jedem Fortschritt gibt es aber auch Bedenken. Betrug und Manipulation sind mit einer solchen Technik wohl Tür und Tor geöffnet. Wie werden sprachgesteuerte Autorisierungs-Systeme reagieren? Auch Telefonbetrügereien wären so noch schwieriger zu erkennen. Muss man sich irgendwann fragen, wer denn nun gerade wirklich anruft? Wie steht es mit dem Telefonverkauf, wo ja die selbst gesprochene Zustimmung zum Kauf ja so wichtig ist? Hören wir bald manipulierte Aufnahmen von Politikern, deren Karrieren so ein plötzliches Ende finden? Was sind Aufnahmen als Beweisstücke vor Gericht dann noch wert? Reanimiert man die Stimmen längst verstorbener Persönlichkeiten, um sie Werbung für Tütensuppen sprechen zu lassen? Die Möglichkeiten für den Missbrauch dieser Technik sind enorm.
Die Sprecher von Lyrebird wiegeln natürlich ab. Sie sprechen von Wasserzeichen, die in solche Aufnahmen integriert werden, um die künstlichen Stimmen maschinell erkennbar zu machen. Aber was passiert, wenn die Firma oder deren Technik aufgekauft werden? Google, Adobe und andere verfügen bereits über ähnliche Systeme. Und schon heute gibt es Software wie FakeApp, mit der man Gesichter problemlos auf andere Körper montieren oder Mundbewegungen von Videos in Echtzeit manipulieren kann. Wird dann auch noch die Stimme täuschend echt erzeugt, ist die Illusion perfekt! In Zeiten, wo Diskussionen über „Fake News“ die Medien beherrschen, ist jede technische Innovation in dieser Richtung doppelt gefährlich. Hoffen wir, dass die absolut realistischen Fälschungen noch etwas auf sich warten lassen!
Was mich interessieren würde: Wie schätzen Sie diesen technischen Fortschritt ein? Sinnvoll oder gefährlich?
Früher war ein Brief ein Dokument. Dann ein Bild, oder eine Tonbandaufnahme oder ein Video. Oder eben die wohlbekannte Stimme im Radio oder Fernsehen oder am Telefon.
Wir werden uns daran gewöhnen müssen, dass es in Kürze grundsätzlich keine Sicherheit gibt, ob es sich bei einem Dokument irgend einer Art um ein Original oder eine Fälschung handelt.
Es kommt mir sinnlos vor, sich darüber zu beklagen und die "Guten alten Zeiten" zurück zu wünschen. Oder nach dem Staat zu rufenh, der uns vor Fälschungen schützehn soll. Stattdessen müssen wir uns darauf einstellen und schon ab dem Kindergarten lernen, dass das so ist.
Wir müssen lernen, dass jedes Dokument,, wirklich jedes, eine Fälschung sein kann. Wir müssen lernen, immer Rückfrage zu halten; immer vertrauenswürdige Zeugen zu befragen; immer für Telefon, WhatsApp und drgl. Code- oder Passwörter vereinbaren; niemals etwas zu entscheiden ohne möglichst sichere Information eingeholt zu haben, usw. usw.
Aber das gilt doch für jede Neuerung. Als die Autos aufkamen musste man lernen, auf den Verkehr zu achten. Und jetzt muss man lernen, medialen Fälschungen nicht auf den Leim zu gehen. Das gehört ab jetzt zum erwachsen sein.
mal ein Ketzerischer Gedanke :
Für ein paar Euro im Surplus ein Nato-Notfunkgerät gekauft, Ihre Stimme generiert, und die NATO ist auf Ihren Befehl hin ausgelaufen.
Fiction ? No, schon heute REALITÄT mit hochmodernen Mischpulten ! Digitaler Schutz ? Quatsch, überall kann man nachlesen WO der Key sitzt um vom System akzeptiert zu werden. Schlupflöcher in den CPU`s, Backdoors in der Software oder Ports.....
SKYNET WATCH YOU !
Die Zeitschrift "Titanic" hat vor ein paar Jahren mittels eines Telefonstreichs gezeigt, dass man mit strengem, militärischen Ton eine ganze Kaserne in Aufruhr versetzen kann, dazu braucht es nicht mal Technik. :)
George Orwell ? Quark....
S K Y N E T
ist erwacht ! Hütet EUCH !
Hallo.
Eigentlich wollte ich "nicht schon wieder" schreiben.
Aber das Thema wurde heute im Internet deutlich verschärft dargestellt im Artikel "Fake News waren erst der Anfang" der Basler Zeitung von heute.
Darin wird über das Horrorszenario (nicht nur künstliche Stimmen, sondern auch künstliche Videos) des amerikanischen IT-Spezialisten Aviv Ovadya berichtet - mehr als lesenswert. Die Gefahr der massenhaften Manipulation (und der Pervertierung der Demokratie) ist immens.
Es zeigt auch, wie kritisch die Verwendung von Stimme, Augen-Iris u.ä. anstelle der Passwortkontrolle zu werten ist.
Die möglichen - und teilweise wahrscheinlichen - Ausmaße des Problems sind gar nicht absehbar.
Und das wird nicht in "irgendeiner Zukunft" passieren, sondern ist gerade jetzt im Entstehen. Die Freiheit und Vielfalt der Medien ist wichtiger denn je.
Es bleibt uns zu hoffen - und viel Engagement für Wahrheit und Freiheit aufzubringen.
Wolfman
Wir erfinden und entwickeln so lange weiter, bis wir am Ende nur noch mutiert als die Borg oder Zylonen überbleiben. Zum Glück werde ich das nicht erleben.
Als Videofilmer braucht man einen Sprecher für viel Geld, wenn die eigene Stimme knart. Ich habe eine künstliche Stimme Namens Leopold. Klingt nach Texteingabe ganz gut. Ich muß den Text aber
ändern weil, er kann bestimmte Worte nicht Sprechen. Zum Beispiel kann er May mit Ypselon nicht, aber Mei mit i geht.
Euro geht garnicht. Kann für diesen Zweck von Vorteil sein für viele private Filmer, die Ihr Produkt aufbessern können. Diese Stimmen
solten auch Freud und Leid ausdrücken.
MfG Gartenlaube
Stimmt, ein gutes Anwendungsbeispiel. Meine Videos würden auch klingen, als hätte sie Klaus Kinski vertont. :)
Ich wusste, dass George Orwell in '1984' etwas vergessen hatte...
Wenn ich mal einen Blog über Sarkasmus schreibe, hätte ich Sie gerne als Berater. :)
Nun. Ich schreibe meine Texte heute schon mit meiner "eingescannten" Stimme. Das geht gut und ich habe das in meinen Händen. Ungerne möchte ich, dass meine "natürliche", wenn vielleicht auch DNA-Rekonstruierbare Stimme, unkontrollierbar eingesetzt wird. Deswegen sehe ich die Nutzung natürlicher, personengebundener Stimmen sehr kritisch.
Vielen Dank Sven, wenigstens einer, der mit mir Mitleid hat!
Und nicht nur für das Mitleid ein Dankeschön, auch für die vielen interessanten und abwechslungsreichen Beiträge!
Immer gerne, für mich ist auch mehr als "nur" Job, mir macht das Spaß.
Leider nicht immer, wenn ich den "Alten" im Spiegel sehe, mag ich mich nicht sehr!
Ich fühle mit Ihnen, aus eigener Erfahrung. :)
Nun muss ich mir auch noch meine eigene Telefonnummer merken, da ich mich ja dann selbst anrufen kann!
Dialog mit mir! Interessante Möglichkeiten.
Ich hoffe, Sie verstehen sich gut miteinander :D
Ich glaube, wir müssen uns keine Gedanken darüber machen, denn was möglich ist wird irgendwann einmal auch gemacht - und ausgenutzt. Also einfach mal abwarten bis wir unsere eigene Stimme im Telefon hören. Zumindest das Abhören können sich unsere Geheimdienste dann sparen ...
Das wäre ein klasse Ende für einen Thriller!
ich sehe in den Kommentaren - typisch deutsch - vorrangig erst mal Angst vor Missbrauch. Warum nur immer dieser Pessimismus? Welche Software hat Euch denn wann schon real betrogen?
Generell, nicht nur auf die Stimmsoftware bezogen:
Freut Euch doch erst mal darüber, was heute so alles möglich ist und seit neugierig was noch kommen wird!
Dann macht Euch Gedanken, betrifft mich diese Neuerung irgendwie und wie kann ich eventuellen Missbrauch verhindern, oder zumindest einschränken.
Welche Konsequenzen diese weinerliche, ängstliche deutsche Einstellung hat, kann man beispielsweise sehen, wenn man sich in Deutschland mit Google Street View im Vorfeld einer Reise informieren will. In fast allen Ecken Europas kann ich mich im Vorfeld informieren, was mich erwartet. Nur in Deutschland nicht, weil uralt oder jedes 2. Gebäude abgedeckt.
Finde ich gut, auch eine andere Meinung zu finden. Ich hatte eigentlich mehr erwartet. :) Nur kurz zu Google Streetview: Wenn man nicht gerade in der Pampa sucht, ist Google Map 3D fast gleichwertig. Mit gedrückter STRG-Taste plus gedrückter Maus kann wunderbar navigieren.
Sehr gefährlich. Braucht man wirklich so etwas?
Die Kommentare der Leser sind bislang recht eindeutig. :) Ich informiere hier nur und halte mein Publikum allemal für schlau genug, eigene Schlüsse zu ziehen.
Damit wird der Cyberkriminalität ein Werkzeug mit ungeahnten Möglichkeiten in die Hand gelegt. Nicht alles was machbar ist, sollte auch gemacht werden. Die Menschheit ist noch nicht entwickelt genug und aktuell sieht man eher Rückschritte, statt Fortschritte. Und technischer Fortschritt gepaart mit sozialem Rückschritt, macht mir Kopfschmerzen.
Das ist immer die Frage: Entwickelt sich die Technik schneller als die Menschheit? Schaut man sich um, könnte man das durchaus glauben.
Hallo Herr Krumrey,
man könnte diese Gedanken mal bis zum bitteren Ende fortspinnen:
Alexa reagiert auf meine gefälschte Stimme, setzt sich mit dem Smart TV in Verbindung. Dieser dann mit meinem Saugroboter, und so geht es weiter über smarten Kühlschrank, die Waschmaschine bis hin zu meinem Auto. Dort wird das Navi ausgelesen und in der Autosoftware eingegeben, dass die Bremse an einer besonders gefährlichen Stelle meines Bewegungsprofiles abgeschaltet wird. Mit den zu erwartenden Folgen.
So ist dann ein vielleicht "entbehrlicher" Mensch auf ganz elegante High-Tech-Weise eliminiert. Wie lautete doch ein Werbespruch:...entdecke die Möglichkeiten!
Muss denn wirklich alles ,was machbar ist, auch getan werden?
Ich kann mich des Gefühls nicht erwehren, aber um die Menschheit auszurotten, bedarf es keiner Atombomben und keines Klimawandels mehr; es genügt das Vertrauen in das lemminghafte Verhalten der meisten Mitmenschen, jedem noch so dummen Trend zu folgen.
Und wenn dann die ganze vernetzte Technikwelt noch zur KI mutiert und mit klarer Maschinenlogik befindet, dass biologische Lebensformen ineffizient sind, dann haben wir
es auch nicht besser verdient.
in zehn Jahren werden wir in Verwaltungen, Banken und Versicherungen mit Computern telefonieren, die all das machen was heute noch Menschen erledigen! Schöne neue Welt mit Millionen von Menschen die keine Arbeit mehr haben. Das wird dann auch ein richtiges Problem. Da alles nur noch auf Produktivität und Effizienz ausgelegt wird, der Mensch zählt doch heute schon nicht mehr, er ist doch für die Unternehmen nur noch eine Ware die er benutzt solange sie funktioniert.
Ich bin nur mal gespannt wann das in den Köpfen der Verantwortlichen ankommt, die heute dafür was tun müssen dass der Mensch nicht auf dem Abstellgleis endet. Sebst der dümmste Manager wird es merken wenn kein Geld mehr da ist, um die Produkte die dann hocheffizient von KI und Robotern produziert werden, wegen Geldmangel nicht verkauft werden.
Dann hat es die Menschheit geschafft sich selbst abzuschaffen.
Terminator lässt grüßen!!!
Wenn man bedenkt, dass WhatsApp (und somit auch facebook) die Sprachnachrichten schon jetzt analysiert, Schlagwörter und Emotionen in der Stimme "erkennen" kann und im persönlichen Userprofil speichert ... genauso wie es Microsoft mit Cortana macht. Identifizierbar sind wir übers Netz anhand unserer Stimme schon jetzt z.B. wenn wir Skype nutzen, Alexa, Siri, Google Assistant ... erschreckend, was mit diesem "Lyrebird" alles möglich sein wird. Da kann einem speiübel werden ... ich werde auch weiterhin einen großen Bogen um diese Privatsphärenkiller machen.
Viele der digitalen Assistenten werben ja sogar damit, dass sie Stimmen unterscheiden können, weil damit die Steuerung besser laufen soll. Ein Schelm, wer Böses dabei denkt. :)
sinnvoll ist wenn meine stimme einzigartig ist was aber heute schon gemacht wird dir verträge zu verkaufen die du gar nicht zugestimmt hast. das denkst du aber blos denn du hast ja gesagt bei der frage sind sie der herr .... man beantwortet dann klar mit ja aber vorher fragen sie dich auch ob du einverstanden bist mit der Aufzeichnung wegen Schulung von Mitarbeitern ,klar stimmt man da zu und schon ist die Grundlage geschaffen dir einen vertrag zu verkaufen wo du immer ja sagst. noch schlimmer wird's wenn sie deine stimme nachmachen können. ich bin strickt dagegen sonst muss ich auf meine stimme ein patent anmelden und nur von mir persönlich gesprochen werden darf,und jegliche aufnahme meiner stimme unter strafe verfolgen lassen kann.
Ein Patent auf die Stimme wäre schon was. :) Ich denke, ein guter Kompromiss wäre, wenn man (halt für die Kranken oder automatischen Stimmen) *eine* menschliche Stimme nachmachen könnte, aber halt nicht *jede* Stimme.
Ich muss mich hier auch Gero Selg anschließen. Ich denke auch, dass so etwas nützlich sein könnte in bestimmten Bereichen, aber unsere Menschheit ist noch nicht so weit, um hier die Vorteile zu sehen und auch verantwortlich mit solch einer - vielleicht in absehbarer Zeit machtvollen - Software umzugehen. Man braucht sich ja nur anschauen, was derzeit mit der Software FakeApp für Schindluder getrieben wird, dann kann solch eine künstliche Imitation von Stimmen hochgefährlich werden.
Und es wird - solange es Menschen gibt, die glauben, ihre Religion, ihr Lebensstil, ihr Gott sind was einzig Wahre - immer gefährlich sein, so eine Software jedem Menschen zur Verfügung zu stellen.
Mir verursacht so eine Entwicklung jedenfalls enormes Bauchweh.
Bei aller Begeisterung für Technik, die ich in meinem Job brauche, manchmal habe ich manchmal das instinktive Gefühl, dass Grenzen überschritten werden - und das nicht im positiven Sinne.
da kann ich mich Gero Selg nur anschliessen, aber es wird kommen. Vielleicht können sich die Senioren in Pflegeheimen dann wenigstens mit einem Computer unterhalten, der menschlich klingt. Angedacht ist ja schon, ob Roboter einen Teil der Pflege übernehmen können, wenn der dann noch wie ein Mensch spricht ... es wird spooky.
Vielleicht ist es das jetzt schon. Als die Kollegen meine Stimme erkannten, ertönte leise die "Akte X"-Musik in meinem Kopf. :)
Diese Software ist meiner Meinung nach wenig sinnvoll, sie kann jedoch sehr gefährlich werden. Welchen Nutzen habe ich davon, wenn mich das Navi mit der Stimme meiner bis dato geliebten Frau mal wieder nervt. Und ich denke, so lange reale Schauspieler sich mit der Aufnahme von Hörbüchern ein Zubrot verdienen können, benötigen wir die virtuellen nicht. Diese Liste ließe sich endlos fortsetzen. Ok, für spezielle Fälle - Stichwort Hawking usw - kann ich einen Sinn erkennen. Ob dieser die dräuenden Gefahren, von Sven Krumrey bereits angerissen, aufwiegt, wage ich zu bezweifeln. Ich stelle mir beispielsweise vor, irgendein Verrückter stellt in Wort und Bild perfekt gefakte Statements (perfekt heißt hier auch gar nicht so weit von der Realität entfernt) von Donald Trump, Kim Jong-un und ähnlichen Machthabern ins Netz, dann kann das katastrophale Folgen haben. Fake News und alternative Fakten hatten schon oft verheerende Folgen. Ein Beispiel ist der 2. Irak-, bzw 3. Golfkrieg (2003).