Google SynthID: KI-Inhalte identifizieren

20. Jän.

Screenshot der Website Google SynthID, Bild, text, Video und Audioelemente und Rechtecken zu sehen. — Bild: Google DeepMind

Mit Google SynthID kann der Konzern KI-generierte Inhalte zurückverfolgen und so Fake News Erkennung auf eine neue Stufe heben. Wir blicken auf das Open-Source-Modell, erklären die Funktionsweise und zeigen, was sich jetzt für die Anwender in Deutschland und Österreich ändert.

Worum geht es bei SynthID?

Die Erkennung von KI-generierten Inhalten, wie Texten, Bildern, Videos und Audiodateien, stellt sowohl Menschen als auch Suchmaschinen vor Herausforderungen. Während Menschen mit entsprechender Medienkompetenz eine gewisse Fähigkeit zur Erkennung haben, wird es für Computer schwieriger. Daher hat Google DeepMind, die Innovationsabteilung für maschinelles Lernen und künstliche Intelligenz, ein Kennzeichnungssystem namens SynthID entwickelt, das auch für Fake News Analyse und Fake News Verifizierung genutzt werden kann.

SynthID kann Inhalte, die durch KI-Modelle (z. B. GPT-4 oder Bard) erstellt wurden, mit für das menschliche Auge nicht sichtbaren bzw. hörbaren Merkmalen versehen, um eine spätere Erkennung zu ermöglichen. Dies ist besonders relevant für die KI-gestützte Fake News Erkennung und automatisierte Faktenprüfung.

Wie sieht die Kennzeichnung aus?

Je nach Medium hat das Team von Google DeepMind unterschiedliche Ansätze der Kennzeichnung entwickelt. Bilder und Videos werden mit einer Art Wasserzeichen versehen, das selbst beim Bearbeiten, bei Screenshots oder beim Zuschneiden noch erkennbar bleibt. Das ermöglicht auch in den Suchergebnissen eine bessere Differenzierung zwischen originalen und KI-generierten Inhalten. Dies unterstützt Unternehmen bei der Medienanalyse und potenziellen Fake News und Desinformationen zu erkennen.

SynthID Wasserzeichen auf 6 quadratisch angeordneten Bildern in unterschiedlichen Farb- und Belichtungstönen. Schmetterlinge im Gras. — Bild: Google Deepmind

Bei Texten werden Begriffe, die den Inhalt nicht beeinflussen, ausgetauscht, um ein Erkennungsmuster zu erstellen. Dies könnte langfristig dazu beitragen, Fake News Monitoring effektiver zu gestalten. Ob dieses Erkennungsmuster den Nutzern langfristig durch ähnlich klingende Begriffe auffallen wird, ist aktuell noch fraglich.

Text markiert durch watermarking. Mehrere Absätze mit blau markierten Stellen. — Bild: Google Deepmind

Im Audio-Bereich werden die Audiospuren so bearbeitet, dass der Ton in seiner hörbaren Form nicht beeinträchtigt wird, jedoch alle relevanten Informationen mitliefert. Dies könnte helfen, Fake Shops blacklist und Scammer Websites aufdecken effizienter zu gestalten. Das erhöht die Chancen einer automatischen KI-Erkennung auch bei Podcasts, Voice-Over oder Hörbüchern.

Audiowelle geteilt in vier Abschmitte, abwechselnd grau und blau visualisiert watermarking — Bild: Google Deepmind

Und wo sind die Grenzen?

An seine Grenzen stößt das System beispielsweise bei KI-generierten Texten, die nur wenige Begriffe oder Zeilen umfassen. Je länger der Output, desto sicherer kann das System später ein „Branding“ feststellen und es eindeutig zuordnen, wie Google selbst und heise online schreiben. Dies ist ein wichtiger Faktor für die Betrugswebsites entlarven und Phishing Website erkennen.

Auch kann SynthID lediglich Inhalte erkennen, die durch die Software bearbeitet wurden. Google setzt das System selbst in seinen Sprachmodellen ein. Nach aktuellem Wissensstand wird es jedoch nicht beim Konkurrenten OpenAI in deren Sprachmodell ChatGPT verwendet. Daher lassen sich Texte von ChatGPT auch nicht eindeutig mit SynthID erkennen – die von Google jedoch schon. Dies könnte Unternehmen helfen, Fake News Prävention für Unternehmen besser umzusetzen.

Was wird sich jetzt ändern?

Google kann die eigenen KI-Produktionen mehr oder weniger gut identifizieren und damit auch KI-Content im Web leichter erkennen. Es ist kein Geheimnis, dass der Konzern derzeit mit der Masse an KI-Inhalten und nutzlosen Texten zu kämpfen hat. Daher werden wir sicher weitere Anpassungen in den Website-Rankings und in den Suchergebnissen sehen, was sich direkt auf Online-Reputationsschutz und Fake News als Cyberangriff auswirken könnte.

Die direkte Schlussfolgerung wird sein, dass jener Content, den Google eindeutig als KI-generiert erkennen kann, seltener und in schlechteren Platzierungen den Nutzern ausgespielt wird. Dies bedeutet für Unternehmen eine größere Notwendigkeit, Unternehmensreputation schützen aktiv anzugehen. Aus Sicht der Nutzer dürfte sich die Google-Suche durch wieder bessere Ergebnisse positiv entwickeln. Seitens der SEO-Teams könnte hingegen die erhoffte Produktivitätssteigerung durch KI in den kommenden Monaten wieder verpuffen, wenn Google Blogs und Co schlechter bewertet. Unternehmen müssen daher verstärkt auf KI für Medienverifikation und Machine Learning für Faktenprüfung setzen.

Jennik Pickert

Mit 12 Jahren beim Fernsehen / Radio angefangen, mit 16 sich selbstständig gemacht und mit 19 nach Österreich ausgewandert. Medien und Kommunikation sind sein Spezialgebiet - 4 Jahre lang war er das Gesicht des Deutschen Gründerpreis für Schüler:innen (DGPS), hat Dr. Richard Lutz (DB Vorstandsvorsitzender) zum Interview getroffen und den Westermann-Verlag in der Online-Kommunikation beraten. Neben einem Redaktionsaustausch in Russland hat ihn die Corona-Pandemie zu seinem Projekt „Context-verify“ bewegt, welches Finalist des Social Impact Awards und Teilnehmer des INiTS Hightech Inkubator in Wien ist.

https://www.context-verify.eu/jennik-pickert

Google SynthID: KI-Inhalte identifizieren

EU-Verordnung: KI-Kompetenz wird Pflicht in Österreich

Dein Event-Überblick für 2025 im Bereich KI und Technologie