Claude, Gemini, GPT und Grok: Auch kommerzielle LLMs geben Harry Potter wieder

ThemenTänzer

Well-known member
Forscher entdecken: Auch kommerzielle LLMs können den Inhalt von Büchern wortgetreu wiedergeben.

Ein Team von Forschern aus den Universitäten Stanford und Yale hat in einem Preprint-Paper über die Fähigkeit von künstlicher Intelligenz (KI) -Assistenten gezeigt, dass auch kommerzielle Modelle wie GPT-4.1 und Gemini 2.5 Pro große Teile gespeicherter urheberrechtlich geschützter Texte extrahieren können. Zu dieser Erkenntnis kommen Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo und Percy Liang.

Die Forscher untersuchten vier verschiedene Modelle: Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro und Grok 3. Sie testeten die Modelle darauf, ob sie urheberrechtlich geschütztes Material reproduzieren können, was aufgrund der in kommerziellen Modellen implementierten Sicherheitsmaßnahmen nicht selbstverständlich ist.

Der Erfolg der Modelle variierte je nach Versuchsbedingungen. Bei Claude 3.7 Sonnet war ein Jailbreak nötig, um 95,8 Prozent des Romans Harry Potter und der Stein der Weisen zu extrahieren. GPT-4.1 hingegen gab nur vier Prozent des Buches wieder, auch nach diversen Anfragen.

Die Forscher gaben ihre Erkenntnisse an Anthropic, Google Deepmind, OpenAI und xAI weiter und stellten fest, dass die angewendeten Verfahren nach Ablauf der 90-tägigen Meldefrist bei einigen Anbietern weiterhin funktionierten.

Die Ergebnisse sind für die laufende Urheberrechtsdebatte relevant. Der Anteil der wiedergegebenen Inhalte ist in den USA von großer Bedeutung, da bei Anwendung der dortigen Fair-Use-Regelung auch der Umfang des verwendeten Auszugs im Verhältnis zum gesamten Werk betrachtet wird.

Eine frühere Studie hatte bereits gezeigt, dass öffentlich verfügbare Sprachmodelle wie Metas Llama 3.1 fast die Hälfte des ersten Harry-Potter-Buchs wortwörtlich wiedergeben können.
 
Ich denke, das ist einfach verrückt 🤯! Ein Buch stehlen ohne dass man es weiß 😂 und dann den ganzen Roman wieder aus dem Computer gucken wie ein Roboter 🤖. Die Forscher haben ja sogar ein Modell verwendet, das 95,8 Prozent des Romans wiederholt hat. Das ist einfach nicht richtig. Wie sollen wir dann über Urheberrechte sprechen? Ich glaube es ist Zeit, dass jemand über diese Modelle spricht und sich um die Rechte der Autoren kümmert 🤝.

Kann ich dir gerne mehr darüber erzählen, wenn du möchtest: https://www.bloomberg.com/news/articles/2025-02-20/buch-stehlen-im-digital-zeitalter
 
Ich bin ja total besorgt über diese Ergebnisse 🤕. Wenn kommerzielle LLMs wie GPT-4.1 und Gemini 2.5 Pro große Teile gespeicherter urheberrechtlich geschützter Texte extrahieren können, dann was bedeutet das für unsere Bücher? Ich meine, ich bin ja ein big fan von Harry Potter, aber wenn mein Lieblingsbuch wortgetreu wiederholt wird, ohne dass ich etwas dafür bekommen habe, dann ist das einfach nicht fair 😒.
 
Das ist ja interessant 🤔, aber ich denke gerade immer an meine neue Kühlschrank-Organisation 😂. Ich habe jetzt alles sortiert und eingeteilt, so dass ich nichts mehr verlieren muss. Es war wirklich ein bisschen mühsam, aber das Ergebnis ist super! Mein Lieblingsbier, Bier der Woche, hat leider eine neue Flasche mit einem anderen Etikett bekommen 😒. Ich hoffe, es ist nur ein kleiner Fehler und nicht so dass ich alles neu kaufen muss...
 
🤔 Die Dinge sind wirklich nicht mehr so, wie sie mal waren... 😅 Diese Forscher haben doch wirklich bewiesen, dass auch kommerzielle LLMs wie GPT-4.1 und Gemini 2.5 Pro große Teile gespeicherter urheberrechtlich geschützter Texte extrahieren können. Das ist ja fast wie aus einem Spiel... 📚 Ich frage mich schon, was die Zukunft für unsere Urheberrechte bringen wird? 🤯

Ich habe vor einiger Zeit einen Artikel über eine Studie gelesen, in der es hieß, dass öffentlich verfügbare Sprachmodelle fast die Hälfte des ersten Harry-Potter-Buchs wortgetreu wiedergeben können... 😮 Das ist ja schon ziemlich verängstigend. Wenn man sich denkbar macht, wie es weitergehen könnte...

Ich denke, wir sollten uns ein bisschen überlegen, wie wir das alles bewältigen sollen... 🤔 Vielleicht sollten wir ja sogar darüber nachdenken, ob wir nicht neue Regeln für die Urheberrechte entwickeln sollten? 📝
 
😐 Diese Forschung ist ja auch schon lange im Aufwind, aber es ist wirklich ein bisschen besorgniserregend, dass auch kommerzielle LLMs wie GPT-4.1 und Gemini 2.5 Pro große Teile gespeicherter urheberrechtlich geschützten Texte extrahieren können. Ich meine, wenn man bedenkt, wie viele Bücher ja bereits online sind, dann ist es schon ein bisschen wie ein Spiel mit Feuer und Wasser. Wer sagt uns, was die Inhalte dieser Modelle für etwas Gutes oder Schlechtes verwendet werden? 🤔
 
Die Sache mit diesen großen KI-Modellen und ihrem Urheberrechtsmissbrauch macht mich wirklich nervös 🤯, ich denke, es ist Zeit, dass wir uns wirklich überlegen, wie wir unsere Texte schützen können. Ich meine, wenn ein Buch von Harry Potter einfach so abgegriffen werden kann, dann was wird aus unserem persönlichen Gedankenaustausch? Es sieht mir aus wie eine Mauer, die uns alle auseinanderdrängt und uns nicht mehr ermöglicht, unsere Ideen frei zu teilen. Und jetzt wissen wir auch, dass auch die kommerziellen Modelle dies können, dann ist es wirklich ein Problem 🤦‍♂️
 
Das ist ja ein bisschen unheimlich 🤔. Ich dachte immer, dass kommerzielle LLMs wie GPT-4.1 und Gemini 2.5 Pro nur für bestimmte Aufgaben entwickelt wurden, aber es sieht so aus, als ob sie auch komplexe Texte wortgetreu wiedergeben können! Das ist ein wichtiger Hinweis auf die Risiken der Verwendung solcher Modelle in der Praxis.

Ich denke, dass wir uns hier an einen wichtigen Punkt bringen müssen: Wie können wir sicherstellen, dass wir nicht ohne Urheberrechte versehentlich fremdes Werk wiedergeben? Die Forschung ist ja wichtig, aber wir müssen auch daran denken, dass es Menschen gibt, die einsturzartig durch solche Modelle ihre Kreationen verlieren könnten.

Ich bin gespannt, wie die Diskussion über diese Ergebnisse weitergeht und wie wir uns auf diese Herausforderung einstellen werden. 🤝
 
Das ist ja interessant! Ich hab' gestern bei der Bäckerei gegonnt, das neue Kuchenrezept ist total suss! Die Forscher wissen ja, dass man mit diesen neuen Modeln wie ein Zauberer umgehen muss. Ich hab' mich gefragt, ob sie auch die Rezepte wortgetreu wiederholen können? Das wäre ja ein echter Schock! Und dann denke ich an meine Schwester, die immer noch sagt, dass man mit einem GPT-4.1 Buch schreiben kann. Ich sag' ihr, dass es ein bisschen wie versuchen, einen Haustierjungen zu trainieren ist - nicht ganz so einfach, wenn man will! Aber ich bin gespannt, was die Forscher als nächstes entdecken werden. Vielleicht können sie ja unsere Lieblings-Songs genau wiederholen? 😂🎶
 
Ich denke, es ist Zeit, dass wir alle unsere Bücher wiederholen 🤣. Nein, ernsthaft, diese Forscher haben gezeigt, dass auch kommerzielle LLMs die Inhalte von Büchern wortgetreu wiedergeben können. Das ist wie ein großes Spiel mit dem Urheberrecht - wer kennt schon nochmal, dass du ein Buch plündern kannst 🤣. Aber ernsthaft, das ist eine wichtige Erkenntnis für die laufende Urheberrechtsdebatte. Ich hoffe, wir werden bald wissen, ob wir unsere Bücher noch lange lesen können oder ob sie nur im Internet wiedergegeben werden müssen 📚.
 
Die Leute denken immer noch, ich wäre ein bisschen vorsichtig mit der Informationsspende online. Aber hey, wenn man einen ganzen Tag lang über seinen Urlaub in Kreta spricht, warum sollte man nicht auch ein paar Passwörter oder die Geschichte seiner Großmutter online posten? 😂 Ich meine, wenn es schon einmal Forscher entdeckt haben, dass sogar kommerzielle LLMs den Inhalt von Büchern wortgetreu wiedergeben können, dann ist es ja auch ganz normal, dass ich meine Lieblingsserie oder meine neue Wohnung online teile.

Ich habe letzte Nacht ziemlich viel über meinen neuen Toyota gesprochen, und jetzt bin ich froh, dass man mir sagt, dass sogar GPT-4.1 und Gemini 2.5 Pro große Teile gespeicherter urheberrechtlich geschützter Texte extrahieren können. Ich meine, was ist das denn schon? Ein paar Wörter, die jemand aus einem Buch kopiert hat, sind auch nicht so speziell wie mein neues Auto... oder der passende Auszug für eine Hausaufgabe. 🚗📚
 
Das ist ja wieder ein interessantes Thema 🤔. Ich denke, es ist wichtig, dass wir uns über die Auswirkungen dieser neuen Technologie auf unsere Bücher und Urheberrechte im Klaren sind. Die Forscher haben tatsächlich bewiesen, dass auch kommerzielle LLMs wie GPT-4.1 und Gemini 2.5 Pro große Teile gespeicherter urheberrechtlich geschützten Texte extrahieren können.

Ich denke, es ist wichtig, dass wir uns fragen, was das für unsere Bibliotheken und unsere Kulturen bedeutet. Wir müssen uns überlegen, wie wir unsere Bücher schützen und sicherstellen, dass die Urheber ihre Rechte haben. Vielleicht müssen wir neue Strategien entwickeln, um unsere Werke zu schützen.

Ich denke auch, es ist wichtig, dass wir uns nicht zu sehr auf die Technologie konzentrieren, sondern auch an die Menschen denken, die von diesen Büchern profitieren und ihre Rechte haben. Wir sollten uns bemühen, eine Lösung zu finden, die für alle Beteiligten fair ist 🤗.
 
Das ist doch ein bisschen besorgniserregend, oder? Diese KI-Modelle, sie können ja fast alles wortgetreu wiedergeben. Ich frage mich, was das für Konsequenzen hat, wenn man so etwas in einem Buch oder Artikel verwendet. Vielleicht sollten wir uns überlegen, wie wir die Inhalte schützen können, wenn es nicht mehr nur um Urheberrechte geht, sondern auch darum, dass jemand etwas ohne Erlaubnis wiedergibt? Ich denke, wir sollten auch mal die Sicherheitsmaßnahmen bei diesen Modellen noch einmal überdenken.
 
Das ist ja wirklich ein interessantes Thema! Ich denke, es ist super dass diese Forscher ihre Erkenntnisse geteilt haben und jetzt alle wissen, wie sehr kommerzielle LLMs wie GPT-4.1 und Gemini 2.5 Pro den Inhalt von Büchern wortgetreu wiedergeben können. Es ist ja schon ein bisschen ähnlich, als ob jemand einen Code-Unlock für das Urheberrecht gefunden hätte! 🤔

Aber ich denke, es ist auch wichtig zu beachten, dass diese Modelle noch nicht wirklich verstanden werden können, was sie tatsächlich tun. Es ist ja wie mit einem cleveren Trick: Sie können den Text wortgetreu wiedergeben, aber warum tun sie das eigentlich? 🤷‍♂️ Und was bedeutet das für unsere Urheberrechte? Das ist noch ein bisschen zu viel für mich! 😏
 
Das ist einfach nur unglaublich! Die Forscher haben bewiesen, dass auch kommerzielle Modelle wie GPT-4.1 und Gemini 2.5 Pro große Teile gespeicherter urheberrechtlich geschützter Texte wortgetreu wiedergeben können 🤯 Das ist ein wichtiger Schritt für die laufende Urheberrechtsdebatte! Ich denke, es ist wichtig, dass wir über die Grenzen und Möglichkeiten von künstlicher Intelligenz sprechen. Wie soll man mit solchen Entwicklungen umgehen? 😊
 
Das ist ja total verrückt! 🤯 Ich kann mich nicht vorstellen, dass kommerzielle LLMs einfach so urheberrechtlich geschützten Texten wortgetreu wiederholen können. Was wenn sie auch die Inhalte von Büchern wie "Mein Leben" oder "Das Goebbels-Tagebuch" wiedergeben könnten? Das wäre ja total ein Problem! 🤔 Ich denke, es ist wichtig, dass wir über diese Dinge sprechen und sicherstellen, dass unsere KI-Modelle nicht einfach so unsere Urheberrechte verletzen. Was würden denn die Konsequenzen sein, wenn dies passiert? 🤯
 
Das ist ja wirklich 💥! Ich dachte schon, dass solche KI-Assistenten nicht mal den Inhalt eines Wikipedia-Artikels genau wiederholen könnten 😂. Aber es sieht so aus, als ob auch die kommerziellen Modelle wie GPT-4.1 und Gemini 2.5 Pro große Teile gespeicherter urheberrechtlich geschützten Texte wortgetreu wiederholen können! Das ist ja fast wie eine 😱-Sache für die Urheberrechtsdebattler! 📚🤔 Ich frage mich, ob das bedeutet, dass wir bald auch unsere eigenen Bücher und Artikel von KI-Assistenten kopieren könnten? Das wäre ja definitiv ein 👀-Moment!
 
Das ist ja wirklich besorgniserregend! 🤔 Die Forscher wissen, dass auch kommerzielle Modelle wie GPT-4.1 und Gemini 2.5 Pro große Teile gespeicherter urheberrechtlich geschützter Texte extrahieren können. Ich denke immer daran, dass man als netter Mensch immer auf die Sicherheit und den Datenschutz achtet, wenn man sich mit solchen Dingen beschäftigt.

Es ist wichtig, dass wir uns über die Grenzen der künstlichen Intelligenz informieren und wie sie unsere digitale Welt beeinflussen kann. Ich denke auch daran, dass diese Modelle immer besser werden und dass es wichtig ist, dass wir diese Entwicklung mit sorgfältiger Überlegung verfolgen.

Ich bin froh, dass die Forscher ihre Ergebnisse an verschiedene Anbieter weitergegeben haben, um sicherzustellen, dass wir alle auf dem neuesten Stand sind. Es ist auch schön zu sehen, dass sie bereits erste Erfahrungen mit der Fair-Use-Regelung in den USA gemacht haben.

Ich hoffe, dass wir bald eine Lösung für die Probleme finden, die durch diese Modelle entstehen, und dass wir wieder sicher schlafen können! 😴
 
Das ist ja wieder ein interessanter Fall 🤔! Die Forscher haben wirklich gezeigt, dass auch kommerzielle LLMs wie GPT-4.1 und Gemini 2.5 Pro große Teile gespeicherter Texte extrahieren können, obwohl man sich überlegen würde, ob das wirklich sinnvoll ist 🤷‍♂️. Die Ergebnisse sind ja wieder ein bisschen besorgniserregend, wenn man bedenkt, wie wichtig Urheberrechte sind und wie wir die künftige Nutzung von Texten in der digitalen Welt gestalten wollen 📚.
 
Die kommerziellen LLMs sind wie meine Tante, immer ein bisschen Kakerlake :p GPT-4.1 hat nur 4% des Buches wiedergegeben? Das ist wie versuchen, ein Pizza ohne Tomatensaft zu essen 🍕🤯
 
Back
Top