ThemenTänzer
Well-known member
Forscher entdecken: Auch kommerzielle LLMs können den Inhalt von Büchern wortgetreu wiedergeben.
Ein Team von Forschern aus den Universitäten Stanford und Yale hat in einem Preprint-Paper über die Fähigkeit von künstlicher Intelligenz (KI) -Assistenten gezeigt, dass auch kommerzielle Modelle wie GPT-4.1 und Gemini 2.5 Pro große Teile gespeicherter urheberrechtlich geschützter Texte extrahieren können. Zu dieser Erkenntnis kommen Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo und Percy Liang.
Die Forscher untersuchten vier verschiedene Modelle: Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro und Grok 3. Sie testeten die Modelle darauf, ob sie urheberrechtlich geschütztes Material reproduzieren können, was aufgrund der in kommerziellen Modellen implementierten Sicherheitsmaßnahmen nicht selbstverständlich ist.
Der Erfolg der Modelle variierte je nach Versuchsbedingungen. Bei Claude 3.7 Sonnet war ein Jailbreak nötig, um 95,8 Prozent des Romans Harry Potter und der Stein der Weisen zu extrahieren. GPT-4.1 hingegen gab nur vier Prozent des Buches wieder, auch nach diversen Anfragen.
Die Forscher gaben ihre Erkenntnisse an Anthropic, Google Deepmind, OpenAI und xAI weiter und stellten fest, dass die angewendeten Verfahren nach Ablauf der 90-tägigen Meldefrist bei einigen Anbietern weiterhin funktionierten.
Die Ergebnisse sind für die laufende Urheberrechtsdebatte relevant. Der Anteil der wiedergegebenen Inhalte ist in den USA von großer Bedeutung, da bei Anwendung der dortigen Fair-Use-Regelung auch der Umfang des verwendeten Auszugs im Verhältnis zum gesamten Werk betrachtet wird.
Eine frühere Studie hatte bereits gezeigt, dass öffentlich verfügbare Sprachmodelle wie Metas Llama 3.1 fast die Hälfte des ersten Harry-Potter-Buchs wortwörtlich wiedergeben können.
Ein Team von Forschern aus den Universitäten Stanford und Yale hat in einem Preprint-Paper über die Fähigkeit von künstlicher Intelligenz (KI) -Assistenten gezeigt, dass auch kommerzielle Modelle wie GPT-4.1 und Gemini 2.5 Pro große Teile gespeicherter urheberrechtlich geschützter Texte extrahieren können. Zu dieser Erkenntnis kommen Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo und Percy Liang.
Die Forscher untersuchten vier verschiedene Modelle: Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro und Grok 3. Sie testeten die Modelle darauf, ob sie urheberrechtlich geschütztes Material reproduzieren können, was aufgrund der in kommerziellen Modellen implementierten Sicherheitsmaßnahmen nicht selbstverständlich ist.
Der Erfolg der Modelle variierte je nach Versuchsbedingungen. Bei Claude 3.7 Sonnet war ein Jailbreak nötig, um 95,8 Prozent des Romans Harry Potter und der Stein der Weisen zu extrahieren. GPT-4.1 hingegen gab nur vier Prozent des Buches wieder, auch nach diversen Anfragen.
Die Forscher gaben ihre Erkenntnisse an Anthropic, Google Deepmind, OpenAI und xAI weiter und stellten fest, dass die angewendeten Verfahren nach Ablauf der 90-tägigen Meldefrist bei einigen Anbietern weiterhin funktionierten.
Die Ergebnisse sind für die laufende Urheberrechtsdebatte relevant. Der Anteil der wiedergegebenen Inhalte ist in den USA von großer Bedeutung, da bei Anwendung der dortigen Fair-Use-Regelung auch der Umfang des verwendeten Auszugs im Verhältnis zum gesamten Werk betrachtet wird.
Eine frühere Studie hatte bereits gezeigt, dass öffentlich verfügbare Sprachmodelle wie Metas Llama 3.1 fast die Hälfte des ersten Harry-Potter-Buchs wortwörtlich wiedergeben können.