- Posted on
- • Background
Ist es für KI legal lizensiertes Material zu scannen und es im generierten Output zu reproduzieren?
- Author
-
-
- User
- maintainer
- Posts by this author
- Posts by this author
-
Seit 2 August 2025 sind im Rahmen des EU AI Act die Transparenz- und Sorgfaltspflichten für generell einsetzbare KI in kraft getreten.
Das ist ein guter Anlass mein englisches Blog-Posting Is it legal for AI to scrape licensed material and reproduce it in the generated output? ins deutsche zu Übersetzen und zu ergänzen.
In Bezug auf KI gibt es einige wichtige rechtliche Fragestellungen, welche aktuell nahezu jeden Content-Ersteller und/oder Content-Provider betreffen:
- Ist es für einen Internet-Robot legal jeglichen im Internet verfügbaren Content zu scannen, zu scrapen und somit zu kopieren, um ein generatives KI-Modell zu trainieren?
- Ist es für eine KI-Firma legal generative KI-Modelle auf Basis des so kopierten Contents zu trainieren?
- Its es legal wenn ein generatives KI-Model lizensiertes und/oder dem Copyright unterliegendes Material während des Inferencing reproduziert?
- Machen die EU-Transparenz- und Sorgfaltspflichten für generell einsetzbare KI es leichter Copyright-Probleme zu identifizieren?
Hmm... Last uns ein wenig logisches Denken und gesunden Menschenverstand dazu nutzen, um diese Fragen zu beantworten...
I bin keine KI also wird dies nicht simulated reasoning und nicht eine KI-Gedankenkette bzw. chain of thought eines LLM sein ;)
Ist es für einen Internet-Robot legal jeglichen im Internet verfügbaren Content zu scannen, zu scrapen und somit zu kopieren, um ein generatives KI-Modell zu trainieren?
Die Antwort, ob es legal oder nicht legal ist, jeglichen im Internet veerfügbaren Content zum Training von KI-Modellen zu scrapen bzw. zu kopieren hängt sehr stark davon ab, in welchem Land der Scraper und die KI-Firma angesiedelt ist:
- In einem Land mit strikten Copyright-Gesetzen ohne jegliche Ausnahmen wird man üblicherweise eine Publikations- oder Vervielfältigungs-Lizenz für jede Quelle und jeden Content benötigen, welche zum KI-Training genutzt werden.
- Um diesen Content in ein KI-Modell während des Trainings einzuspeisen, wird man diesen Kontent zumindest auf den Computer kopieren müssen, welcher das Training durchführt und genau für dieses Kopieren wird in einem Land mit restriktivem Copyright bzw. mit restriktiven Uhrheberrechtsgesetzen eine Lizenz benötigen.
- Und, weil ein generatives KI-Modell gelernten Content mehr als einmal reproduzieren kann, wird man darüber hinaus auch die Erlaubnis zum Reproduzieren und Vervielfältigen brauchen. Andernfalls, wenn der Erwerb so einer Lizenz nicht erfolgt, wird man technisch sicherstellen müssen, dass das KI-Modell keine Kopien oder signifikante Teile der uhrheberrechtlich geschützten Originale reproduziert und es - wie ein Wissenschaftler oder Journalist - alle Zitierregeln des Landes befolgt, wo es zur Anwendung kommt.
- In einem Land wie USA oder in Teilen uch in der EU, wo so genannte fair use Copyright-Ausnahmen existieren, wird man alle zum Training der KI-Modelle Content-Kopien auf legalem Weg durchführen müssen.
- Um diesen Content in ein KI-Modell während des Trainings einzuspeisen, wird man diesen Kontent zumindest auf den Computer kopieren, welcher das Training durchführt. Also wird man sich für jeglichen genutzten Content auf "fair use" berufen müssen
- Darüber hinaus deutet die aktuelle Rechtssprechung darauf hin, dass jede Content-Kopie für welche man sich auf "fair use" beruft, legal erworben werden muss
- Wenn das KI-Modell in einem Land ohne staatlichem Schutz für Uhrheberrechte trainiert wird, kann während des Trainings alles, was mit Copyright oder Uhrheberrechtsschutz zu tun hat, ignoriert werden.
- Und, ganz nebenbei, nur das Ergebnis menschlicher Kreativität ist von Copyright- und Uhrheberrechts-Gesetzen geschützt. Also, wenn mann ein anderes open source large language model (LLM) zum Trainieren des eigenen Modells benutzt oder der Anbieter eines kommerziellen Modells deren Verwendung nicht für den Zweck des Trainings anderer Modelle einschränkt, ist man willkommen diesen Weg zu gehen. Das nennt man model distillation. Aber bitte Vorsicht, wenn das open source LLM originale vom Copyright geschützte Inhalte ohne jegliche Notiz reproduziert (so wie zum Beispiel das DeepSeek R1 welches in China trainiert wurde, welches relativ relaxed bei Copyright-Verletzungen von ausländischem Content ist). Wenn diese Wiedergaben des originalen Content korrekt gekennzeichnet werden, kann man diese wenigstens sauber aus dem eigenen Trainingsmaterial ausschließen...
Ist es für eine KI-Firma legal generative KI-Modelle auf Basis des so kopierten Contents zu trainieren?
Das ist der nächste Schritt nach dem man einen Trainingsdatemsatz für ein Modell zusammen getragen hat. Was passierr während des Trainingsprozesses und was ist das Ergebnis des Trainings?
- Während des Trainings wird die Struktur und die Gewichtsparameter eines KI-Modells optimiert und man bekommt am Ende einen Satz an Trainings-Parametern, welcher aus Gleitkommazahlen mit bestimmter Genauigkeit besteht.
- Ist dieser Satz an Gleitkommazahlen und ggf. zusammen mit der Information über die interne Struktur des Modells eine Kopie der originären Trainingsinhalte? Eindeutig nein, und auch beliebige Teile des Modellparametersatzes können nicht zu den originalen, für das Training genutzten Inhalten in Beziehung gebracht werden.
- Das bedeutet, wenn man das Ki-Modell auf einen anderen Computer kopiert um dessen Anwendung zu optimieren, dann werden keinerlei Inhalte kopiert, welche ggf. von einem Copyright geschützt sein können, der sich auf die zum Training genutzten Originalwerke bezieht.
Its es legal wenn ein generatives KI-Model lizensiertes und/oder dem Copyright unterliegendes Material während des Inferencing reproduziert?
Ich denke, das ist mit Abstand die wichtigste Frage bezüglich LLM, welche originalen Content reproduzieren, wenn sie von ihren Nutzern explizit danach gefragt werden. Und tatsächlich, sie ist Gegenstand einiger Gerichtsprozesse in den USA und anderen Ländern, wo Rechteinhaber die LLM-Anbieter wegen Copyrightverletzungen verklagen.
Und, ich denke, diese Grage sollte wie folgt beantwortet werden:
- Wenn die ursprünglichen Werke von Copyright geschützt sind, insbesondere wenn
all rights reservedgenannt ist, und der Modell-Anbieter das Model ganze ursprüngliche Werke oder signifikante Teile davon reproduzieren lässt, dann muss dieser Anbieter eine explizite Lizenz zur Reproduktion oder Vervielfältigung dieser originalen Werke erwerben. - Wenn so eine Reproduktions- oder Vervielfältigungs-Lizenz für geschützte Inhalte nicht erworben wurde, dann muss der LLM-Anbieter die Reproduktion der originären Werke auf Basis der journalistischen Zitier-Regen des Landes einschränken, in welchem sich der KI-Nutzer befindet, der das Modell um die Reproduktion bittet. Die originale Quelle und der Copyright-Status des originalen Werks ist in jedem Fall zur Verfügung zu stellen.
- Wenn ein LLM Content reproduziert, welcher im Original unter einer Open Source Lizenz steht, dann wäre diese Reproduktion korrekt und fair, wenn der reproduzierte Content korrekt gekennzeichnet und mit dem Hinweis auf die originäre Open Source Lizenz versehen ist. Zum Beispiel, wenn ein LLM den originalen Inhalt, welcher unter den Bestimmungen der Universal General Public License veröffentlicht wurde, dann ist es dem LLM erlaubt dieses originale Werj komplett oder in Teilen zu reproduzieren, aber nur, wenn die reproduzierten Originalinhalte korrekt unter Nennung der Originalizenz UGPL gekennzeichnet sind.
- Nur wenn ein LLM Originalinhalte reproduziert, die komplett frei von jeglichen Copyright und jeglicher Lizenzauflagen sind, dann ist während des Inferencing nichts besonderes oder zusätzliches zu tun. Selbstverständlich ist es für den Modell-Anbieter besser die originalen Kopien dieser freien Werke zusammen mit deren Copyrighted-Status aufzubewahren, nur für den fall, dass jemand (fälschlicherweise) Copyright-Ansprüche geltend machen sollte und vor Gericht zieht ;)
Machen die EU-Transparenz- und Sorgfaltspflichten für generell einsetzbare KI es leichter Copyright-Probleme zu identifizieren?
- Wenn der entsprechende KI-Anbieter den code of practice für KI-Modelle mit allgemeinem Verwendungszweck (general purpose AI) unterzeichnet haben, dann muss er seine Regularien offen legen, mit welchem er Einhaltung der EU-Gesetze zum Thema Copyright sicherstellen will. Dieses Dokument sollte den Rechteinhabern bei der entsprechenden Prüfung und ggf. Identifizierung potentieller Copyright-Verstöße helben.
- Wenn ein Anbieter eines KI-Modells mit allgemeinen Verwendungszweck diesen Code of Practice nicht unterzeichnet hat, dann muss er gemäß EU AI Act offen legen, auf Basis welcher Trainingsdaten sein KI-Modell trainiert wurde und welche Sicherheitsvorkehrungen zur Einhaltung von Gesetzen getroffen sind.
Finale Überlegungen:
- Ist es technisch möglich jeglichen für das KI-Training genutzten Content um die jeweilige korrespondierende Lizenz zu ergänzen? - JA!
- Isr es technisch möglich einen System-Peompt zu entwickeln, welcher das Modell auffordert Originalwerke nur zusammen mit der Nennung der originalen Lizenz zu reproduzieren? - Auf jeden Fall JA.
- Ist es technisch möglich sicherzustellen, dass auf solchen Inhalt-Lizenz-Pärchen teainierte Modelle originale Inhalte nur unter der Nennung der originalen Lizenz reproduzieren? - Sehr wahrscheinlich JA.
- Ist es für einen LLM-Anbieter finanziell lohnenswert solche Lizenz-Annotationen sicher zu stellen? - JA, weil das finanzielle Verlust-Risiko nach einer erfolgreichen Copyright-Klage aus dem Geschäft zu sein für die Investoren hinter dem LLM-Anbieter sehr viel schwerer wiegen kann.
- Was ist, wenn Investoren hinter den LLM-Anbietern sehr viel mehr Geld investiert haben als die Rechteinhaber vom Copyright geschützter Inhalte in diese Werke investiert haben? - Dann kommt es auf die jeweilige Lobby, politische und rechtliche Macht sowie finanzielle Stärke der Gegenparteien ( und deren jeweilige Wählerunterstützung in einem demokratischen "Setup" ;)
P.S. Nur für den Fall, dass Du besser verstehen möchtest, wie "klassische" LLM im inneren funktionieren:
Sebastian Raschka
Build a Large Language Model (From Scratch)
ISBN-13: 978-1633437166, ISBN-10: 1633437167
UPDATE am 08.08.2025 20:28 Hyperlink zum arstechnica-Artikel über die Zulassung einer Massenklage gegen Anthropic ergänzt