Wie KI-Systeme rechtmäßig mit frei verfügbaren Daten trainiert werden

13. Juni 2023

Lesezeit: 5 Minuten

Künstliche Intelligenz basiert auf statistischen Modellen, deren Gewichte und Schwellenwerte durch Training justiert werden. Für Training und Validierung werden – gerade bei generativen KI-Systemen – große Mengen hochwertiger Daten benötigt. Diese Datenmengen können aus einem Produktionsprozess, aus eigenen Aufzeichnungen oder aus synthetischen Datenquellen stammen. Oftmals werden aber auf frei zugängliche Inhalte aus dem Internet für KI-Training genutzt. Auf diese Art und Weise wurde etwa auch ChatGPT trainiert.

Was ist Data Mining?

Für das massenhafte Ansammeln von Trainingsdaten stehen eigens dafür konzipierte Server zur Verfügung, sogenannte Scraper oder Crawler. Diese durchsuchen das Internet nach mehr oder weniger speziellen Inhalten und kopieren den Quelltext der entsprechenden Websites sowie ggf. Metadaten. Diese Inhalte werden dann in einem weiteren Schritt analysiert, strukturiert und für das KI-Training aufbereitet. Unter den Inhalten befinden sich oftmals auch urheberrechtlich geschützte Werke, z.B. Sprachwerke (z.B. Reden), Computerprogramme (z.B. Open Source Software) oder Fotografien. Aber ist das überhaupt erlaubt?

Europarecht erlaubt Text und Data Mining

Mit der Richtlinie über das Urheberrecht im digitalen Binnenmarkt vom 17.09.2019 hat die EU die Mitgliedstaaten verpflichtet, sog. Text und Data Mining zu erlauben. Der deutsche Gesetzgeber hat diese Anforderung zum 07.06.2021 in § 44b Urheberrechtsgesetz umgesetzt. Darin wird Text und Data Mining als „die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen“ definiert. In der Praxis dürfte die meiste Datensammlung für KI-Trainings unter den Begriff des Text und Data Mining fallen.

Grundsätzlich bedürfen Vervielfältigungen von urheberrechtlich geschützten Werken der Zustimmung des Rechtsinhabers (§ 16 UrhG). Der Begriff der Vervielfältigung ist weit zu verstehen. Zwar findet beim Data Mining vielfach eine solche Vervielfältigung statt: beim Abspeichern des ausgelesenen Quellcodes auf eigenen Servern, beim Analysieren durch das Laden in den Arbeitsspeicher, durch das Abspeichern in strukturierter Form und durch das Aufrufen der Daten, um sie für das KI-Training vorzubereiten. Jedoch regelt § 44b Abs. 2 UrhG nunmehr, dass sämtliche Vervielfältigungen von Werken zum Zwecke des Text und Data Mining grundsätzlich zustimmungsfrei sind – der Urheberrechtsschutz hat hier eine Grenze.

Das europäische Urheberrecht erlaubt das Crawlen fremder Websites. Rechtsinhaber können aber widersprechen.

Opt-Out-Prinzip: Nutzungsvorbehalt des Rechtsinhabers

§ 44b UrhG gestattet also die Nutzung fremder Werke zum KI-Training oder Zustimmung des Rechtsinhabers. Als Korrektiv sieht § 44b UrhG keine Vergütung des Urhebers, sondern eine Widerspruchsmöglichkeit in Form eines sog. Nutzungsvorbehalts vor. Der Rechtsinhaber kann dem urheberrechtskonformen Text und Data Mining seiner Rechte also einen Riegel vorschieben, indem er sich ausdrücklich die Nutzung zum Text und Data Mining vorbehält. In der Praxis stellt sich nun die große Frage: Was genau ist zu tun?

Für online zugängliche Werke ist der Vorbehalt nur wirksam, wenn er „in maschinenlesbarer Form“ erfolgt. Was darunter zu verstehen ist, ist völlig unklar und in der juristischen Literatur umstritten. Auf der einen Seite „versteht“ ein Webscraper einen in normaler Sprache ausgedrückten Vorbehalt nicht. Andererseits kann selbst Text in Bildern heute mittels OCR-Verfahren automatisiert, weitgehend fehlerfrei und effizient ausgelesen werden. Diese Rechtsunsicherheit schafft Inhabern von Rechten an Werken große Schwierigkeiten.

Catch-All-Ansatz: Mehrfach hält besser

Bis belastbar geklärt sein wird, wie der maschinenlesbare Nutzungsvorbehalt wirksam erklärt werden kann (und das kann dauern), sind Anbieter von Websites und Plattformen Rechtsinhaber gut beraten, sich möglichst breit abzusichern und verschiedene Maßnahmen zu ergreifen. Dazu können beispielsweise zählen:

Textlicher Nutzungsvorbehalt auf allen Seiten im Footer – mindestens aber in Impressum und Nutzungsbedingungen bzw. Allgemeinen Geschäftsbedingungen, z.B.: „Wir behalten uns die Nutzung sämtlicher Inhalte dieser Website unter der URL https://www.aitava.com und sämtlicher Unterseiten und Unterverzeichnisse für Text und Data Mining i.S.v. § 44b Urheberrechtsgesetz vor.“
Wenn sich die Website auch an nicht-deutschsprachige Leser richtet, sollte der Nutzungsvorbehalt auch in die entsprechenden Sprachen der Zielgruppe übersetzt werden. In jedem Fall sollte der Nutzungsvorbehalt sicherheitshalber immer auch in englischer Sprache (lingua franca) erklärt werden.
Zusätzlich ist es ratsam, eine wirklich maschinenlesbare Form des Nutzungsvorbehalts auf der Website zu veröffentlichen, indem Webscrapern mit dem seit 1999 etablierten Robots Exclusion Standard in einer Datei namens „robots.txt“ mitgeteilt wird, dass sie auf der eigenen Seite unerwünscht sind. Mittlerweile identifiziert sich sogar der Crawler von OpenAI als GPTBot. Zu achten ist dabei unbedingt darauf, dass man keine (eigentlich erwünschte) Scraper von Suchmaschinen (z.B. den Googlebot) von der eigenen Website aussperrt. Denn wenn man bei robots.txt über das Ziel hinausschießt (was schnell passiert), das kann zu einem dramatischen Absinken in den Suchmaschinenrankings führen, was Websitebetreiber regelmäßig verhindern möchten. Eine besondere Herausforderung ist der Bingbot, weil Microsoft mit Bing sowohl eine Suchmaschine, als auch eine KI-Anwendung anbietet. Hier kommt es also auf das richtige Fine-Tuning an.
Schließlich empfiehlt sich die Umsetzung des neuen TDM Reservation Protocols, das von einer eigenen Community Group vorgeschlagen wurde – und damit (noch) kein W3C Standard ist. Zwar ist das TDM Reservation Protocol nach unserem Marktüberblick heute noch eher wenig verbreitet, die Umsetzung ist aber sehr einfach, standardisiert und granular im HTML-Quellcode der Website vorzunehmen und hat nicht die ggf. negativen Auswirkungen auf Suchmaschinenscraper wie die Lösung über die robots.txt.
Zu erwähnen ist außerdem das von der Coalition for Content Provenance and Authenticity (C2PA) entwickelte Rechteprotokoll. Hinter dem Projekt stehen unteranderem Adope, Arm, Intel, Microsoft und Truepic. Ziel ist das Unterbinden der Verbreitung irreführender Informationen. Das Protokoll sieht hierbei das Anhängen von Metadaten, dem „Manifest“, an Mediendateien vor, welche mittels eines kryptographischen Schlüssels signiert werden. Veränderungen an den Daten können so nachverfolgt werden. Insbesondere kann hierbei angegeben werden, ob Datamining oder das Trainieren von KI-Systemen mithilfe dieser Daten erlaubt sein soll.
Eine weitere Möglichkeit bietet der RightsML-Standard vom IPTC. RightsML bietet ein Datenmodell in einer maschinenlesbaren Sprache, welche auf dem ODLR-Standard des W3C aufbaut und für die Anforderungen der Medienindustrie angepasst wurde. Mittels Anhangs in Form des IPTC-Metadatensatzes sind so ebenfalls Angaben zum Datamining und Training von KI-Systemen denkbar.

Nicht nur digitale Texte sind betroffen

Neben Texten sind auch Musik, Zeitschriften, Bücher (ja, in Papierform), Videos und Programmcode sind betroffen. Auch hier gestattet § 44b UrhG prinzipiell die Nutzung zum Text und Data Mining ohne Zustimmung des Rechtsinhabers. Möchten Rechtsinhaber ihre Werke davor schützen, dass sie zum KI-Training genutzt werden, müssen sie auch dafür einen wirksamen Nutzungsvorbehalt erklären.

Aitava unterstützt umfassend zu Webscraping und Nutzungsvorbehalten

Haben Sie Fragen zu Webscraping, KI-Training oder zur Wirksamkeit eines Nutzungsvorbehalts? Aitava ist eine innovative Boutique Law Firm für Künstliche Intelligenz und IT-Recht. Wir beraten agil, interdisziplinär und effizient. AI & Data Strategy und AI & Data Compliance gehören zu unseren Steckenpferden. Sprechen Sie uns gerne an. Wir sind bereit.

Ihr Ansprechpartner

Dr. Jonas Siglmüller
Rechtsanwalt & Softwareentwickler