04. September 2023

Lesezeit: 6 Minuten

Das Training eines KI-Systems geht regelmäßig mit der Verarbeitung personenbezogener Daten einher. Datenschutzrechtlich verantwortlich für diese Verarbeitung ist der KI-Entwickler. Zu dessen Pflichten als Verantwortlicher gehört, die Betroffenen vor Beginn der Verarbeitung darüber zu informieren.

Anwendbarkeit der DS-GVO auf Trainingsdatensätze

Die DS-GVO gilt nur für die Verarbeitung personenbezogener Daten. Personenbezogen sind nach Art. 4 Nr. 1 DS-GVO Daten, die sich auf eine identifizierte natürliche Person beziehen (z.B. der Name), aber auch Daten, die sich auf eine identifizierbare Person beziehen. Deshalb können auch persönliche Angaben (z.B. Alter, Geschlechtsidentität, Ausbildung, Anschrift, Geburtsdatum, genetische Daten, Gesundheitsdaten, Bildaufnahmen), sachliche Angaben (z.B. soziale Beziehungen, finanzielle Situation, Konsumverhalten, Arbeitszeiten, Kommunikationsverhalten. Bewegungsprofil, etc.) und Online-Kennungen (IP-Adressen, Cookies) als personenbezogene Daten bewertet werden. Zu berücksichtigen ist aber, dass sich der Personenbezug nicht aus der Information selbst, sondern erst unter Berücksichtigung des verfügbaren Kontexts ergibt, weshalb eine klare Grenzziehung ohne konkrete Betrachtung des Datensatzes nicht möglich ist. Weil die Trainingsdatensätze häufig durch Webcrawling und Webscraping generiert werden (Einzelheiten hierzu in unserem Beitrag Wie KI-Systeme rechtmäßig mit frei verfügbaren Daten trainiert werden) und das Internet voller personenbezogener Daten ist, enthalten auch solche Trainingsdatensätze oftmals personenbezogene Daten.

Umfang der Informationspflicht

Art. 13 DS-GVO sieht bestimmte Informationspflichte bei Erhebung von personenbezogenen Daten bei der betroffenen Person vor. Auch wenn der Verantwortliche die Daten nicht vom Betroffenen selbst übermittelt bekommt (was beim Webscraping regemäßig der Fall ist), muss er den Betroffenen vor dem Verarbeitungsbeginn umfangreich über die Verarbeitung informieren (sog. Dritterhebung, Art. 14 DS-GVO). Dies umfasst eine Mitteilung,

  • welche Datenkategorien zu welchen Zwecken verarbeitet werden,
  • wer die Empfänger der Daten sind,
  • die etwaige Absicht eines Datentransfers in Drittstaaten,
  • die Dauer der Verarbeitung
  • die Quellen der personenbezogenen Daten
  • u.v.m.

Weil eine Information durch die fehlende Interaktion mit dem Betroffenen bei der Dritterhebung teilweise sehr kompliziert ist, lässt die DS-GVO Ausnahmen von der Informationspflicht zu. Besonders relevant sind diese Ausnahmen für große Trainingsdatensätze, bei denen regelmäßig eine Vielzahl an Personen betroffen sein wird, deren Kontaktdaten nicht mit den Informationen verknüpft sein werden.

Personenbezogene Daten sind oft Beifang beim Sammeln von KI-Trainingdaten. Gerade deshalb müssen sie genau betrachtet werden.

Ausnahme, wenn die Informationen bereits vorliegen

Eine Ausnahme von der Informationspflicht wird gemacht, wenn die betroffene Person bereits über die Informationen verfügt (Art. 13 Abs. 4 bzw. Art. 14 Abs. 5 lit. a) DS-GVO). Dafür muss der Verantwortliche belegen und dokumentieren, wie der Betroffene über die Verarbeitung bereits informiert wurde und welche Informationen er dabei erhalten hat. Die reine Möglichkeit, dass der Empfänger mit dem Inhalt der Informationen rechnen konnte, reicht allerdings noch nicht aus. Beim Training von KI-Systemen bereitet diese Ausnahme  oftmals praktische Schwierigkeiten, da der Betroffene auch von den Zwecken der Verarbeitung oder dem berechtigten Interesse des Verantwortlichen an der Datenverarbeitung Kenntnis haben müsste.

Ausnahme, wenn eine Information unmöglich ist

Von einer Information darf allerdings auch abgesehen werden, soweit die Erteilung dieser Informationen sich als unmöglich erweist (Art. 14 Abs. 5 lit. b) Alt. 1 DS-GVO). Dafür müsste der Verantwortliche die Gründe nachweisen können, die ihn faktisch an der Übermittlung der Information hindern. Beispielsweise ist das der Fall, wenn der Name der betroffenen Person nicht bekannt ist, keine Kontaktdaten vorliegen und der Verantwortliche sich die Kontaktdaten auch nicht besorgen kann. Bei großen Trainingsdatensätzen wird das bei vielen personenbezogenen Daten zutreffen. Je nach Einzelfall kommt es dann darauf an, inwiefern es bezüglich mancher Betroffenen zumindest möglich ist, die Kontaktdaten zu ermitteln.

Ausnahme bei unverhältnismäßig hohem Aufwand

Besondere Praxisrelevanz hat Art. 14 Abs. 5 lit. b) Alt. 2 DS-GVO. Danach ist die Informationspflicht ausgeschlossen, soweit die Erteilung dieser Informationen einen unverhältnismäßigen Aufwand erfordern würde. Das dürfte regelmäßig der Fall sein, wenn das Informationsinteresse der Betroffenen weniger schwerwiegend ist als der Aufwand des Verantwortlichen zur Erteilung der Information. Das Informationsinteresse des Betroffenen steigt z.B. mit der Anzahl der von ihm verarbeiteten Daten, der Profilbildung, der Dauer der Verarbeitung oder wenn besondere Kategorien personenbezogener Daten nach Art. 9 DS-GVO (z.B. Religion oder sexuelle Orientierung) verarbeitet werden. Im Gegenzug steigt der Aufwand des Verantwortlichen z.B. mit einer hohen Anzahl an Betroffenen, der Größe des Datensatzes, bei einer unstrukturierten Zusammenführung von Daten aus verschiedenen Quellen oder mit der grenzüberschreitenden Datenverarbeitung.

Welches Interesse im jeweiligen Einzelfall überwiegt, kann mit Sicherheit nicht ohne Betrachtung der konkreten Datensätze und der Verarbeitungszwecke und -prozesse beurteilt werden. Im Falle der Verarbeitung großer KI-Trainingsdatensätze sprechen aber mit der Größe des Datensatzes, der Tatsache, dass in der Regel keine persönlichen Profile erstellt werden, und der häufig grenzüberschreitenden Datenverarbeitung häufig gute Gründe dafür, einen unverhältnismäßig großen Aufwand des Verantwortlichen zur Erteilung der Information und damit eine Ausnahme von der Informationspflicht anzunehmen.

Besondere Maßnahmen bei unverhältnismäßig hohem Aufwand der Informationserteilung

Zu berücksichtigen ist aber, dass diese Abwägung ordnungsgemäß zu dokumentieren ist und regelmäßig nachzuprüfen, da bei Wegfall der Unverhältnismäßigkeit nachträglich unverzüglich zu informieren ist. Hinzu kommt, dass der Verantwortliche die Interessen der betroffenen Personen durch technische und organisatorische Maßnahmen abzusichern hat. Dazu kann beispielsweise ein niederschwellig zugängliches Tool auf der Website des Verantwortlichen gehören, das die Ausübung von Betroffenenrechten wie dem Auskunfts- oder den Löschungsanspruch ermöglicht. Zudem befreit die Ausnahme der Unverhältnismäßigkeit nicht von jeglicher Informationspflicht: Der Verantwortliche hat die nach Art. 14 DS-GVO erforderlichen Informationen zu veröffentlichen, beispielsweise indem er sie auf seiner Website zugänglich macht.

Empfehlung: Datenschutzfolgenabschätzung durchführen

Bislang ist oftmals ungewiss, welche genauen Maßstäbe die Aufsichtsbehörden an die Verarbeitung personenbezogener Daten zum Training von KI-Systemen anlegen. Die Datenverarbeitung ist deshalb immer mit einer gewissen Rechtsunsicherheit verbunden. Da die Bußgelder bei Verstößen gegen die DS-GVO empfindlich sind – bis zu 20 Mio. Euro oder von bis zu 4 % des gesamten weltweit erzielten Jahresumsatzes eines Unternehmens, Art. 83 Abs. 5 DS-GVO – ist ein sauberer Umgang mit den Daten orientiert an den bislang entwickelten Anwendungsgrundsätzen des Datenschutzrechts unerlässlich.

Sofern nicht ohnehin die Durchführung einer Datenschutzfolgenabschätzung (DSFA) nach Art. 35 Abs. 1 DSGVO vorgeschrieben ist, empfiehlt es sich in der Praxis, eine Datenschutzfolgenabschätzung zumindest auf freiwilliger Basis durchzuführen. In eventuellen behördlichen Verfahren kann die Datenschutzfolgenabschätzung dann an späterer Stelle nicht nur für einen gewissenhaften Umgang mit der datenschutzrechtlichen Problematik angeführt werden. Auch dient die Datenschutzfolgenabschätzung als Selbsttest, ob hinreichende technische und organisatorische Maßnahmen zum Schutz der personenbezogenen Daten ergriffen wurden, zum Beispiel die Pseudonymisierung des Datensatzes.

Haben Sie Fragen zur Datenschutzfolgenabschätzung beim KI-Training oder zu datenschutzrechtlichen Informationspflichten? Aitava ist eine innovative Boutique Law Firm für Künstliche Intelligenz und IT-Recht. Wir beraten umfassend, interdisziplinär und effizient. AI & Data Strategy und AI & Data Compliance gehören zu unseren Kernkompetenzen. Sprechen Sie uns gerne an. Wir sind bereit.