Wie man bei KI- und ML-Modellen DSGVO-konform wird (und bleibt)
Es ist eine Sache, DSGVO-Konformität zu erreichen, und eine andere, die Konformität aufrechtzuerhalten – vor allem, wenn Ihre Datensätze groß und unstrukturiert sind und sich minütlich ändern. Eine häufige Challenge für Data-Science-Teams auf der ganzen Welt. Ohne implementierte Systeme und Strategien riskieren sie, eine saftige DSGVO-Buße zu erhalten.
Dies ist eine echte Herausforderung für Künstliche-Intelligenz- und Machine-Learning-Teams, da sie Terabytes von Daten in verschiedenen Formaten verwenden, um KI- und ML-Modelle zu erstellen. Und in vielen Unternehmen wünschen sich die Data Scientists die Autonomie, Datensätze nach Bedarf und ohne Aufsicht zu erstellen.
Das einzige Problem dabei ist, dass sich in all diesen selbst verwalteten, sich ständig ändernden Daten personenbezogene Daten (Personally Identifiable Information, PII) verbergen, was die Teams daran hindert, die DSGVO einzuhalten.
Von Data Scientists zu verlangen, dass sie PII selbst verwalten, ist keine Lösung. Ebenso wenig, wie sie an der Erstellung von Datensätzen und Modellen zu hindern.
Eine maßgeschneiderte Lösung: Automatisiert und flexibel
Bei der Entwicklung eines Data-Governance-Systems für KI- und ML-Teams sind einige Einschränkungen zu beachten:
- Die Arbeitsabläufe Ihres Teams dürfen nicht beeinträchtigt werden, und es darf kein zusätzlicher Arbeitsaufwand für das Team entstehen.
- Jede Lösung muss flexibel genug sein, um Daten zu verarbeiten, die sich täglich ändern.
- Die Compliance muss erreicht und eingehalten werden, damit Audits bestanden werden können.
So funktioniert es: Scannen und entfernen
Die Lösung umfasst drei Phasen, die geplant werden können und nur minimale Eingriffe Ihres Data-Science-Teams erfordern. Außerdem hält Ihr Team die Vorschriften ein, auch wenn Sie neue Datensätze erstellen, die potenziell personenbezogene Daten enthalten.
1. Alle Datensätze scannen
Der erste Schritt besteht darin, eine Liste jedes einzelnen Datensatzes (dies kann eine Tabelle oder ein beliebiger Dateityp sein) zu erstellen, der bei Ihrem Data-Science-Teams existiert.
Der Vorteil dieser Auflistung besteht darin, dass Sie damit einen Ausgangspunkt für eine Datenregistrierung erhalten. Dies ist einerseits generell nützlich für Ihr Team, um alle Daten, Größen und Arten von Datensätzen zu kennen, mit denen Sie arbeiten. Andererseits, haben Sie so auch eine zentrale Anlaufstelle, wenn zusätzliche Compliance-Gesetze oder -Richtlinien auftauchen sollten.
Oft wissen Teams nicht einmal, wie viele oder welche Arten von Daten (Parquet, Hive, JSON, CSV usw.) sie haben.
2. Alle Datensätze kennzeichnen, die personenbezogene Daten enthalten
Sobald Sie Ihre Listen haben, müssen Sie im nächsten Schritt die Datensätze screenen und evaluieren, welche davon personenbezogene Daten enthalten. Sobald Sie diese identifiziert haben, müssen Sie die Metadaten zu den Datensätzen speichern, die Sie zu Prüfzwecken protokollieren und aufbewahren sollten.
3. Personenbezogene Daten aus gekennzeichneten Datensätzen entfernen
Jetzt können Sie Ihre personenbezogenen Daten entfernen. Dazu nehmen Sie die Liste der gekennzeichneten Datensätze, die personenbezogene Daten enthalten, und entfernen alle Nutzer:innen aus dem Datensatz, die gemäß den DSGVO-Richtlinien entfernt werden müssen. Außerdem müssen Sie den Löschvorgang zu Prüfzwecken protokollieren.
Übrigens gibt es Techniken, mit denen Sie die Vorschriften einhalten können, ohne personenbezogene Daten vollständig zu entfernen, z. B. durch Schwärzen. Ob Sie die Daten vollständig entfernen oder schwärzen, hängt vom Anwendungsfall Ihres Teams und der Art der Datennutzung ab.
Auf der Zielgeraden: DSGVO-Audits und darüber hinaus
Die Einführung dieses automatisierten Systems bietet Ihnen mehrere Vorteile, ohne dass Sie auf eine Änderung Ihrer Arbeitsabläufe verzichten oder Ihre Arbeitsweise durch lästige Einschränkungen beeinträchtigen müssen.
Kurzfristig können Sie einen Audit und eine rechtliche Überprüfung umgehen und sich stattdessen auf die eigentliche Arbeit und die Erstellung von Modellen konzentrieren, während Ihre Daten automatisch die Vorschriften einhalten.
Längerfristig sind Sie in einer guten Position, um künftige Audits zu bestehen. Audits finden regelmäßig statt und anstatt sich für jede rechtliche Überprüfung zu wappnen, können Sie mit diesem System die Einhaltung der Vorschriften für spätere Audits einfach dokumentieren und nachweisen.
Und schließlich versetzt das System Ihr Unternehmen auch in eine starke Position für künftige Gesetze oder Änderungen der geltenden Gesetze. Das automatisierte System dient als Grundlage und alle Änderungen oder zusätzlichen Vorschriften können problemlos auf der aktuellen Lösung aufgebaut werden.
Die Zukunft der Datenkonformität
Die Datenschutz-Grundverordnung (DSGVO) wird nicht so schnell verschwinden. Vielmehr werden weitere Gesetze wie der CCPA (California Consumer Privacy Act) zur Liste der Vorschriften, die Ihr Unternehmen befolgen muss, hinzukommen.
Am besten ist es, über ein automatisiertes und flexibles System zu verfügen, das an neue Gesetze angepasst werden kann. Auf diese Weise können Sie sich weiter auf Ihr Kerngeschäft konzentrieren, anstatt sich jedes Mal wieder auf neue Compliance-Gesetze einstellen zu müssen.
Wenn Sie Hilfe bei der Einhaltung von Gesetzen oder einer Datenstrategie benötigen, wenden Sie sich an die Datenanalyst:innen und Entwickler:innen von DEPT®.