Wie Sie die Herausforderungen der DSGVO mit Discovery Analytics meistern

Adam Kuhn30. März 2017

Für den „Cyber Readiness Report 2017“ ermittelte der Spezialversicherer Hiscox, wie gut deutsche, britische und amerikanische Unternehmen auf mögliche Cyber-Attacken vorbereitet sind. Das Ergebnis ist vor allem in Hinblick auf die EU Datenschutz-Grundverordnung (DSGVO) ernüchternd: Deutschland bildet mit 62 Prozent schlecht vorbereiteten „Cyber-Anfängern“ die Nachhut und zeigt sich im Vergleich mit UK und den USA als schlecht vorbereitet auf digitale Angriffe. Auf die IT-Verantwortlichen deutscher Unternehmen wartet also eine Menge Arbeit, um ihre Organisationen fit für die Herausforderungen der neuen Gesetzesinitiative zu machen.

Bis zum tatsächlichen Inkrafttreten der DSGVO ist zwar noch mehr als ein Jahr Zeit, doch auf den jüngsten Konferenzen ist die Angst davor beinahe greifbar. Verständlich: Die DSGVO stellt weitreichende Anforderungen an Organisationen, die von ihnen genutzten und verarbeiteten, personenbezogenen Daten nachzuvollziehen und zu schützen. Bisher drehte sich die Diskussion in erster Linie um Records Management und Datensicherheit. Um die Risiken der DSGVO im Griff zu behalten, nutzen Ihre Rechts- und Compliance-Abteilungen zur Vorbereitung aber auch Data Discovery Analytics, eine neue Form von Business Intelligence, und maschinelles Lernen.

Der neue Preis personenbezogener Daten

Mit der DSGVO werden eine Menge Information Governance (IG) Regularien für personenbezogene Daten eingeführt. Personenbezogene Daten sind definiert als jede sich auf eine Person beziehende Information. Falls Ihnen das sehr weit gefasst vorkommt, dann weil es weitgefasst ist.

Ihr Name, Ihre Bilder, Ihre Email- oder IP-Adresse – der Begriff umfasst wirklich alles, was Sie identifizieren könnte. Die DSGVO schafft persönliche Rechte für diese Daten, etwa das Recht auf Vergessen, das Recht zur Überprüfung Ihrer Daten, das Recht diese zu ändern oder zu übertragen. Außerdem beinhaltet die DSGVO erweiterte Informations- und Reaktionspflichten im Fall eines Datenlecks.

Prinzipiell ist Ihre Organisation von der DSGVO betroffen, sobald sie mit Konsumentendaten in irgendeiner Art in Berührung kommt. Und falls Produkte oder Dienstleistungen Ihres Unternehmens regelmäßig personenbezogene Daten nutzen, gewinnt die Datensicherheit noch einmal an Bedeutung. Bei Nichteinhaltung der DSGVO drohen Strafen bis zu 20 Millionen Euro oder satte vier Prozent des weltweiten Umsatzes.

Die Aussicht auf diese drastischen Sanktionen hat Unternehmen dazu bewegt, Datenschutz-Folgenabschätzungen durchzuführen und ihre eigenen Daten proaktiv zu prüfen, um Risiken und Gefährdung einzuschätzen. Die erste Herausforderung dabei: nachzuvollziehen, wie und wo personenbezogene Daten verwendet werden. Ein wichtiger Punkt, können diese doch Bestandteil fast aller Geschäftsdokumente sein, und einige Daten sind wichtiger als andere.

Die Nadel im Nadelhaufen finden

Wenn einer der Grundbausteine der DSGVO die Nachvollziehbarkeit Ihrer Daten ist, benötigen Sie natürlich Tools, mit denen Sie Dokumente suchen, zuordnen, kategorisieren und kennzeichnen können.

Die traditionelle Suchmethode, nämlich Verträge einzeln per Hand auf Textpassagen zur Aufbereitung, Verarbeitung und Speicherung von personenbezogenen Daten zu durchforsten, ist unzuverlässig und ineffizient. Für die Reaktion auf ein Datenleck oder für die Klassifizierung von personenbezogenen Daten ist eine Sortierung nach Dringlichkeit unabdingbar. Sie müssen rasch feststellen, welche Dokumente am sensibelsten sind und diese für eine Spezialbehandlung (mehr dazu später) markieren. Dafür benötigen Sie Data Discovery Analytics und maschinelles Lernen.

Mustererkennung ist eine entscheidende Technologie, um schnell einfache Dokumente mit standardisierten, personenbezogenen Daten identifizieren zu können, beispielsweise Kreditkarten, Führerscheine, Krankenakten und Ähnliches. Diese Technologie allein kann allerdings nicht alle notwendigen Dokumente für eine Datenschutz-Folgenabschätzungen identifizieren. Personenbezogene Daten folgen nicht immer einem Muster – zumal sie oftmals stark kontextabhängig sind.

Hier kommt die Konzeptanalyse ins Spiel, ein eigenständiger Algorithmus für maschinelles Lernen. Diese Technologie analysiert, welche Worte gemeinsam auftreten und fasst sie ohne menschliche Unterstützung entsprechend ihrer kontextuellen Themenbereiche zusammen – sogar dann, wenn spezifische Schlagworte fehlen.

Diese Tools können mit erstaunlicher Genauigkeit zwischen verschiedenen Zusammenhängen, die unsere Interpretation von Worten beeinflussen, unterscheiden. Wenn das Wort „Sicherheit“ zum Beispiel in Dokumenten zu Finanztransaktionen auftaucht, fasst die Maschine diese in einer anderen Gruppe zusammen als Dokumente, die das Wort „Sicherheit“ in Bezug auf personenbezogene Daten enthalten.

Teamarbeit Mensch und Maschine

Mit solchen automatisierten Tools können Sie Ihre Datenschutzprüfungen initiieren. Die endgültige Analyse ist jedoch zu differenziert, um auf eine rein maschinelle Kategorisierung zu vertrauen. Menschliche Kontrolle ist ein unverzichtbares Element. Daher sind Workflows und Tools zur Dokumentenprüfung erforderlich.

Das heißt: Sie müssen in der Lage sein, thematisch ähnliche Dokumente stoßweise auszugeben, damit die rechtlichen Gutachter mit passenden Inhalten versorgt werden. Da im Hintergrund ständig ein Algorithmus für maschinelles Lernen arbeitet, trainiert jede Entscheidung Ihrer Rechtsabteilung bei der visuellen Prüfung der Dokumente eine „Empfehlungsmaschine“. Dieser Algorithmus kann dann die verbliebenen Dokumente evaluieren und abschätzen, welche vermutlich sensible Daten enthalten.

Auf diese Weise können Sie mit bekannten Datenbeständen (etwa Ihrer Datenbank für Verträge mit Lieferanten) beginnen und dann Ihre Analytics einsetzen, um bisher unbekannte, risikoträchtige Dokumente zu identifizieren. Während Sie mehr und mehr Dokumente prüfen und immer mehr Inhalte mit personenbezogenen Daten identifizieren, lernt der Algorithmus im Hintergrund beständig weiter.

Er durchsucht die Masse verbleibender Daten und priorisiert Datenmengen, die wahrscheinlich personenbezogene Daten enthalten. Diese Art Algorithmen können sogar themenspezifisch arbeiten – eine wichtige Eigenschaft, da die DSGVO zwischen „personenbezogenen Daten“ und „sensiblen personenbezogenen Daten“ unterscheidet.

Wissen ist die halbe Miete

Die tatsächlichen Auswirkungen der DSGVO werden sich erst im Laufe der Jahre herauskristallisieren. Es ist immer noch unklar, wie Einzelpersonen ihre Rechte ausüben werden oder wie Datenschutzbehörden die Regelungen vollstrecken. Unternehmen können jedoch bereits heute die ersten Schritte unternehmen, um ihr Gefährdungspotenzial zu erkennen und sich gegen die drohenden Folgen zu rüsten.

OpenText™ Discovery kombiniert Tools wie maschinelles Lernen, Mustererkennung und die Extraktion von Datensätzen anhand von Visualisierungen, Schlagworten und Metadaten-Filtern und unterstützt Ihre Rechts- und Compliance-Abteilungen bei der Identifikation jeder Art von personenbezogenen Daten. Der gesamte Prozess wird begleitet durch einen Workflow zur Dokumentenprüfung, der auf langjähriger Praxiserfahrung mit juristischen Projekten und mehrstufigen Sicherheitskonzepten basiert.

Dieser Artikel wurde aus dem Englischen übersetzt.

Adam Kuhn30. März 2017