Auto-Klassifizierung von Daten mit Magellan: Welche Ansätze gibt es?

Michael Gagnon23. April 2019

Heutzutage sind Machine Learning (ML)-Algorithmen in immer mehr Anwendungen eingebettet, die wir täglich nutzen. Dazu gehören insbesondere Suchmaschinen, Social Media-Anwendungen und natürlich Enterprise Information Management (EIM)-Software. Aber was genau ist ML? Das maschinelle Lernen stützt sich auf viele Forschungsgebiete (Künstliche Intelligenz, Wahrscheinlichkeit und Statistik, Philosophie, Psychologie, Erkenntnistheorie und viele andere). Dabei werden Programme entwickelt, die aus der Erfahrung lernen, um ihre Leistung bei bestimmten Aufgaben zu verbessern. Mit den Worten von Tom Mitchell (in Englisch): „Ein Computerprogramm soll aus der Erfahrung E in Bezug auf einige Aufgabenklassen T und Leistungsmessung P lernen, wenn sich seine Leistung bei Aufgaben in T, gemessen an P, mit der Erfahrung E verbessert.

Unterschiedliche Klassifizierungsmethoden

Zunächst unterscheiden wir zwei verschiedene Arten von ML-Methoden: die nicht überwachten und die überwachten.

Nicht überwachte Methoden beziehen sich im Allgemeinen auf ML-Ansätze oder Algorithmen, bei denen wir nicht im Voraus wissen, welche Art von Ergebnissen wir erwarten. Wir wissen, welche Daten einfließen, aber wir wissen nicht, welche Ergebnisse erzielt werden sollen. Clustering- und Assoziationsalgorithmen fallen in diese Kategorie. Clustering bietet natürliche Gruppierungen in den Daten (z.B. welche Dokumente in einigen Aspekten ähnlich sind, wie z.B. Textinhalte), während Assoziationen grundsätzlich Korrelationen in den Daten bieten und beispielsweise bei der Beantwortung von Fragen zur Kundenabwanderung nützlich sein können.

Wenn Sie Einblicke in eine Reihe von Rechtsdokumenten oder E-Mails für einen laufenden Rechtsstreit sammeln möchten und dies schnell tun müssen, dann könnte ein Tool, das nicht überwachte Methoden wie OpenText™ Axcelerate™ verwendet, geeignet sein.

Im Gegensatz dazu sind überwachte Klassifizierungsmethoden Ansätze, bei denen die maschinellen Lernmodelle oder -algorithmen auf bekannte Daten trainiert werden, bevor sie auf Ihren Zielcontent angewendet werden. Wir können dies tun, wenn wir eine Vorstellung davon haben, nach welchen Arten von Ergebnissen wir suchen. Überwachte Methoden ermöglichen es uns, den Lernprozess sorgfältiger zu kontrollieren. Dazu wählen wir die Beispiele oder Muster aus, die im Klassifikationsmodell-Training verwendet werden. Wir fahren mit dem Training fort, bis wir mit den Ergebnissen zufrieden sind, und wenden die Modelle dann auf reale Daten an. Wenn Sie benutzerdefinierte Klassifizierungsmodelle speziell für die Erfordernisse Ihres Unternehmens festlegen möchten, sind überwachte Methoden wahrscheinlich die beste Wahl für Sie.

Der überwachte Lernansatz erfordert ein Eingreifen des Menschen sowohl bei der Auswahl der Trainingsdaten als auch bei der Optimierung des Modells. Daher erfordert er in der Regel eine erhebliche Beteiligung und Aufwand in den frühen Phasen des Projekts. Dies ist jedoch nur ein kleiner Preis für die langfristigen Vorteile einer automatischen Klassifikationspipeline. Diese klassifiziert Ihre Inhalte automatisch und reduziert die Kosten für Speicherung und manuelle Klassifizierung.

Die Klassifikationsaufgabe besteht darin, Dokumente oder Content nach bestimmten Merkmalen zu bewerten. Das sind die wichtigsten Eigenschaften, die unsere Wahl des benötigten Machine Learning Tools beeinflussen werden.

Sinnvolle Klassifierung

Was Sie vorab über Ihren Content wissen (und nicht wissen), hat Auswirkungen auf die von Ihnen gewählten Tools. Wenn Sie beispielsweise versuchen, E-Mails auf der Grundlage eines Aufbewahrungsplans zu klassifizieren und Inhalte unterschiedlicher Länge haben, können Sie ein Tool wie OpenText™ Auto-Classification (OTAC) (in Englisch) verwenden. Dieses Tool für die Auto-Klassifierung kombiniert überwachte Klassifizierungsmethoden mit nicht überwachten Verfahren.

Stellen Sie sich vor, Sie versuchen, Textinhalte zu klassifizieren, bei denen Ihre einzelnen Dateien nicht kurz wie Tweets oder E-Mails sind, sondern viel länger. Dazu gehören beispielsweise Nachrichtenartikel in voller Länge, Benutzerbewertungen, lange Verträge oder sogar Forschungsarbeiten. Über die Länge einzelner Dokumente hinaus ist auch das Gesamtvolumen der zu verarbeitenden Contents sehr groß. In diesem Fall ist ein Tool wie OpenText™ Magellan™ Text Mining (in Englisch) ideal. Diese spezialisierte Lösung verwendet eine Kombination aus Natural Language Processing Algorithmen, einem Part of Speech (POS) Tagger und überwachten Methoden. Auf diese Weise können wir uns noch mehr auf die Merkmale des Textes, die uns wirklich interessieren, konzentrieren. Wir können die Begriffe, die vielleicht vorhersehbar sind, ignorieren, wie z.B. bestimmte funktionale Begriffe (Determinanten, Darstellungen, etc.) oder Verben.

Vielleicht möchten Sie Pläne und CAD-Dateien anhand von Symbolen in den Dateien klassifizieren: Es handelt sich um beliebige Symbole, die vor Jahren ausgewählt wurden: lange bevor es einen Plan gab oder darüber nachgedacht wurde, die Klassifizierung dieser Assets zu automatisieren. In einigen Fällen handelt es sich um Tausende und Abertausende von älteren Bilddateien. Die Symbole sind jedoch in Bezug auf die Form ziemlich einheitlich. In diesem Fall sollten Sie ein Tool wie OpenText™ Captiva™ (in Englisch) nutzen. Mit Hilfe dieser Lösung können Sie mit überwachten Methoden Klassifizierungsmodelle auf der Basis der Symbole, der Grundlage für Ihre Klassifizierung, trainieren. In diesem Fall würden wir OpenText Captiva trainieren und optimieren, um bestimmte Arten von Symbolen im Zusammenhang mit unseren Klassifizierungen zu erkennen.

Als erstes sollten Sie sich für diejenigen Tools entscheiden, die Sie basierend auf Ihren Klassifizierungsfunktionen benötigen. Sie sollten außerdem ein geeignetes Klassifizierungsschema erstellen. Danach sind Sie bereit, Ihre automatische Klassifizierungspipeline einzurichten.

Wenn Sie mehr erfahren möchten, wenden Sie sich bitte an die AI & Analytics Services Practice (in Englisch) von OpenText.

Dieser Artikel wurde aus dem Englischen übersetzt.

Michael Gagnon23. April 2019