Die Wahl des richtigen KI-Anbieters für die automatische Verschlagwortung von Bildern im Digital Asset Management
In den letzten sechs oder sieben Jahren habe ich mit vielen DAM-Experten, -Beratern und -Entwicklern über den Einsatz von KI für das Tagging von Assets (beziehungsweise die Verschagwortung der Medien) gesprochen. Man kann mit Fug und Recht behaupten, dass die Erfahrungen sehr unterschiedlich waren und dass es in den meisten Fällen erheblicher Anstrengungen bedurfte, bis die automatische Verschlagwortung auch nur annähernd das hielt, was sie versprach. Ein überraschend hoher Anteil der Befragten hatte das KI-Tagging für einen kurzen Zeitraum ausprobiert, das Projekt dann beendet und darauf gewartet, dass die Branche weiter reift, bevor sie es erneut versucht.
Das am häufigsten angesprochene Problem war, dass die von der KI-Engine bereitgestellten Metadaten zu allgemein waren und die bereichsspezifischen Anforderungen nicht erfüllen konnten. Für einen Autohersteller reicht es nicht aus, ein Bild mit „Auto“ zu kennzeichnen: Die KI-Lösung muss in der Lage sein, Typ, Marke und sogar Modell und Baujahr zu bestimmen. Ein weiteres Problem sind die regionalen Unterschiede im Vokabular, z. B. zwischen US- und britischem Englisch. Die Schuhindustrie ist von diesem Problem besonders betroffen, da Begriffe wie „Sneakers“ und „Pumps“ in verschiedenen Ländern (oder sogar innerhalb eines Landes) ganz unterschiedliche Bedeutungen haben.
Welche KI-Lösungen sind für die Verschlagwortung geeignet
In vielen Projekten wird jedoch nur ein einziger Anbieter von Künstlicher Intelligenz bewertet. Rückmeldungen von Kunden und Branchenkontakten sowie Tests, die wir hier bei OpenText durchgeführt haben, haben die Unterschiede in den Metadaten verschiedener KI-Dienste bei der Analyse derselben Bilder deutlich gemacht. Jeder Dienst hat unterschiedliche Stärken und bietet eine einzigartige Perspektive auf den Inhalt. Zum Beispiel können verschiedene KI-Lösungen bei einem Foto einer Straße in einer Stadt, auf dem eine Person in einem roten Kleid zu sehen ist, unterschiedlich abschneiden:
- Identifizierung von Personen auf dem Bild, entweder aus einer Bibliothek von Berühmtheiten oder als eine Person, die auf anderen Bildern in Ihrem DAM erscheint
- Identifizierung der Farbe und des Stils des Kleides, oder Verknüpfung des Assets mit einem Produkt durch Vergleich mit Referenzbildern
- Identifizierung des Standorts des Fotos anhand von Orientierungspunkten
- Extrahieren von Text aus dem Bild, wie z. B. Straßenschilder, Nummernschilder oder Geschäftsnamen
- Identifizierung von Markenlogos, Objekten, Tieren, Pflanzen, Gesichtern, Altersangaben von Personen oder anderen Elementen
- Vorschläge für den Bildausschnitt anhand von interessanten Punkten im Bild
- Vergleich von Bildern des Ortes, die im Laufe der Zeit aufgenommen wurden, und Verfolgung von Korrosion, Vandalismus oder Pflanzenwachstum
- Hervorhebung von asozialem, illegalem und sexuellem Verhalten wie Drogenkonsum oder Nacktheit
- Jeder andere Bereich der Bildanalyse
Jede Organisation hat andere Anforderungen an die KI, aber kein einzelner Anbieter kann alles gut. Die Suche nach dem richtigen KI-Partner, sei es einer der bekannteren von Azure, Google oder AWS oder ein spezialisierter Anbieter, ist entscheidend, um einen echten Nutzen aus der Technologie zu ziehen.
Einige DAM-Anbieter nutzen jedoch ausschließlich eine KI-Lösung, entweder eine hauseigene Engine oder die eines Partners. Das führt dazu, dass DAM-Anwender an einen einzigen KI-Partner gebunden sind und nicht in der Lage sind, verschiedene Dienste zu vergleichen, um den besten für ihren spezifischen Anwendungsfall oder ihre Anwendungsfälle zu finden. Wenn die KI-Lösung auf die Identifizierung von Personen spezialisiert ist, wäre sie für einen Unterhaltungsnachrichtendienst wertvoll, aber für ein Unternehmen, das Baumaterialien verkauft, ist sie nur von begrenztem Nutzen.
Einfache Integration mit dem KI-Anbieter Ihrer Wahl
Der Ansatz, den wir bei OpenText für die Verschlagwortung mit KI verfolgt haben, ist es, dem Kunden bei der Auswahl eines KI-Bildanalysedienstes die Wahl zu lassen. OpenText Media Management lässt sich standardmäßig mit Azure, Google und AWS integrieren, aber die Integration kann leicht erweitert werden, um eine Verbindung zu jedem KI-Anbieter herzustellen. Wir glauben, dass der beste Ansatz darin besteht, unsere Kunden in die Lage zu versetzen, den besten KI-Partner (oder Partner) für ihre Bedürfnisse auszuwählen. KI-Autotagging ist ein potenziell leistungsfähiger Assistent für DAM-Benutzer, aber es handelt sich nicht um eine Standardlösung für alle. Wie bei allen technologischen Entscheidungen ist die Auswahl des richtigen Partners entscheidend für den Erfolg.
Wenn Sie mehr zu diesem Thema erfahren möchten, können Sie uns auf der DAM Europe 2022 treffen, die vom 22. bis 23. Juni stattfindet.