BI Kennzahlen benötigen einen Kontext1 Dezember 2009 Das moderne Unternehmen ist zu einer Schatzkammer von Daten geworden. Kürzlich durchgeführte Studien ergaben, dass Arbeitnehmer 15%-35% ihrer Zeit mit der Suche nach Informationen verbringen. ![]() Abbildung 1: Informationssuche und Analyse-Werkzeuge Strukturierung und Indizierung von unstrukturierten Daten sind Bestandteile von Enterprise Search oder Knowledge Management. Schließlich geht es hier auch um den Aufbau eines umfangreiches Kontextes für gewisse Fragestellungen. Halbstrukturierte Daten können theoretisch von den Werkzeugen verstanden werden, ohne deren Metadaten zu betrachten. Sie haben Domänen, Formate, Typen, die nicht über die dazu gehörigen Metadaten zu identifizieren sind. Die Bezeichnung “halb” bezieht sich auf die Tatsache, dass der ganze Informationsgehalt eines Dokuments anhand der bestehenden Metadaten nicht vollständig strukturiert werden kann (Manchmal wird der Begriff halbstrukturiert auch schwach strukturiert gennant). In diesem Fall, auch wenn Typen von Daten nicht klar zu finden sind, ist jedoch der gesamte Inhalt verständlich. Die halbstrukturierten Daten können in XML-Dokumenten, oder RSS-Feeds vorkommen. Die unstrukturierten Daten leiden darunter, dass Sie keine Metadaten besitzen. Auch in Textdokumenten sind Metadaten und Daten vermischt. Um Strukturen daraus zu gewinnen, ist Modellierung erforderlich. Welche unstrukturierten Daten sind in Unternehmen zu finden? Bei diesen kann es sich um Textdokumente (WORD, PDF), Web-Logs, Web-Seiten, E-Mails, Multimedia-Dokumente, Grafiken, Bilder, Instant Messaging, Blogs oder Wikis handeln. 3. Was für Probleme werden dadurch gelöst? Welche Vorteile ergeben sich au der Integration von unstrukturierten Daten? Hier werden exemplarisch ein paar der Vorteile skizziert. In vielen Nutzungsgebiete besteht grosses Interesse, mit spezialisierten Anwendungen aus Texten nützliche Informationen automatisch zu erschliessen. So können z.B. aus Reparaturberichten von Autowerkstätten frühzeitig Rückschlüsse auf mögliche Fehlerquellen in der Produktion gewonnen werden. Eine Telekommunikationsfirma filtert und fasst unstrukturierte Daten zusammen, um die Kundenloyalität signifikant zu erhöhen und sogar ein bestimmtes Verhalten der Kunden vorauszusagen. Sentiment Analysis (Gefühlsanalyse) beinhaltet ein breites Portfolio von Analysen, die die Einstellung, die Wahrnehmung und die Gefühle, die eine Person oder eine Gruppe von Personen zu einem Thema oder Produkt herauszufiltern und zugänglich machen. “Contextual advertising” ist der bekannte Ansatz von Amazon oder Google, wo je nach Kontext, ähnliche Produkte vorgeschlagen werden. Amazon z.B. schlägt eine Reihe von Bücher vor, wenn ein Kunde ein bestimmtes Buch schon bestellt hat. Zusammengefasst Qualität und Umsatz eines Unternehmens können erhöht werden, wenn unstrukturierte Daten für die BI Kennzahlen gewonnen werden. 4. Lösungsansätze Grundsätzlich geht es bei den Lösungsansätzen darum, halb- und unstrukturierte Daten in strukturierte Daten umzuwandeln. Dadurch werden immer mehr solche Datenquellen in einem Data Warehouse einfließen. Dies betrifft jedoch nicht die Daten in Gänze oder deren ganzen Inhalt. In vielen Fällen wird in diesen Datenquellen nach Entitäten gesucht, die dann in Tabellen abgespeichert werden können. Die nicht strukturierten Daten werden so strukturiert, dass die neu gewonnenen Daten in den Berichten einfließen werden. Viele der unstrukturierten Daten können in strukturreiche Rahmen eingebettet werden. Beispielsweise können aus Videodateien mit Hilfe von speziellen Programmen der Audioteil extrahiert werden, der wiederum mittels andere spezialisierte Programmen in Textdateien umgewandelt werden kann. Eine Textdatei kann dann anhand der Text-Mining-Verfahren nach Schlüsselwörter durchsucht werden. Wenn die Strukturierung der Daten zu aufwendig ist, kann eine Lösung sein, nur so viele strukturierte Daten daraus zu gewinnen, so dass Textanalyse und Text Mining eingesetzt werden können. Als Konsequenz muss man die Datenintegration nicht nur auf „klassische“ ETL-Prozesse beschränken sondern mit neuen Techniken ergänzen. Data Mining ist auf dem Markt seit Jahrzenten. Was neu dabei ist, dass heutzutage prädiktive Analyse in Echtzeit ausgeführt werden können. Die wurde durch die enorme Preissenkung für Hauptspeicher und Plattenkapazität ermöglicht. Hier ist auch Text Mining anzusiedeln. Speziell für die Strukturierung der Daten können folgende Verfahren in Betracht gezogen werden: a) Textanalyse und Text Mining existieren schon seit vielen Jahren auf dem Markt. Die Produkte dafür weisen eine solide Marktreife auf. Verschiedene kleine spezialisierte Hersteller haben Werkzeuge dafür entwickelt. Manche BI Hersteller haben solchen Technologien auf Druck des Marktes dazu gekauft. Text Mining kann manuell, durch statistische Verfahren, über maschinelles Lernen oder über die Verarbeitung der natürlichen Sprachen erfolgen. Es kann Begriffe und Konzepte in Thesauri liefern, die unabdingbar für zusätzliche BI Analysen werden können. b) Maschinelles Lernen basiert auf statistische Verfahren wie Bayesian, neuronalen Netzwerke, oder latenten semantischen Analyse (LSA). Es ist viel effektiver als die klassischen statistischen Verfahren, jedoch nicht überall andwendbar. Es erfordert Überwachung und Training der Maschinen, und wie bei den Data Mining Verfahren ist ein tiefes Wissen der Materie notwendig. c) Linguistische Verfahren können schneller als maschinelles Lernen sein, und manchmal auch akurater. Sie können Ambiguität reduzieren, benötigen aber nach wie vor die menschliche Intervention. Hier sind die Modelle in Vergleich zu LSA und maschinellem Lernen einfacher zu verstehen. 5. Textanalyse Die Textanalyse ist kein klassischer ETL Prozess. Wie in folgendem Diagramm gezeigt sind hier folgende sequenzielle Schritte notwendig:
In Detail sind diese Schritte von folgenden Aktivitäten unterstützt: Analyse (Parsen), Korrektur, Stammwörter identifizieren, “Stopwörter” wie “und”, “oder” eliminieren und Semantik bilden. ![]() Abbildung 2: Schritte der Textanalyse Die Analyse besteht aus der Identifizierung von Begriffen, Eliminierung von unerwünschten Zeichen, wie “/”, Komma “,”, Behandlung spezieller Zeichen, wie Umlaute. Die Korrektur der Ergebnisse der Analyse besteht unter anderen aus orthographischer Korrektur, Ersetzen von Abkürzungen mit den vollständigen Wörtern. Danach werden Stammwörter identifiziert. Dabei müssen die Konjugationen der Verben sowie die Pluralformen der Wörter berücksichtigt werden, so dass die Anzahl der Stammwörter klein gehalten wird. Unnötige Wörter werden dann eliminiert, und erst jetzt kann man semantische Bedeutungen aus dem Text gewinnen. Die semantischen Beziehungen zu bilden ist dann meistens die Arbeit von Menschen. Somit wird aus dem Rohtext Bedeutung, sprich Metadaten extrahiert. Die vorhin erwähnten Arbeitschritte bassieren auf einen bestimmten Ausgabeformat, sei es ein XML Dokument, eine Sammlung von Dokumenten, ein Datenbankschema, oder mehrere Schemata. Zusammengefasst kann man sagen, dass Text Mining und Text Analyse soweit automatisiert werden können, so dass die Ergebnisse an strukturierte Repositories, Data Marts und Data Warehouses weitergereicht werden können. Nicht nur die textuelle Information kann für die Kontextgewinnung benutzt werden. Es liegt außerdem sehr viel unstrukturierte Information in Form von Audio- und Videodateien vor. Auch hier werden Verfahren entwickelt, um daraus Audiomuster zu identifizieren, die z.B. Auskunft über die Gefühlslage der aufgenommenen Person gibt. In den Videodateien werden graphische Muster identifiziert, die z.B. Gesichtmuster ausfindig machen. Diese Gesichtmuster können dann anhand maschinellen Lernens (Support Vector Machines) kategorisiert werden. 6. Der Open Source Ansatz: UIMA Paralell etabliert sich im Bereich Open Source das Framework UIMA. UIMA (Unstructured Information Management Architecture, ist ein Framework zum Erstellen von Anwendungen zur Verarbeitung von unstrukturierten Informationen. Das Projekt UIMA wurde 2005 von IBM gestartet und wird seit Oktober 2006 von Apache betreut. Das Konzept von UIMA sieht vor, dass eine Pipeline implementiert wird, in der zunächst Daten eingelesen werden. Sie durchlaufen dann verschiedene Analyse- und Verarbeitungsschritte. Die Ergebnisse bekommen bestimmte Annotationen, d. h. ein definierter Bereich der Datenmenge, also beispielsweise ein Teil des Texts, bekommt eine Anmerkung. Schließlich werden die angereicherten Ergebnisse an einen oder mehrere sogenannte Verbraucher geliefert, die die Ergebnisse verarbeiten, z. B. in einer Datenbank speichern. In diesem Kontext gewinnen die sogenannten Enterprise Data Mashups immer mehr an Bedeutung. Diese sind als leichtgewichtige und flexible Architekturen zum Extrahieren von Daten aus heterogenen Datenquellen, zum Bilden von semantischen Beziehungen und zum Echtzeitzugriff auf die Datendienste zu verstehen. Sie können für das Lesen und Schreiben von Daten sowie zum Synchronisation der Datenflüsse benutzt. Der Bereich von Enterprise Data Mashup Technologie ist relativ neu und erfreut sich momentan von viel Aufmerksamkeit sowohl in der Fachpresse als auch bei vielen Softwareherstellern. Dabei ist wichtig zu erwähnen, dass der Ansatz von Offenheit und von der Vielfalt der Kombinationen der selbstständigen Daten und Dienste geprägt ist. 7. Fazit Die unstrukturierten Daten können mithilfe von Textanalyse, Text Mining, UIMA-Framework zu den klassischen BI-Ergebnissen hingefügt werden, um den Informationsumfang zu vergrößern und einen Kontext dafür zu schaffen. Die Konsequenzen sind ersichtlich:
Quellen
SOURCE: BI Kennzahlen benötigen einen Kontext Aktuelle Artikel von Alexandru Draghici |
Copyright 2004 — 2012. Powell Media, LLC. All rights reserved.
BeyeNETWORK™ is a trademark of Powell Media, LLC
Kommentare
Möchten Sie den Beitrag kommentieren? Login oder Registrieren Sie sich heute!