Das moderne Unternehmen ist zu einer Schatzkammer von Daten geworden. Kürzlich durchgeführte Studien ergaben, dass Arbeitnehmer 15%-35% ihrer Zeit mit der Suche nach Informationen verbringen.
Gleichzeitig erleben wir eine Explosion der Datenmenge. Eine Forrester Studie aus 2009 stellte fest, dass mehr als 2/3 der produktiven EDH (Enterprise Data Warehouse) im Bereich 1-20 TB liegen. Bei solchen Datenmengen scheitern jegliche klassische Zugriffmethoden auf die Daten. Die jetzige Lösung besteht in der Aggregation der Daten, mit dem Nachteil, dass dadurch eine Abstrahierung der Daten entsteht, die zu einem Verlust der Detail- und vor allem von Kontextdaten führt.
Der Kontext einer Kennzahl ist enorm wichtig, und er liegt meistens außerhalb des EDW, im Bereich der unstrukturierten Daten im Unternehmen. Vielmehr, Kennzahlen im Bereich Marketing und Verkauf sind auf unstrukturierte Daten außerhalb des Unternehmens (outside the firewall) angewiesen. Aus diesen kann man die Akzeptanz der Produkte auf dem Markt ablesen und entsprechende Massnahmen treffen, um verzerte Wahrnehmungen zu korrigieren oder Qualitätsmengel zeitnah zu beheben.
2. Wenn es um Kontext geht, dann geht es um unstrukturierten Daten
Das folgende Diagramm fasst zusammen, wie unstrukturierte Daten aus dem Unternehmen mit halb- und unstrukturierten Daten aus dem Intranet und/oder Internet von einem Analysten gefunden und analysiert werden. Dabei ist wichtig zu erkennen, dass der Benutzer die Kennzahlen und deren Kontext über mehrere Schritte aus verschiedenen Daten- und Informationsquellen gewinnen muß. Die Synthese und die Plausibilitätsprüfung dieser Informationen ist dem Benutzer überlassen.
Dafür stehen ihm klassische Analyse- und Reportingwerkzeuge aus dem operativen und aus dem dispositiven Bereich, aber auch Suchtechniken und Analyseverfahren in den halb- und unstrukturierten Daten zur Verfügung. Die unstrukturierten Daten können in einem Enterprise Content Management (ECM) vorhanden sein. Für die Suche darin gibt es schon etablierte Such- und Indizierungsverfahren. Diese Daten können mit Informationen aus dem Web (Intranet und Internet) ergänzt werden. Hier können Methoden aus dem Bereich Textanalyse oder Text Mining eingesetzt werden, um den Kennzahlen neue Erkenntnisse beizufügen. Moderne ECM Systeme erreichen eine hohe Strukturierung der Inhalte durch komplexe Methoden der Metadatengewinnung. Sie sind meistens mit einem transaktionalen Kern vorgesehen und daher eigen sich diese Systeme für Business Intelligence.

Abbildung 1: Informationssuche und Analyse-Werkzeuge
Strukturierung und Indizierung von unstrukturierten Daten sind Bestandteile von Enterprise Search oder Knowledge Management. Schließlich geht es hier auch um den Aufbau eines umfangreiches Kontextes für gewisse Fragestellungen.
Halbstrukturierte Daten können theoretisch von den Werkzeugen verstanden werden, ohne deren Metadaten zu betrachten. Sie haben Domänen, Formate, Typen, die nicht über die dazu gehörigen Metadaten zu identifizieren sind. Die Bezeichnung “halb” bezieht sich auf die Tatsache, dass der ganze Informationsgehalt eines Dokuments anhand der bestehenden Metadaten nicht vollständig strukturiert werden kann (Manchmal wird der Begriff halbstrukturiert auch schwach strukturiert gennant). In diesem Fall, auch wenn Typen von Daten nicht klar zu finden sind, ist jedoch der gesamte Inhalt verständlich. Die halbstrukturierten Daten können in XML-Dokumenten, oder RSS-Feeds vorkommen.
Die
unstrukturierten Daten leiden darunter, dass Sie keine Metadaten besitzen. Auch in Textdokumenten sind Metadaten und Daten vermischt. Um Strukturen daraus zu gewinnen, ist Modellierung erforderlich.
Welche unstrukturierten Daten sind in Unternehmen zu finden? Bei diesen kann es sich um Textdokumente (WORD, PDF), Web-Logs, Web-Seiten, E-Mails, Multimedia-Dokumente, Grafiken, Bilder, Instant Messaging, Blogs oder Wikis handeln.
3. Was für Probleme werden dadurch gelöst?Welche Vorteile ergeben sich au der Integration von unstrukturierten Daten? Hier werden exemplarisch ein paar der Vorteile skizziert.
In vielen Nutzungsgebiete besteht grosses Interesse, mit spezialisierten Anwendungen aus Texten nützliche Informationen automatisch zu erschliessen. So können z.B. aus Reparaturberichten von Autowerkstätten frühzeitig Rückschlüsse auf mögliche Fehlerquellen in der Produktion gewonnen werden.
Eine Telekommunikationsfirma filtert und fasst unstrukturierte Daten zusammen, um die Kundenloyalität signifikant zu erhöhen und sogar ein bestimmtes Verhalten der Kunden vorauszusagen.
Sentiment Analysis (Gefühlsanalyse) beinhaltet ein breites Portfolio von Analysen, die die Einstellung, die Wahrnehmung und die Gefühle, die eine Person oder eine Gruppe von Personen zu einem Thema oder Produkt herauszufiltern und zugänglich machen.
“Contextual advertising” ist der bekannte Ansatz von Amazon oder Google, wo je nach Kontext, ähnliche Produkte vorgeschlagen werden. Amazon z.B. schlägt eine Reihe von Bücher vor, wenn ein Kunde ein bestimmtes Buch schon bestellt hat.
Zusammengefasst Qualität und Umsatz eines Unternehmens können erhöht werden, wenn unstrukturierte Daten für die
BI Kennzahlen gewonnen werden.
4. LösungsansätzeGrundsätzlich geht es bei den Lösungsansätzen darum, halb- und unstrukturierte Daten in strukturierte Daten umzuwandeln. Dadurch werden immer mehr solche Datenquellen in einem Data Warehouse einfließen. Dies betrifft jedoch nicht die Daten in Gänze oder deren ganzen Inhalt. In vielen Fällen wird in diesen Datenquellen nach Entitäten gesucht, die dann in Tabellen abgespeichert werden können. Die nicht strukturierten Daten werden so strukturiert, dass die neu gewonnenen Daten in den Berichten einfließen werden.
Viele der unstrukturierten Daten können in strukturreiche Rahmen eingebettet werden. Beispielsweise können aus Videodateien mit Hilfe von speziellen Programmen der Audioteil extrahiert werden, der wiederum mittels andere spezialisierte Programmen in Textdateien umgewandelt werden kann. Eine Textdatei kann dann anhand der Text-Mining-Verfahren nach Schlüsselwörter durchsucht werden.
Wenn die Strukturierung der Daten zu aufwendig ist, kann eine Lösung sein, nur so viele strukturierte Daten daraus zu gewinnen, so dass Textanalyse und Text Mining eingesetzt werden können. Als Konsequenz muss man die Datenintegration nicht nur auf „klassische“ ETL-Prozesse beschränken sondern mit neuen Techniken ergänzen.
Data Mining ist auf dem Markt seit Jahrzenten. Was neu dabei ist, dass heutzutage prädiktive Analyse in Echtzeit ausgeführt werden können. Die wurde durch die enorme Preissenkung für Hauptspeicher und Plattenkapazität ermöglicht. Hier ist auch Text Mining anzusiedeln.
Speziell für die Strukturierung der Daten können folgende Verfahren in Betracht gezogen werden:
a)
Textanalyse und Text Mining existieren schon seit vielen Jahren auf dem Markt. Die Produkte dafür weisen eine solide Marktreife auf. Verschiedene kleine spezialisierte Hersteller haben Werkzeuge dafür entwickelt. Manche BI Hersteller haben solchen Technologien auf Druck des Marktes dazu gekauft.
Text Mining kann manuell, durch statistische Verfahren, über maschinelles Lernen oder über die Verarbeitung der natürlichen Sprachen erfolgen. Es kann Begriffe und Konzepte in Thesauri liefern, die unabdingbar für zusätzliche BI Analysen werden können.
b)
Maschinelles Lernen basiert auf statistische Verfahren wie Bayesian, neuronalen Netzwerke, oder latenten semantischen Analyse (LSA). Es ist viel effektiver als die klassischen statistischen Verfahren, jedoch nicht überall andwendbar. Es erfordert Überwachung und Training der Maschinen, und wie bei den Data Mining Verfahren ist ein tiefes Wissen der Materie notwendig.
c)
Linguistische Verfahren können schneller als maschinelles Lernen sein, und manchmal auch akurater. Sie können Ambiguität reduzieren, benötigen aber nach wie vor die menschliche Intervention. Hier sind die Modelle in Vergleich zu LSA und maschinellem Lernen einfacher zu verstehen.
5. TextanalyseDie Textanalyse ist kein klassischer
ETL Prozess. Wie in folgendem Diagramm gezeigt sind hier folgende sequenzielle Schritte notwendig:
- Extrahieren von Text und Datenquellen
- Extrahieren der Syntax
- Modelleriung der extrahierten Daten, um daraus Metadaten zu gewinnen
In Detail sind diese Schritte von folgenden Aktivitäten unterstützt: Analyse (Parsen), Korrektur, Stammwörter identifizieren, “Stopwörter” wie “und”, “oder” eliminieren und Semantik bilden.
Abbildung 2: Schritte der Textanalyse
Die Analyse besteht aus der Identifizierung von Begriffen, Eliminierung von unerwünschten Zeichen, wie “/”, Komma “,”, Behandlung spezieller Zeichen, wie Umlaute. Die Korrektur der Ergebnisse der Analyse besteht unter anderen aus orthographischer Korrektur, Ersetzen von Abkürzungen mit den vollständigen Wörtern. Danach werden Stammwörter identifiziert. Dabei müssen die Konjugationen der Verben sowie die Pluralformen der Wörter berücksichtigt werden, so dass die Anzahl der Stammwörter klein gehalten wird. Unnötige Wörter werden dann eliminiert, und erst jetzt kann man semantische Bedeutungen aus dem Text gewinnen. Die semantischen Beziehungen zu bilden ist dann meistens die Arbeit von Menschen. Somit wird aus dem Rohtext Bedeutung, sprich Metadaten extrahiert.
Die vorhin erwähnten Arbeitschritte bassieren auf einen bestimmten Ausgabeformat, sei es ein XML Dokument, eine Sammlung von Dokumenten, ein Datenbankschema, oder mehrere Schemata.
Zusammengefasst kann man sagen, dass Text Mining und Text Analyse soweit automatisiert werden können, so dass die Ergebnisse an strukturierte Repositories, Data Marts und Data Warehouses weitergereicht werden können.
Nicht nur die textuelle Information kann für die Kontextgewinnung benutzt werden. Es liegt außerdem sehr viel unstrukturierte Information in Form von Audio- und Videodateien vor. Auch hier werden Verfahren entwickelt, um daraus Audiomuster zu identifizieren, die z.B. Auskunft über die Gefühlslage der aufgenommenen Person gibt. In den Videodateien werden graphische Muster identifiziert, die z.B. Gesichtmuster ausfindig machen. Diese Gesichtmuster können dann anhand maschinellen Lernens (Support Vector Machines) kategorisiert werden.
6. Der Open Source Ansatz: UIMAParalell etabliert sich im Bereich Open Source das Framework UIMA.
UIMA (Unstructured Information Management Architecture, ist ein Framework zum Erstellen von Anwendungen zur Verarbeitung von unstrukturierten Informationen. Das Projekt UIMA wurde 2005 von IBM gestartet und wird seit Oktober 2006 von Apache betreut.
Das Konzept von UIMA sieht vor, dass eine Pipeline implementiert wird, in der zunächst Daten eingelesen werden. Sie durchlaufen dann verschiedene Analyse- und Verarbeitungsschritte. Die Ergebnisse bekommen bestimmte Annotationen, d. h. ein definierter Bereich der Datenmenge, also beispielsweise ein Teil des Texts, bekommt eine Anmerkung. Schließlich werden die angereicherten Ergebnisse an einen oder mehrere sogenannte Verbraucher geliefert, die die Ergebnisse verarbeiten, z. B. in einer Datenbank speichern.
In diesem Kontext gewinnen die sogenannten Enterprise Data Mashups immer mehr an Bedeutung. Diese sind als leichtgewichtige und flexible Architekturen zum Extrahieren von Daten aus heterogenen Datenquellen, zum Bilden von semantischen Beziehungen und zum Echtzeitzugriff auf die Datendienste zu verstehen. Sie können für das Lesen und Schreiben von Daten sowie zum Synchronisation der Datenflüsse benutzt. Der Bereich von Enterprise
Data Mashup Technologie ist relativ neu und erfreut sich momentan von viel Aufmerksamkeit sowohl in der Fachpresse als auch bei vielen Softwareherstellern. Dabei ist wichtig zu erwähnen, dass der Ansatz von Offenheit und von der Vielfalt der Kombinationen der selbstständigen Daten und Dienste geprägt ist.
7. FazitDie unstrukturierten Daten können mithilfe von Textanalyse, Text Mining, UIMA-Framework zu den klassischen BI-Ergebnissen hingefügt werden, um den Informationsumfang zu vergrößern und einen Kontext dafür zu schaffen.
Die Konsequenzen sind ersichtlich:
- Entscheidungen, die auf BI-Lösungen basieren, werden nachvollziehbarer.
- Entscheidungsicherheit wird erhöht.
- “Erst wenn eine Kennzahl gut verstanden und interpretiert werden kann, kann auch eine Schlussfolgerung erfolgen, die im Sinne der Unternehmensziele ist. Und: Je strategischer die Kennzahl ist, desto breiter der Kontext.” [MWCB09]
- Unstrukturierte Daten werden immer wichtiger für die tägliche Arbeit.
- Informationen werden zu Wissen und sind an der richtigen Stelle verfügbar.
- Wenn man die folgende Verkettung betrachtet: a) aus Daten mit Kontext wird Information, b) aus Information mit Kontext entsteht Wissen und c) und aus Wissen mit Kontext wird Weisheit, dann ist ersichtlich, dass durch das Einbeziehen von halb- und unstrukturierten Daten, der Weg aus der datenzentrierten IT zu dem informationsbasierten IT geebnet wird. Somit bekommen die Ansätzen einer wissensbasierten Unternehmensführung mehr Antrieb.
- Der Faktor Mensch gewinnt noch mehr an Bedeutung: er schafft Beziehungen zwischen gefundenen Informationen und lässt neues Wissen entstehen.
- Durch kolaborative Arbeitsweise kann der Aufwand der Schaffung der Beziehungen zwischen disparaten Informationen minimiert werden und dafür gesorgt werden, dass neues Wissen plausibilisiert wird.
- Obwohl hier viel über anspruchsvolle Verfahren gesprochen wurde, muß man stets betonen, dass der Mensch noch wichtiger für den gesamten Arbeitsprozess wird. Denn nur der Mensch kann “Maschinen” trainieren, Bedeutung und Semantik finden, Beziehungen bilden. Technologien, auch wenn so komplex, sind nur ein Arbeitsmittel für den Menschen. Er sollte daher noch mehr im Mittelpunkt der Arbeit und der Anerkennung rücken.
Quellen
- http://de.wikipedia.org/wiki/
- http://wdok.cs.uni-magdeburg.de/forschung/news-events/uima2007
- Vortrag Madsen und VanDongen auf TDWI Konferenz 2009 in München
- “Enterprise Search-Lösungsansatz”, Whitepaper von Vincent Lam, Information Builders (www.informationbuilders.com)
- “Enterprise Data Mashups: Data Integration for Structured, Unstructured and WEB”, www.denedo.com
- [MWCB09]“Kennzahlen bekommen eine Sprache”, Vortrag von Marianne Wilmsmeier, coretelligence GmbH & Co. KG1 Claudia Baumer, intelligent views gmbh auf KnowTech 2009
- “So finden Sie Ihre Informationen: Einsatz von Suchlösungen in Business Intelligence”, Text ist in BI Spektrum 02/2008 erschienen. Autor: Alexandru Draghici
- BI SEARCH AND TEXT ANALYTICS, TDWI Broschüre Q2.2007, Philip Russom
- www.b-eye-network.com “Utilizing unstructured data to provide business intelligence”, Billy Cripe, Nick Tuson
SOURCE: BI Kennzahlen benötigen einen Kontext
-
Alexandru Draghici
Alexandru Draghici ist seit 1994 in den Bereichen OLAP, Data Warehouse und Business Intelligence tätig. Sein Schwerpunkt liegt im konzeptionellen Bereich sowie in der Architektur von DWH und
BI-Lösungen. Er verfügt über ein umfangreiches Wissen und umfangreiche Erfahrungen im BI-Umfeld. Dies umfasst sowohl die SAP BI-Technologie als auch die non-SAP BI-Technologien:
Oracle, Hyperion, Business Objects, SAS Institute. Kenntnisse und Erfahrungen im ETL Bereich vervollständigen sein Portfolio. Er ist seit Jahren ein aktiver TDWI-Mitglied (www.tdwi.eu). Email: alexandru.draghici@gmx.de
Aktuelle Artikel von Alexandru Draghici
Kommentare
Möchten Sie den Beitrag kommentieren? Login oder Registrieren Sie sich heute!