Am Horizont des Data Warehousing, Teil 18 September 2010 DWH-Lösungen sind von einem Meer von unstrukturierten Daten umgeben, die 4/5 aller zur Verfügung stehenden Daten in einem Unternehmen betragen. Was ist der neue Horizont des DWH? Ganz klar: die unstrukturierten Daten.
Visuell ist dieses Modell im folgenden Diagramm zu sehen. Die Werte auf den Achsen sind nicht als klar und diskret definiert, sondern eher als Anhaltspunkte. Wo eine Information auf einer dieser Achse zu positionieren ist, obliegt der Subjektivität des Betrachters. Was ist die Bedeutung dieser Achsen?
Data Warehousing wurde ursprünglich konzipiert, um die Abhängigkeit von der Volatilität der Daten zu reduzieren. Dies war für viele Jahre ausreichend, denn damit konnte man die Vergangenheit analysieren, um für die Zukunft besser gerüstet zu sein. Wenn wir aber den Horizont erweitern und auch operationale Daten in Betracht ziehen, dann sind andere Eigenschaften von Bedeutung. Hier sind die Daten nur zu einem bestimmten Zeitpunkt korrekt, dann werden sie verändert, beobachtet, gegen anderen Daten validiert und schließlich historisiert. Plastisch ausgedrückt, die Daten werden immer solider, härter. Eigentlich sind „timeliness and consistency“ nicht miteinander verbunden, jedoch ist es in der IT üblich, die „Zeitlosigkeit“ und die Konsistenz der Daten miteinander zu verbinden. Da wir hier über eine logische Datenarchitektur sprechen ist jedoch zu beachten, dass Daten, die logisch zusammenhängen, physisch öfter in separaten Prozessen verändert werden. Daher ist die Konsistenz der Daten nicht immer gewährleistet. Man könnte sogar sagen, dass die Konsistenz (Nicht-Veränderbarkeit der Daten) steigt, wenn wir uns in der Richtung der historischen Daten bewegen. Diese Bemerkungen führen dann zu der Klassifizierung der Daten in fünf Klassen:
5. Die Achse Structure / Knowledge Density Ursprünglich waren alle strukturierten Daten unstrukturiert. Erst wenn eine Struktur definiert wird, die dann in einem umfangreichen Datenmodell eingebettet wird, werden die Rohdaten in Strukturen „gegossen“. Dabei gehen viele Informationen verloren, die nicht in die Strukturen passen. Der Prozess, eine Struktur in den Rohdaten zu identifizieren, ist allgegenwärtig in der Arbeitswelt. Bei der Modellierung der Daten definiert man implizit auch Metadaten, wie z.B. Feldnamen, Bedeutung von Feldern, Beziehungen, Wertebereiche, etc. Es ist jedoch nicht immer gewünscht, aus allen Daten strukturierte Daten zu gewinnen. Es ist sogar zu empfehlen, nach Lösungen zu suchen, die die Strukturierung der Daten vermeiden. Dazu kommen wir später. Die Achse ist so zu verstehen, dass die Strukturierung der Daten abnimmt, wenn wir uns darauf „bewegen“. Es ist hier interessant zu beobachten, dass durch die Strukturierung der Daten mehr Wissen in einer kleinen Menge von sichtbaren Daten verpackt wird. Somit nimmt die Dichte des Wissens zu (so erklärt sich die zweite Bezeichnung der Achse, Knowledge Density). Für die IT ist dies ein wichtiges Ziel, denn dadurch kann der Informationskonsument bedient werden. Die Kehrseite der Medaille bei diesem Prozess ist aber, dass viele implizite Informationen, die in den Ursprungsdaten vorhanden waren, nicht mehr zu finden sind. Und das ist ein triftiger Grund, nicht alle Daten zu strukturieren. Dabei identifiziert Barry Devlin zuerst die atomaren Daten (atomic). Hier ist eine einzige Information per Dateneinheit vorhanden. Atomare Daten sind in relationalen Datenbanken zu finden. Bei dieser Klasse sind sehr viele Informationen über die atomaren Daten in den Metadaten vorhanden. Diese Metadaten sind aber physikalisch in den meisten Fällen separat gespeichert. „Derived data“, abgeleitete Daten, sind Daten, die aus den atomaren Daten durch diverse Bearbeitungsschritte gewonnen wurden. Beispielweise können atomare Daten später aufsummiert werden. Somit werden am Ende die Operanden der Summe verloren gehen. Um die abgeleiteten Operationen zu beschreiben nutzen wir Metadaten, die die Bedeutung dieser Schritte festhalten. „Compound data“, zusammengesetzte Daten, ist die Bezeichnung der dritten Klasse und verweist auf XML oder ähnliche Datenstrukturen, wo Daten und Metadaten miteinander vermischt werden. In solchen Fällen sind jedoch zusätzliche Metadaten in separaten Dateien zu finden. Hier ist die Struktur nicht mehr so rigide wie es bei den atomaren Daten der Fall war. Die letzte Klasse in diesem Kontinuum ist „Multiplex data“, Multiplex-Daten. Hier sind Dokumente, Bilder, Videodateien und alle Arten von binary large object (BLOB) einzuordnen. In diesem Fall sind die Metadaten implizit im Dokument zu finden. Hier fehlen Strukturen fast vollständig, oder besser gesagt, sie sind implizit, und warten darauf, identifiziert zu werden. SOURCE: Am Horizont des Data Warehousing, Teil 1 Aktuelle Artikel von Alexandru Draghici |
Copyright 2004 — 2012. Powell Media, LLC. All rights reserved.
BeyeNETWORK™ is a trademark of Powell Media, LLC
Kommentare
Möchten Sie den Beitrag kommentieren? Login oder Registrieren Sie sich heute!