3 Juni 2009
Bereits seit vielen Jahren dominieren Oracle, IBM und Microsoft den Datenbankmarkt, in 2007 laut Gartner DataQuest mit rund 87,4 Prozent Marktanteil. Auch verzeichnet der RDBMS-Markt und mit ihm
die Veteranen nach wie vor einen Wachstum, der auch in 2008 anhalten soll. Hier sieht Gartner vor allem BI und Data Warehousing Initiativen als treibenden Faktor. Als weiteren Trend identifiziert
Gartner die zunehmende Akzeptanz von Open Source Datenbanken zur Unterstützung geschäftlicher Applikationen. So wird mit einem erhöhten Druck auf die Preise der etablierten Anbieter
gerechnet. Wachsende Datenmengen und erweiterte funktionale Anforderungen setzen DBMS Anbieter aber trotz aller Produktreife und Stabilität weiter unter Druck. Bereits vielfach zitiert, gilt
doch Walmart als Referenz für Wachstumsraten in Data Warehouses, die eine zentrale Rolle in den IT Systemen des Unternehmens übernehmen.
Wachsende Datenmengen
Auch andere Erhebungen bestätigen diesen Trend. So identifizierte Winter Corporation, ein führender US-amerikanischer Anbieter von Services im Bereich sehr großer Data Warehouse Datenbanken, in seiner zuletzt im Jahre 2005 durchgeführten Studie zum „Top Ten Program“ das Unternehmen Yahoo! als Besitzer des weltweit größten in der Erhebung identifizierten Data Warehouse. Demnach wuchs das Warehouse von 29,2 TB in der Erhebung von 2003 auf 100 TB in 2005 an – das entspricht einem Wachstum um Faktor drei in 3 Jahren. Aus Internet-Blogs war zwischenzeitlich zu lesen, der analytische Datenbestand für Web Transaktionen bei Yahoo! habe bereits die 1 Petabyte Grenze hinter sich gelassen und solle bereits in 2009 im Bereich der 10er Petabyte liegen. Wenn auch solche Größenordnungen noch als Ausnahmen gelten können, so gilt heute ein Data Warehouse von 5-10 TB als durchschnittlich – bereits eine Größenordnung, die für den Datenbank-Betreiber eine Herausforderung werden kann.
Aktuelle Entwicklungen bringen nämlich nicht nur wachsende Datenmengenmit sich. Aktualisierungszeiten im Data Warehouse verkürzen sich zunehmend. Anwender fordern einen frühzeitigen
Zugriff auf wichtige Unternehmens- wie auch externe Daten, um schneller auf Marktentwicklungen reagieren zu können. Und sie fordern schnellere Antworten. Der BI Survey identifiziert seit
vielen Jahren schlechte Performance als das größte Problem in analytischen Anwendungen. Gleichzeitig ist eine Korrelation zu erkennen zwischen guten Abfragezeiten und dem in der Studie
identifizierten „Business Benefits Index“ – je besser die erzielten Abfragezeiten, desto höher fällt auch der erzielte geschäftliche Nutzen aus.
Mehr Leistungsfähigkeit
Und nicht zuletzt die fortschreitende Komplexität der analytischen Anforderungen lässt den Druck auf die Leistungsfähigkeit der DBMS ansteigen. Immer mehr Anwender benötigen
Informationen für immer kürzer werdende Entscheidungsintervalle. Wo Quartalsprognosen früher ausreichten, erfordert die Schnelligkeit der globalisierten Wirtschaft kontinuierliche
Anpassungen der Geschäftsstrategie. Am Beispiel des höchst volatilen Ölpreises im Jahre 2008 lässt sich ablesen, wie schnell und wie häufig Unternehmen potentiell
Korrekturen vornehmen müssen auf Basis von aktuellen Informationen. Die Ermittlung geschäftskritischer Kennzahlen auf Basis von rückwärts gerichteten Analysen ist nicht mehr
ausreichend. Die Praxis hat jedoch gezeigt, dass RDBMS nicht immer die beste Lösung zur Befriedigung von analytischen Anforderungen darstellen. Multidimensionale Datenbanken haben sich in
diesem Bereich schon lange etabliert. Leider bleibt diese Technologie bei vielen Datenbank- Markterhebungen außer Acht. In dem BI Survey, der vor allem OLAP Applikationen betrachtet, sind
MDBMS hingegen gut vertreten. Hier wird jedoch von wesentlich kleineren Datenvolumen berichtet: so gilt ein Datenvolumen von >100GB bereits als „sehr groß“. So kann abgeleitet
werden, dass MDBMS vor allem für OLAP-Aufgaben sehr gut geeignet sind, allerdings an Skalierfähigkeit für große Datenvolumen und hohe Anwenderzahlen vermissen lassen. Zudem
gelten die Aktualisierungszeiten von Datenwürfel als langwierig, nicht zuletzt weil in der Datenbank gespeicherte Aggregate während dieser Zeit ebenfalls vorberechnet werden
müssen.
Optimierungsmaßnahmen
Überhaupt kann festgehalten werden, dass die klassischen Tuningmaßnahmen für Datenbanken die Flexibilität stark einschränken und gleichzeitig die TCO (Total Cost of
Ownership) negativ beeinflussen können. So kann über Optimierungsmaßnahmen erst dann befunden werden, wenn die Abfragen bekannt sind. Adhoc Abfragen entstehen jedoch dynamisch. Das
Engagement eines Datenbank- Administrators „just in time“ bei der Entstehung eines kurzfristigen Informationsbedarfs ist nicht realistisch. Zudem können umgesetzte
Tuningmaßnahmen die Datenlatenz erhöhen. So entstehen durch Anlage von Indices und Aggregaten, übliche Mechanismen in RDBMS und MDBMS, längere Aktualisierungszeiten.
Durch die Notwendigkeit, hoch spezialisiertes Knowhow für Betrieb und Optimierung der Datenbanken und deren Datenbelieferung vorzuhalten, sowie den durch Tuningmaßnahmen zusätzlich
verbrauchten Speicherplatz wird die TCO (Total Cost of Ownership) negativ beeinflusst. Hier setzen die Data Warehouse Appliances an. „Appliance“ lässt sich mit Haushaltsgerät
oder Apparat übersetzen. Der Name ist Programm: einfach anzuwendende, für den konkreten Zweck optimierte Geräte, und zwar Hard- und Software in abgestimmter Kombination, sollen die
Flexibilität erhöhen und gleichzeitig die Kosten senken. Diese leistungsstarke DB-Server sollen dank hochgradiger Parallelität und teilweise automatischer Selbstoptimierung das
manuelle Tuning überflüssig machen.
Neue Technologien
Neue Hersteller wie beispielsweise Netezza, Greenplum und Exasol mischen den Markt mit teilweise neuen Technologien auf. So hat Netezza die Speicherhardware mit Verarbeitungslogik bestückt,
die die Daten bereits vor dem Lesen von der Festplatte filtern kann. Dies reduziert die physischen Platten- I/O’s, die als teuerste und zeitintensivste Operation bei der Abarbeitung von
Datenbankabfragen gelten. Ein ähnliches Prinzip folgt nun auch Oracle mit der Ankündigung des Oracle Exadata Storage. Greenplum hingegen setzt DB technisch zunächst auf das
Open-Source RDBMS PostgreSQL. PostgreSQL verfügt im Kern, ähnlich wie Oracle und Microsoft SQL Server, über eine Shared- Disk Architektur. Diese gilt unter Experten als weniger
Skalierfähig als die Shared-Nothing Architekturen, die bei Teradata, IBM DB2 und den meisten Data Warehouse Appliances Anwendung finden. Greenplum erweitert PostgreSQL um eine Shared-Nothing
Schicht, die es ermöglicht, mehrere PostgreSQL- Instanzen zu einer geclusterten Datenbank zusammen zu fassen, um eine hochgradig parallele Verarbeitung zu erreichen. Ein ähnliches Konzept
verfolgte bislang DatAllegro auf Basis des OS DBMS Ingres. DatAllegro wurde in diesem Jahr von Microsoft übernommen. Die Linux-/Ingres-basierende Version des Produktes wird daher
zukünftig von einer Windows- und SQL Server- basierenden Microsoft Version abgelöst. Damit rückt auch die Gates- Company in die Liga der Shared-Nothing Anbieter auf. Exasol hingegen
verfolgt mit ihrem Flagschiff-Produkt ExaSolution technologisch einen anderen Weg. ExaSolution basiert auf einer hoch komprimierten, spalten-basierten In-Memory Datenhaltung. Während die
meisten relationalen Datenbanken eine zeilen-basierte Datenablage bevorzugen, gilt die spalten-basierte Datenhaltung als eine für bestimmte analytische Abfragen besonders effiziente
Organisationsform, die sich bereits in Sybase IQ bewährt hat. Aber auch die etablierten Datenbankhersteller haben reagiert und bieten ihrerseits vorkonfigurierte „Black Boxes“ zur
Unterstützung von DataWarehouse Anwendungen an. Hier hat man es weniger mit Software-basierenden Produktinnovationen zu tun, schlussendlich gelten diese Datenbanken als weitestgehend
ausgereift. Man setzt vor allem auf Komplettpakete aus optimal aufeinander abgestimmte Hard- und Software.
Virtualisierung und Cloud-Computing
Während die Appliance-Angebote zunächst auf Basis von proprietären Hardware zusammengesetzt waren, ist ein allgemeiner Trend zu Standard-Hardware zu erkennen, was sicherlich die
Akzeptanz aus Sicht des IT-Betriebs erhöht. Trotzdem verbleiben Charakteristiken, die allgemeinen Trends im Data Center Management entgegenstehen. Virtualisierung und Cloud-Computing sind die
Stichworte, von dem sich Nutzer und Betreiber Kosteneinsparung und Erhöhung der Flexibilität in der Ressourcennutzung versprechen. Ein Virtualisierungskonzept steht jedoch im Widerspruch
zum Konzept der Appliances, das einen dedizierten Einsatz von Hardware für einen bestimmten Zweck vorsieht. DesWeiteren setzen viele Appliance-Anbieter auf DAS – Directly Attached
Storage, um einen möglichst hohen Datendurchsatz zwischen Platte und Datenbankprozessor sicherzustellen. In vielen Unternehmen wird aber eine SAN-(Storage Area Network) Strategie verfolgt. Ein
SAN bringt Vorteile in der Verwaltbarkeit des Speichers mit sich, kann aber bedingt durch das zwischengeschaltete Netzwerk den Durchsatz zwischen Speicher und DB-Server negativ beeinflussen. Welche
Konzepte sich langfristig durchsetzen werden, bleibt abzuwarten. Wenn die Übertragung der Daten von Platte in den Arbeitsspeicher jedoch den Engpass in der Verarbeitung darstellt, scheint eine
In-Memory Datenhaltung doch ungeahnte Potentiale zur Leistungssteigerung zu bieten. Auch klassische Datenbankprodukte nutzen Pufferbereiche im RAM zur Zwischenspeicherung von Daten. Stetig fallende
HW-Preise sowie 64-Bit Adressierung haben eine sehr umfangreiche In-Memory Datenhaltung auch für sehr große Datenmengen möglich gemacht. Der SAP BI Accelerator ist ein Beispiel
für eine In-Memory Datenhaltung, deren Datenorganisation für den Suchprozess optimiert wurde. Dabei arbeitet diese Abfrageengine mit dem des SAP Netweaver BI (SAP BW) nahtlos zusammen.
Ausgewählte Würfel werden für die RAM-basierte Datenspeicherung bestimmt und beim Start des Servers in den Speicher geladen. Der Anwender merkt – außer bei der
Abfragegeschwindigkeit – nicht, ob seine Abfrage ausschließlich innerhalb des Netweaver BI oder mit Hilfe vom BI Accelerator abgearbeitet wird. Somit kann die Erstellung von manchen
vorberechneten Aggregaten, ein in Netweaver BI vielfach genutztes Konzept zur Verbesserung der Abfragezeiten, entfallen und die Datenlatenz verringert werden. Allerdings erfordert diese Lösung
eine zusätzliche, leistungsfähige Server- Infrastruktur, die sehr kostenintensiv ist. Auch andere Ausprägungen von RAM-basierter Datenhaltung finden sich derzeit vielfach am Markt.
Hierbei kann es sich um Cache-orientierte Lösungen in Middleware für Abfragesysteme handeln, wie es beispielsweise der BI Server von Oracle, die Cubing Services von IBM oder der Open
Source OLAP Server Mondrian der Firma Pentaho sind. Manche Datenbank-Engines verlassen sich vollständig auf eine In-Memory Datenhaltung, wie das oben erwähnte ExaSolution, oder die MDBMS
TM/1 (jetzt IBM) und Palo (Open Source von Jedox).
Kosteneffiziente Persistierung
Was aber, wenn die zu analysierende Datenmenge zu groß ist, um eine kosteneffiziente Persistierung überhaupt vorzunehmen? Immer mehr Unternehmen müssen sich der ereignisgesteuerten
Verarbeitung (event processing) zuwenden, um auf Geschehnisse im Umfeld sehr zeitnah reagieren zu können. Das Volumen der Informationen, die dafür zu analysieren sind, ist ausgesprochen
hoch, die Daten im Kontext anderer Geschäftsprozesse weniger bedeutend, weshalb sich eine langfristige Persistierung aufgrund der hohen Kosten häufig nicht rechnet. Hier setzen Streaming-
Lösungen an, die auf eine Speicherung der analysierten Daten auf Festplatte verzichten. Dabei können sehr große Datenmengen zur Analyse im Rahmen definierter Zeitfenster, durch die
Applikation durchfließen. Neue Abfragesprachen wurden für diesen Zweck entwickelt. So arbeitet das Produkt SQLStream von der gleichnamigen Firma mit StreamingSQL. Die Lösung von
IBM, InfoSphere Streams, arbeitet derzeit noch auf Basis von Spade. Ein Standard ist in diesem Bereich zwar noch nicht gesetzt, es scheint aber Entwicklungen in Richtung StreamingSQL zu geben. Ein
weiterer, innovativer Ansatz zur Analyse von sehr großen Datenmengen stellt die Map/Reduce-Technologie dar. Der Map/Reduce-Ansatz geht davon aus, dass Analytik zukünftig vor allem auf
Basis von dynamischen Datenmodellen operieren können muss. Auch hier liegt der Gedanke des Event Processings zugrunde: erst mit einem eintretenden Ereignis entstehen die Entitäten und
Attribute, die der adhoc-Analyse zugrunde liegen sollen. Eine weitere Annahme ist, dass analytische Aufgabenstellungen immer demselben Prinzip folgen: Quelldaten werden transformiert (Map) und im
Anschluss mit Hilfe von Filterbedingungen reduziert (Reduce), und beide Schritte in beliebiger Anzahl iteriert. Hierbei macht man sich die Schlankheit einer e-basierten File zur Datenablage
zunutze. Auch hier ist eine neue Abfragesprache entstanden, nämlich JAQL für JSONDaten. Allerdings ist der Entwickler selbst für die Parallelisierung der Analyseschritte
verantwortlich. Aufgrund der hohen Anforderungen an die Leistungsfähigkeit der Maschinen werden Map/Reduce-Applikationen häufig auf Basis einer Cloud-Infrastruktur gefahren. Nun
mögen die Ansätze des Streaming und Map/Reduce aufgrund der (noch) nicht standardisierten Abfragesprachen und sehr technisch geprägten Entwicklungsumgebungen auf Manchem wie ein
Schritt in die Vergangenheit wirken. Allerdings waren die frühen Tage des Data und Text Mining ähnlich ausgeprägt. Inzwischen sind Standards etabliert, die Basistechnologien gereift
und in Umgebungen aufgegangen, die auch von Fachanwender bedienbar sind. Und nicht zu vergessen: auch in relationale Datenbanken integriert.
Fazit
So wird es auch zukünftig nicht zu vermeiden sein, dass die Heterogenität der Technologien für das Datenmanagement unterschiedlicher Analyseapplikationen bestehen bleiben oder gar
weiter anwachsen wird. Damit steigt auch die Komplexität. Genau hier bedarf es weiterer Innovationen der Hersteller, um Lösungen hervorzubringen, die das Management dieser
Komplexität vereinfachen. Zwar wird die Integration der neuen Technologien in bestehende Infrastrukturen noch eine Weile dauern, aber nicht alle Unternehmen werden die neuen Technologien
sofort benötigen. Es kann aber als sicher gelten, dass relationale Datenbanken auch weiterhin ihre Daseinsberechtigung behalten und sich weiter entwickeln werden. Sie werden, gemeinsam mit
anderen Datenmanagementtechnologien, auch zukünftig einen Sockel des Informationsmanagements bilden.
Aktuelle Artikel von Jacqueline Bloemen
Kommentare
Möchten Sie den Beitrag kommentieren? Login oder Registrieren Sie sich heute!