Komplexe Adhoc-Analysen trotz hohen Datenvolumens bei XING

18 Juni 2010

Datenanalyse mit hoher Performance -  Bei der XING AG gibt es jetzt komplexe Adhoc-Analysen trotz hohen Datenvolumens

Mehr als acht Millionen Mitglieder weltweit managen mit XING bereits ihre Geschäftskontakte – und das mit steigender Tendenz. Neben den zahlreichen Networking-Funktionen bietet XING auch eine Vielzahl von E-Recruiting-Features und Services, die den Mitgliedern dabei helfen, passende Jobangebote oder Mitarbeiter zu finden. Hinzu kommen die XING Unternehmensprofile: Hier können sich Firmen professionell in Szene setzen. Mit XING Advertising & Best Offers lässt sich eine attraktive Business-Zielgruppe mit gezielter Werbung oder exklusiven Angeboten auf XING erreichen. Und die XING Enterprise Groups ermöglichen es Unternehmen und Organisationen, auf XING ihre eigene professionelle Community zu starten. Bei all diesen Angeboten kommt es darauf an, die jeweilige Zielgruppe genau zu kennen und mehr über ihre Bedürfnisse in Erfahrung zu bringen. Aus der Vielzahl der Kunden und Produkte entsteht ein sehr hohes Datenvolumen. Die statistische Analyse der Daten wird dadurch sehr komplex. Das seit 2006 im Einsatz befindliche System konnte die Anforderungen nicht mehr erfüllen, die Durchlaufzeit einzelner Analysevorgänge wurde zu lang. Nach einem mehrschrittigen Auswahlverfahren und einem „Proof of Concept“ setzte sich in 2009 die Lösung EXASolution der Firma EXASOL durch.

Ausgangssituation und Anforderungen

Die Hamburger XING AG betreibt mit ihren 266 Mitarbeitern die Internet-Plattform XING, die weltweit für Geschäfts-, Berufs- und Karrierekontakte in 16 Sprachen angeboten wird. „Zur internen Analyse verarbeiten wir derzeit pro Jahr insgesamt einige zehn Milliarden Datensätze beziehungsweise einige zehn Terabyte. Für diese Vielzahl an Daten benötigen wir ein leistungsfähiges Datenbank-Managementsystem“, erläutert Nils Grabbert, Director Business Intelligence bei der XING AG. Doch die bestehende Datenbank gelangte bei der Auswertung der großen Datenmenge zunehmend an ihre Grenzen. Die schnelle Expansion des Unternehmens sowie die daraus  resultierenden wachsenden Datenmengen und Business-Intelligence-Aufgaben sprengten die Kapazität der bestehenden Lösung. Teilweise überschritt die Zeit der Datenverarbeitung eines Tages bereits die 24-Stunden-Marke. Zuviel Zeit musste der Systemoptimierung gewidmet werden. „Das System war nicht  ausbaufähig und nicht skalierbar; auch konnten wir kein Clustering durchführen“, erinnert sich Grabbert. Die BI-Abteilung von XING suchte daher nach einer neuen Lösung, die eine deutlich höhere Performance bei geringem Administrationsaufwand erreicht.

Lösung

Seit Mai 2009 setzt XING als Grundlage für die internen Analysen auf das  Datenbank-Managementsystem EXASolution von EXASOL. Dieses nutzt die sogenannte In-Memory Cluster-Technologie und kombiniert sie mit effizienten Kompressionsalgorithmen, um das große Datenvolumen zu verarbeiten. Die In-Memory-Technologie erlaubt höchsten Datendurchsatz und damit eine hohe  Performance beim Zugriff auf die Daten. Bei lesenden Anfragen erfolgt die Verarbeitung vollständig im RAM, so dass der langsame Zugriff auf Festplatten entfällt. Das Cluster bei XING besteht derzeit aus zehn Knoten, die jeweils mit zwei Prozessoren bestückt sind. Mehrere Server werden zu einem solchen Cluster zusammengeschlossen. Die Daten werden automatisch im Cluster verteilt, so dass bei Berechnungen sämtliche Hardware-Ressourcen optimal genutzt werden. Alle Daten werden dabei in der Datenbank in Spalten und nicht in Zeilen gespeichert. Das Datenbank-System kann selbständig ermitteln, wie die ideale Systemkonfiguration aussieht.

Weiterer Vorteil: Der Kunde bezahlt nur, was er tatsächlich benötigt. Anders als bei konventionellen Systemen ist bei EXASolution die verteilte Datenspeicherung schon integriert, ein teures  Storage Area Network (SAN) als externe Speicherlösung entfällt. Durch die Verwendung von Standardkomponenten ist die EXASOL-Cluster-Hardware meist günstiger als Spezialhardware oder eine „All-in-one“-Hardware.

Darüber hinaus setzt EXASOL Kompressionsalgorithmen ein, die eine effiziente Hauptspeichernutzung ermöglichen und demzufolge die Systemkosten  nachhaltig senken. EXASolution ist zudem ein selbstlernendes System, das sich an die Nutzungsgewohnheiten der Anwender anpasst. Indizes werden automatisch angelegt, Daten komprimiert und SQL-Anweisungen vom Query-Optimizer getunt.

Schon vor zwei Jahren hatte das deutsche Unternehmen EXASOL aus Nürnberg gemeinsam mit ihrem damaligen Partner Fujitsu Siemens Computers in den Kategorien 1 Terabyte und 3 Terabyte des renommierten TPC-H Benchmarks die bisher unerreichte Bestmarke von 1 Million Abfragen pro Stunde (QphH = Queries per hour) erreicht. Mit der Version ihres innovativen Datenbanksystems EXASolution 2.1 und den PRIMERGY Servern RX300 S4 von Fujitsu Siemens Computers gelang es dem Duo, den im Dezember 2007 in der 1TB-Kategorie gesetzten Referenzwert zu überbieten und in der  3TBKategorie einen neuen Rekord aufzustellen.

„Wir haben uns nach einem ausgiebigen Benchmark-Test für die Lösung von EXASOL entschieden. Die hohe Performance des Systems, das Preis-/Leistungs-Verhältnis und der Service  haben uns vollauf überzeugt“, erklärt Nils Grabbert. Für den Auswahlprozess von XING wurden 20 Kandidaten ausgewählt: In der Vorauswahl wurde diese Zahl auf sieben reduziert, von denen mit fünf Anbietern ein ‚Proof of Concept’ durchgeführt wurde. EXASolution konnte vor allem aufgrund der hohen Leistung, des niedrigen Administrationsaufwandes und der einfachen Integration in die vorhandene Infrastruktur punkten.

In nur vier Wochen integrierte XING mit Hilfe von EXASOL-Experten die EXASolution in die bestehende Infrastruktur zur Datenauswertung, so dass sofort merkliche Verbesserungen für Analysen und die Entwicklung von Datenverarbeitungsprozessen genutzt werden konnten. Anschließend wurden die bestehenden ETL Prozesse nacheinander auf das neue Datenbank-Managementsystem umgestellt. Gleichzeitig wurden das Datenmodel, die  Metadatenverwaltung und die Business Logik erweitert bzw. weiter optimiert. Diese Migration wurde im April 2010 abgeschlossen.
Höhere Performance, mehr Daten

Die neue Data Warehouse-Lösung bringt XING einen wichtigen Schritt vorwärts. So ist es jetzt aufgrund der besseren Performance des Systems möglich, auch Anfragen zu stellen, die vorher keine Chance auf eine Antwort hatten. Eine Vorberechnung und Zusammenfassung ist nicht mehr notwendig. „Wegen der besseren Performance der EXASOL-Lösung sind jetzt auch Adhoc- Auswertungen der Datensätze möglich“, betont Nils Grabbert. Damit lassen sich schnell Teilmengen herausfiltern, die wichtige Fragen des Unternehmens beantworten.

Fazit

Die XING AG ist mit dem neuen Datenbank-Managementsystem überaus zufrieden. „Die Performance ist jetzt deutlich gestiegen; Anfragen, die früher undenkbar waren, sind jetzt möglich – und wir sind auch für die Zukunft gut gerüstet, denn das System lässt sich nahezu beliebig skalieren“, freut sich Grabbert. Es wurden bereits Projekte gestartet, um die EXASolution auch in anderen Bereichen des Unternehmens einzusetzen.


Themenverwandte Beiträge