Blog von: Detlef Apel Subscribe to this blog's RSS feed!

Detlef Apel

Willkommen in meinem Blog zum Informationsqualitätsmanagement im Beyenetwork. Immer mehr Unternehmen begreifen ein erfolgreiches Informationsqualitätsmanagement als einen entscheidenden Wettbewerbsvorteil: Die IT-Kosten sinken, Projekte werden beschleunigt, auf änderungen am Markt oder in gesetzlichen Auflagen kann schneller und flexibler reagiert werden, Datenintegrationen über System-, Abteilungs- und Unternehmensgrenzen werden erleichtert, Imageverluste aufgrund negativer Schlagzeilen vermieden und falsche Entscheidungen basierend auf mangelhaften Informationen verhindert. In diesem Blog möchte ich Ihnen zeigen und mit Ihnen diskutieren, wie Sie die Qualität Ihrer Informationen zielgerichtet und erfolgreich steigern können. Lassen Sie uns gemeinsam die Ursachen und Auswirkungen schlechter Datenqualität analysieren und erfahren, welche Investitionen sich wirklich lohnen. Die Grundlagen des Datenqualitätsmanagements, die technische Umsetzung mit passgenauen Werkzeugen und die praktische Umsetzung in einem kompletten Zyklus eines BI-Projektes sind der Leitfaden für ein erfolgreiches Informationsqualitätsmanagement. Feedback ist ausdrücklich erwünscht! Bitte kommentieren Sie meine Einträge oder schreiben Sie mir unter detlef.apel@capgemini-sdm.com.

Über den Autor >

Detlef Apel ist Senior-Berater im Center of Competence Business Intelligence der Capgemini sd&m AG. Sein Spezialgebiet ist das Informationsqualitätsmanagement in allen Facetten, in dem er seit vielen Jahren große Unternehmen verschiedener Branchen erfolgreich bei der Konzeption, der IT-Architektur, der Optimierung, der Realisierung und der Einführung berät und unterstützt.

Als Redner auf verschiedenen Konferenzen sowie als Autor diverser Fachartikel und des Fachbuchs „Datenqualität erfolgreich steuern – Praxislösungen für Business-Intelligence-Projekte“ stellt er sein Wissen und seine langjährigen Projekterfahrungen der DWH-/BI-Gemeinschaft zur Verfügung.

Die Datentyp-Analyse ist eine einfache, eher technisch orientierte Analysemethode, die insbesondere bei unbekannten Daten angewendet wird. Bei Textdateien oder Quellen mit abweichenden Datenformaten (z. B. beim Zugriff auf ein anderes Datenbanksys tem) lässt sich damit der passende, fachlich korrekte Datentyp für die Speicherung im Data Warehouse identifizieren.

Zunächst stellt der Daten-Analyst den in den Metadaten (z. B. im Data Dictionary einer Datenbank) dokumentierten physikalischen Datentyp fest. Anschließend analysiert er alle zu diesem Datentyp gehörenden Attributwerte und leitet daraus den tatsächlichen, korrekten physikalischen Datentyp (wie z. B. NUMBER) ab.

Zusätzlich zum Datentyp analysiert der Analyst auch noch die Länge, Genauigkeit (z. B. bei NUMBER die Stellen vor und nach dem Komma), den vorherrschenden Datentyp sowie die davon abweichenden Werte.

Weicht der dokumentierte von dem dominanten Datentyp ab, ist der dokumentierte Datentyp in der Regel ein alphanumerischer. Denn in einem alphanumerischen Datentyp lassen sich fast alle Werte der anderen Datentypen abspeichern. Die Ursachen sind vielfältig: Nicht alle Quellsysteme (z. B. Legacy-Systeme) unterstützen jeden Datentyp (z. B. DATE), insbesondere kommaseparierte Textdateien lassen nur alphanumerische Datentypen zu. Oder die Werteliste enthält nicht zum originären Datentyp passende „Ausreißer“ zur Kennzeichnung besonderer Werte. Zum Beispiel bedeutet in einem ENDEDATUM der für ein Datum nicht zulässige Wert 33.3333, dass der Zeitraum offen ist und noch kein Ende-Datum festgelegt wurde. Oder die Abweisung nicht zum Datentyp passender Werte ist ausgeschaltet, um auch die unzulässigen Werte zu speichern. Diese werden dann erst in einem nachfolgenden Prozess bereinigt oder zum Nachweis archiviert.

Auch wenn diese Gründe im Einzelfall nachvollziehbar sind, korrumpieren sie das Data Warehouse und umgehen die vorhandenen Validierungsprüfungen. Damit die Datenqualität nicht leidet, sollte der Daten-Analyst diese Zweckentfremdung verhindern, indem er in die ETLProzesse eine Datentyp-Validierung nebst zugehörigem Datenfehlermanagement integriert.

Die in Abbildung II.2.4 dargestellten Ergebnisse einer Datenanalyse lassen sich folgendermaßen interpretieren: Zunächst werden die Attribute betrachtet, bei denen der dokumentierte und der dominante (= häufigste) Datentyp voneinander abweichen. Die Attribute BERUFSGRUPPEN_NR und BILDUNGS_NR sind als Text (VARCHAR2) definiert, enthalten aber zu 72,5 bzw. 97,1 Prozent Zahlen (NUMBER). Man überprüft deshalb, ob es sich fachlich tatsächlich um Attribute dieses Datentyps handelt (wie der Attributname vermuten lässt) und warum es auch Werte gibt, die keine Zahlen enthalten. Dürfen diese Attribute ausschließlich Zahlen enthalten, so ist der dokumentierte Datentyp zu aktualisieren. Außerdem sollte man in Betracht ziehen, bei der Verarbeitung dieser Daten die Attributwerte auf den korrekten Datentyp zu überprüfen.

 

Abb. II.2.4.jpgAuch bei den anderen Attributen gibt es Auffälligkeiten: So bestehen bei der ANREDE nur 99 Prozent der Werte aus Text, was unplausibel erscheint. Die weitere Analyse der bweichenden Werte zeigt, dass es Datensätze mit unkorrekten Werten (hier Zahlen 1 bis 3) gibt. Dies bestätigt auch ein Wert für die minimale Länge von 1, der unplausibel für eine Anrede erscheint. Unplausibel ist auch, dass das Attribut ANZ_KINDER 2,3 Prozent nichtnumerische Werte enthält. Die BERUFSGRUPPE enthält hingegen 12,3 Prozent nicht alphanumerische Zeichen, weshalb die abweichenden Werte ebenfalls überprüft und validiert werden.

Entsprechendes gilt für die Attribute BILDUNG, BRANCHE und EINKOMMENSGRUPPE. Sehr oft vertreten Entwickler und Analysten die Meinung, dass der physikalische auch immer der fachlich korrekte Datentyp ist. Das ist so nicht richtig: Der physikalische Datentyp gibt lediglich an, wie die Werte technisch abgespeichert werden sollen; er ist abhängig von den in der jeweiligen Umgebung (z. B. Datenbank) unterstützten Datentypen. Mit Hilfe einer Überprüfung der physikalischen Datentypen werden ausschließlich Werte validiert. Sie sind aber zu unspezifisch, um damit inkorrekte Werte zu identifizieren. Dazu muss diese Analyse durch weitere Methoden, wie eine Muster-Analyse, ergänzt werden.

Die Analyse der zusätzlichen Eigenschaften eines Datentyps wie Länge und Genauigkeit scheint auf den ersten Blick zweitrangig, führt aber bei bestimmten Fragen oft zu wichtigen Hinweisen.

Insbesondere die Länge eines alphanumerischen Datentyps sollte man beachten. Weicht die dokumentierte Länge sehr stark von der maximalen oder dominanten Länge ab, so liegt vermutlich eine Zweckentfremdung dieses Attributes vor. Ist z. B. das Attribut LANGBESCHREIBUNG eines Artikels mit einer Länge von 100 Zeichen dokumentiert, hat die Analyse hingegen eine maximale Länge von drei Zeichen ergeben, so ist das sehr verdächtig. Diese Werte sind dann näher zu betrachten und mit dem Fachbereich zu diskutieren. Entweder wurde das Attribut seit Betriebsbeginn zur Speicherung anderer Informationen zweckentfremdet oder es liegt ein Datenfehler vor, da z. B. ein fehlerhafter Prozess nur die ersten Zeichen in das Attribut gespeichert hat.

Ergibt die Analyse hingegen eine maximale Länge von 98 Zeichen, 70 Prozent der Werte haben aber die dominante Länge von drei Zeichen, lässt das auf einen anderen, ansonsten sehr schwer zu findenden Fehler schließen: Bis zu einem bestimmten Zeitpunkt enthielt das Attribut tatsächlich Beschreibungstexte, anschließend wurde es zweckentfremdet und andere Informationen darin gespeichert.

Passen die durch Analyse ermittelte maximale, minimale und dominante Länge mit der dokumentierten zusammen, so kann man durch Analyse der Verteilung der Längen noch Fehler finden. Beispielsweise ist in Abbildung II.2.5 zu sehen, dass 7 Prozent der Werte für das Attribut NAME eine Länge zwischen ein und drei Zeichen haben. Da dieser Anteil auf den ersten Blick zu hoch erscheint, müssen nachfolgend die zugehörigen Werte näher analysiert und auf fehlerhafte Einträge überprüft werden.

Abb. II.2.5.jpgAuch bei der Genauigkeits-Analyse deutet eine Abweichung zwischen dokumentierter und vorhandener Genauigkeit auf eine Zweckentfremdung hin. Sie zeigt aber auch, ob die Genauigkeit den fachlichen Ansprüchen gerecht wird. Soll in einem Unternehmen z. B. die Kennzahl UMSATZ auf den Cent genau berechnet werden, so müssen alle an der Berechnung dieser Kennzahl beteiligten Werte die dafür erforderliche Genauigkeit besitzen. Ansonsten kommt es bei der Berechnung zu unerwünschten Rundungsfehlern, welche die Korrektheit der Kennzahl vermindern. Es reicht also nicht aus, dass nur die Kennzahl UMSATZ die erforderliche Genauigkeit besitzt. Auch die Berechnungsformeln und die Herkunft der verwendeten Werte müssen bekannt sein. Zudem lassen sich mit der Genauigkeits-Analyse auch Rundungen von Werten identifizieren.

In der Praxis findet sich das gelegentlich bei Geldbeträgen, die auf volle Beträge gerundet werden. Das Beispiel in Tabelle II.2.1 zeigt, dass nur diskrete Werte für das Attribut JAHRESEINKOMMEN im Bereich von 0,01 bis 1.000.000 existieren; die Werte steigen stetig um den konstanten Faktor von 100, andere Zwischenwerte fehlen. Das lässt darauf schließen, dass die Werte gerundet wurden – z. B. auf volle hundert Euro.

Tab. II.2.1.jpgQuelle: Datenqualität erfolgreich steuern, D. Apel et. al., Hanser-Verlag


June 15, 2010 3:03 AM
Permalink | keine Kommentare |

Immer noch scheitern viele Projekte an der schlechten Qualität ihrer Daten und überziehen substantiell Termine und Budget. Und das, obwohl diese Problematik schon seit vielen Jahren bekannt ist und heutzutage Vorgehensmodelle, Methoden, Werkzeuge und anderes Handwerkszeug zur Vermeidung existiert (Data Profiling beyenetwork.pdf). Aber warum werden diese nicht genutzt? Studien zeigen, dass Unternehmen die schlechte Qualität ihrer Daten sehr wohl bewusst ist - ändern wollen sie aber nichts daran. Also wird weiterhin versucht, mit Bordmitteln und mehr schlecht als recht in den Prozessen jedenfalls dafür zu sorgen, dass diese nicht aufgrund von Datenfehlern abbrechen. Über die Qualität der Daten deckt man dann lieber den Mantel des Schweigens. Was sind die Ursachen? Glauben die Unternehmen ihre Probleme wären unlösbar? Es gäbe keine Werkzeuge, mit denen sie effizient die Probleme lösen könnten? Es fehlten Experten, die sie in der Anfangsphase unterstützen könnten?

So muss es aber nicht weitergehen! Die Zeit ist reif in die Projektwelt hinauszugehen und zu verkünden, dass endlich Schluss sein muss mit diesem falschen Ängsten. Einerseits um Kosten und das Risiko zu minimieren, aber auch um die Qualität der Daten zu verbessern.

NACH meinen Workshops zum Data Profiling kommen die Teilnehmer auf mich zu und sagen: "Hätten wir das nur früher gewusst, dann wären wir das Problem anders angegangen, hätten viel Geld gespart und ein besseres Ergebnis erreicht!" Ich würde mich aber viel mehr freuen, wenn die Leute VORHER kommen würden! Schließlich dauert eine erste Analyse der Daten mit Data Profiling nicht viel Zeit und Geld und ist aus meiner Sicht für eine realistische Planung unverzichtbar. Aber ich gebe die Hoffnung nicht auf!

 

 


June 2, 2010 3:04 AM
Permalink | keine Kommentare |

Anfang Oktober veranstalte ich zusammen mit Oracle eine interessante und trotzdem kostenlose Roadshow zum Thema Datenqualitätsmanagement. Es sind aktuell noch Restplätze frei, so dass sich Interessierte gerne noch anmelden können.

Datenqualität: Sprungbrett zum Geschäftserfolg
Noch immer scheitern in der Praxis BI-Projekte an mangelnder Datenqualität. Dabei steht fest: Unternehmen, die die Qualität ihrer Daten nachhaltig verbessern, haben im Wettbewerb die Nase vorn. Damit das Thema Datenqualität auch für Sie zu einem Sprungbrett zum Geschäftserfolg wird, laden wir Sie zu unserer Roadshow ein. Wir zeigen Ihnen, wie Sie die Datenqualität bei Business-Intelligence-Vorhaben in den Griff bekommen.
Dabei gehen wir auf alle praxisrelevanten Aspekte ein und spannen den Bogen von der Organisation für Datenqualitätsmanagement über eine integrative Architektur bis hin zu Methoden und Werkzeugen wie Data Profiling, Dublettenbehandlung und Monitoring.

Termine

  • 5. Oktober 2009 in München
  • 7. Oktober 2009 in Frankfurt (Dreieich)
  • 8. Oktober 2009 in Düsseldorf

Alle Veranstaltungen finden in der jeweiligen Oracle Geschäftsstelle statt.

Agenda

  • 9.00 Uhr Registrierung
  • 9.30 Uhr Einführung Alfred Schlaucher, Oracle Deutschland
  • 10.00 Uhr Überblick zum Datenqualitätsmanagement Rüdiger Eberlein, Capgemini sd&m
  • 10.30 Uhr Data Profiling Detlef Apel, Capgemini sd&m
  • 11.00 Uhr Kaffeepause
  • 11.30 Uhr Data Profiling in der Projektpraxis Detlef Apel, Capgemini sd&m
  • 12:00 Uhr Übersicht zur Dublettenbehandlung Detlef Apel, Capgemini sd&m
  • 12:20 Uhr Datenqualität im Master Data Management Alfred Schlaucher, Oracle Deutschland
  • 12.30 Uhr Ausklang: Business Lunch

Ich würde mich freuen, den einen oder anderen dort begrüßen zu dürfen.

 

Viele Grüße
Detlef Apel

 

 

 


September 29, 2009 2:47 AM
Permalink | keine Kommentare |

Hallo,

ich bin heute total überrascht von dem tollen Erfolg meines ersten Buchs mit Praxistipps zum Datenqualitätsmanagement. Nicht nur, dass es in den ersten vier Wochen über 350!!! Abnehmer fand. Nein, auch kommen nach und nach die ersten Rezensionen zum Buch heraus, die alle sehr positiv sind.

Hoffentlich lesen noch viele andere Leute dieses Buch und viel wichtiger: beherzigen auch die Tipps! Damit die schlechte Datenqualität nicht jedes Jahr wieder das große und alles beherrschende Thema ist!

Bisherige Rezensionen zum Buch "Datenqualität erfolgreich steuern":

PS: Wer immer noch kein Exemplar hat, findet hier die Bezugsquellen.

Viele Grüße,
vielen Dank an alle Käufer
Detlef Apel


August 25, 2009 2:35 AM
Permalink | 2 Kommentare |

Der Namen eines Attributs sollte dzu den darin gespeicherten Daten passen, da sprechende Namen (z. B. MITARBEITER_ID) den Inhalt besser verständlich machen lassen als kryptische Bezeichnungen (z. B. MID).
In der Attributnamen-Analyse prüft der Datenanalyst deshalb die Namen aller Attribute auf Verständlichkeit und Aussagekraft. Die Verständlichkeit bei der Nutzung wird erhöht, wenn man den Attributen einen solchen Namen gibt, der auch außerhalb des Kontextes seiner Tabelle aussagekräftig ist. So sollte man beispielsweise dem Attribut mit der Mitarbeiternummer in der Tabelle MITARBEITER den Namen MITARBEITER_ID statt ID geben. Wenn die Attributwerte in einem Prozess weiterverarbeitet werden, fehlt ansonsten der Kontextbezug zu der ursprünglichen Tabelle. Kommen dann bei der Integration weitere IDs hinzu, ist auf den ersten Blick nicht mehr zu erkennen, welche ID welche eindeutige Nummer darstellt.
Enthält ein Attributname einen Hinweis auf den Datentyp (z. B. EINKOMMEN_NR) oder die Funktion (z. B. KUNDE_ID), so sollte dieser auch richtig sein. Beispielsweise können mit ID bezeichnete, aber nicht eindeutige Attribute genauso zu einem falschen Verständnis führen wie solche mit NR und nichtnumerischem Inhalt. Ein Beispiel hierfür ist in der Abbildung das Attribut BERUFSGRUPPEN_NR, dessen Werte nur zu 72,5 Prozent numerisch sind.
Zusätzlich wird analysiert, ob die Namen eindeutig sind oder Synonyme/Homonyme existieren. Der Business-Analyst kann entweder die Attribute und deren Werte betrachten oder den Hinweisen einer Domänen-Analyse nachgehen: Findet er unterschiedlich benannte Attribute mit der gleichen Domäne, so deutet das auf Synonyme hin; entdeckt er hingegen unterschiedliche Domänen in gleichnamigen Attributen, so ist das ein Hinweis auf Homonyme. Synonyme kann er berichtigen, indem er einen eindeutigen Namen festlegt und durchgängig verwendet. Bei Homonymen hingegen muss er die Namen der betroffenen Attribute so ändern, dass sie eindeutig sind.
In der Praxis kommt es öfters vor, dass nicht mehr genutzte Attribute für neue Inhalte zweckentfremdet werden, ohne den Namen ebenfalls anzupassen. Die möglichen Gründe sind: Man hat es schlichtweg vergessen oder man hat, um den Aufwand zu reduzieren, die Abfragen auf dieses Attribut und die dieses Attribut verwendenden Prozesse nicht aktualisieren wollen. Ein Indiz hierfür ist, dass die Werte eines Attributs nicht mit den anhand des Attributnamens erwarteten Werten übereinstimmen. Ein Beispiel: In einem Attribut STATUS werden mit Hilfe der Muster- oder Domänen-Analyse Telefonnummern gefunden. Meist ist es aber sehr schwierig, diese zweckentfremdeten Attribute zu finden, da in der Regel diese Attribute gemischt alte und neue Werte enthalten. So sind in dem Beispiel mit dem Attribut STATUS passende Statusinformationen und unpassende Telefonnummern enthalten.

DatentypAnalyse_low.jpg


July 9, 2009 12:28 PM
Permalink | keine Kommentare |

Nachdem mich täglich eine Vielzahl von Anfragen erreichen, wie man das neue deutschsprachige Fachbuch "Datenqualität erfolgreich steuern - Praxislösungen für BI-Projekte" bekommen kann, will ich für alle Interessierten die verschiedenen Möglichkeiten einmal darstellen.

  1. Bestellung per Mail beim TDWI. Auf dieser Internetseite kann das Buch per Mail bestellt werden.
  2. Bestellung über amazon. Ab dem 03. Juli ist das Buch auch über amazon erhältlich. ISBN: 978-3-446-42056-4
  3. Bestellung über den TDWI-Flyer. Der neue Flyer zum TDWI-Buchprogramm enthält auf der letzten Seite ein Bestellformular für das Buch.
  4. Bestellung über Buchhandlungen. Über den Hanser-Verlag sind schon jetzt Bestellungen direkt über Buchhandlungen möglich.
  5. Bestellung über bol. BOL hat sich dankenswerterweise bereit erklärt, Bestellungen anzunehmen.

Nachdem der Vorverkauf schon super angelaufen ist, auf der TDWI-Konferenz 2009 eine Vielzahl von Exemplaren verkauft wurden, während des Booksignings mit allen Autoren auf der gleichen Konferenz viele Bücher signiert und mit einer persönlichen Widmung versehen wurden, sollte spätestens mit der Listung bei amazon das aktuelle Beschaffungsproblem gelindert werden. Damit jeder Interessent auch sein Buch erhält - jedenfalls so lange, bis die Erstauflage vergriffen ist.

Viele Grüße

Detlef Apel



June 21, 2009 1:04 PM
Permalink | keine Kommentare |

 Vom 15. bis 17.06.2009 fand wieder einmal die alljährliche TDWI-Konferenz mit BARC-Track im Neuen Forum des Deutschen Museums in München statt. Trotz der Finanzkrise wurde wieder die gleiche Zahl an Teilnehmern gezählt wie letztes Jahr - ein Wahnsinnserfolg angesichts der durchschnittlich 30 Prozent geringeren Teilnehmerzahlen anderer Konferenzen. Das zeigt, dass sich diese Konferenz als größte deutsche, unabhängige Fachmesse für Data Warehousing und Business Intelligence mit ihrem Konzept fest in den Köpfen der DWH-/BI-Experten etabliert hat. Auch die Ausstellungsstände waren wie immer schnell vergeben, es zeigten die führenden 30 Hersteller und Beratungshäuser ihre Produkte und Leistungen den interessierten Teilnehmern. Nur Informatica war dieses Jahr leider nicht mit einem Stand vertreten, ich hätte gerne etwas mehr über die Integration der neu hinzugekommenen Produkte von Adress Doctor erfahren.
Dank des etwas kühleren Wetters waren die Konferenzräume dieses Jahr nicht ganz so heiss und stickig wie letztes Jahr, nur in den kleineren, dafür aber oft voll ausgebuchten Räumen stand die Luft unter den niedrigen Decken. Das Zuhören wurde dadurch öfters zur Qual.

Mein Workshop mit dem Titel "Datenqualität erfolgreich steuern" gehörte zu den bestbesuchten der gesamten Konferenz und erhielt sehr positives Feedback, mehr als 70 Teilnehmer lauschten den Auszügen aus dem neuen, gleichnamigen TDWI-Buch (erhältlich per Mail und ab 03.07. bei amazon). Zusätzlich wurde eine kleine Übung zum Data Profiling mit dem Oracle Warehouse Builder durchgeführt, die die Vorträge etwas auflockerte. Der Showcase zur Namen- und Adressbereinigung mit Trillium Software musste leider kurzfristig ausfallen, da durch interessierte Rückfragen und Diskussionen die dafür nötige Zeit fehlte.
Eines der Topthemen dieses Jahr war wieder einmal die Datenqualität. Neben meinem Workshop gab es noch folgende Sessions: 'Präventivmaßnahmen gegen Datenqualitätsprobleme im DWH' und 'Datenqualität und Data Governance in Theorie und Praxis'. Zusätzlich gab es noch zwei von BARC modierte Werkzeugvergleiche, einer zu Datenqualität und Master Data Management, der andere zu Datenqualität und Datenintegration. Im Speed-Dating-Verfahren konnten verschiedene Hersteller die Stärken ihrer Werkzeuge präsentieren, die Zuhörer erhielten in kürzester Zeit einen Überblick über die Unterschiede der verschiedenen Werzeuge. Aber auch in den anderen Sessions war Datenqualität ein Thema, so widmete John O'Brien in seiner Session zu den Datenintegrationstechniken einen Teil seines Vortrags diesem Thema.

Während der Welcome Reception wurde das erste TDWI-Buch "Datenqualität erfolgreich steuern" aus dem neuen Buchprogramm des TDWI von Herrn Prof. Chamoni vorgestellt und empfohlen, er dankte allen zu diesem Anlass anwesenden Autoren für ihre Arbeit. Die nachfolgende Möglichkeit zum Erwerb signierter Bücher wurde überraschend gut angenommen, eine Reihe von Büchern wurden mit persönlichen Widmungen verkauft.

Die Keynotes von Wayne W. Eckerson, Frank Buytendijk und Dr. Horst Zuse waren wieder einmal interessante, perfekt ausgewählte Highlights dieser Konferenz und wurden sehr kurzweilig vorgetragen. Das große Kino mit seinen aufsteigenden Sitzreihen und Samtsitzen war dazu ein würdiger, außergewöhnlicher Rahmen.

Was bleibt ist das Warten auf die nächste Konferenz in 2010 und die Frage, wie es gelingt Data Warehousing und Business Intelligence mit der parallel stattfindenden Fussball-WM zu verknüpfen. Einen Vorschlag hätte ich schon: Public Viewing im Kinosaal.

Bild054_low.jpg


June 17, 2009 11:19 PM
Permalink | keine Kommentare |

Informatica erweitert mit der angekündigten Übernahme des Unternehmens Adressdoctor seine Datenintegrationssoftware mit deren Technologie zur Adressbereinigung und -anreicherung. Mit AddressDoctor lassen sich Adressen für mehr als 240 Länder und in 13 Sprachen validieren und korrigieren. Zusätzlich können die Adressdaten mit geografischen Informationen angereichert werden (Geocodierung). Für einige Länder ist auch eine Umzugsprüfung und ein Abgleich mit Verstorbenenlisten möglich.

AdressDoctor besitzt eine Reihe von Referenzkunden in Deutschland, z. B. 1&1 Internet AG, Aramex und Kempinski Hotels.

Mit dieser Akquisition von AddressDoctor verbessert Informatica seine Position im Markt für Datenqualitätswerkzeuge und folgt anderen Herstellern auf dem Weg zu kompletten Datenqualitätswerkzeugsuiten. Es ist zu hoffen, dass die Integration in die Informatica-Produkte möglichst schnell und möglichst vollständig erfolgt, damit die Kunden diese Technologie auch nutzen können.

In der Pressemitteilung von Informatica sagt dazu Ivan Chong, Senior Vice President mit Zuständigkeit für den Geschäftsbereich Data Quality bei Informatica: “Globale Adressprüfung ist ein entscheidendes Element der Datenqualität und AddressDoctor ist ein anerkannter Anbieter führender Technologie im Bereich globaler Adressprüfung. „Der Erwerb von AddressDoctor ermöglicht Informatica, Kunden die notwendige Leistungsfähigkeit und Flexibilität zu bieten, um die Vorteile globaler Adressprüfung im Zuge ihrer Datenqualitätsinitiativen zu erhöhen.“


June 2, 2009 11:29 PM
Permalink | keine Kommentare |
Am 15.06.2009 halte ich auf der 9. Europäischen TDWI-Konferenz in München einen halbtägigen Workshop zum Thema "Datenqualität erfolgreich steuern Praxislösungen für BI-Projekte". Hier ein paar Informationen dazu:
Die Folgen von schlechter Datenqualität sind gravierend: Bis zu 25 Prozent des operativen Gewinns werden eingebüßt. Zudem überschreiten mehr als 80 Prozent aller datenlastigen Projekte Termine und Budgets. In vielen Unternehmen schwindet deshalb die Hoffnung, dieses Problem durch die bloße Einführung von Standardsoftware für Enterprise Resource Planning (ERP), Customer Relationship Management (CRM), Supply Chain Management (SCM) u. a. oder durch standhaftes Ignorieren lösen zu können. Erfahren Sie in diesem Workshop von den Autoren des ersten TDWI-Buchs "Datenqualität erfolgreich steuern - Praxislösungen für BI-Projekte" anhand praktischer Beispiele, wie Sie ganzheitlich die Qualität Ihrer Daten erfolgreich verbessern können. Erkennen Sie die Ursachen und Auswirkungen schlechter Datenqualität und welche Investitionen sich zur Verbesserung lohnen. Lernen Sie, wie eine Data-Governance-Organisation und eine Qualitätsarchitektur helfen, dieses Ziel zu erreichen. Testen Sie in einer Übung selbst, wie Daten durch Data Profiling mit dem Oracle Warehouse Builder 11g effizient analysiert werden können. Verstehen Sie, wie man am besten Daten validiert, filtert, standardisiert und mit zusätzlichen Informationen anreichert. Lassen Sie sich live zeigen, wie Namen & Adressdaten mit der Trillium Software Data Quality effizient und erfolgreich bereinigt werden können. Erleben Sie, wie Sie die Darstellung Ihrer Informationen verbessern und wie Sie mit Kennzahlen die Datenqualität im Betrieb überwachen können, um proaktiv neue Probleme mit der Datenqualität zu vermeiden. Ein Muss für alle Projektleiter, Architekten, Analysten, Designer und Entwickler, die die Wettbewerbsfähigkeit ihrer Unternehmen mit einer besseren Daten- und Informationsqualität steigern wollen.
Es würde mich freuen, den einen oder anderen Leser auf dieser Konferenz kennenzulernen. Entweder während meines Workshops, an dem TDWI-Konferenz-Stand von Capgemini sd&m oder irgendwo zwischendurch. Viele Grüße,
viel Spaß auf dieser tollen Konferenz
Detlef Apel

May 29, 2009 1:54 AM
Permalink | keine Kommentare |

In dem News-Eintrag zur neuen Version wurden kurz die neuen, verbesserten Funktionen der aktuellen Version V12 des Trillium Software Systems beschrieben. Grund genug, diese einmal näher zu analysieren und zu bewerten.

Beginnen möchte ich mit der Centralized Business Rules Library, da diese Funktion mir in vielen Gesprächen mit den Toolherstellern wichtig war. Ab sofort ist es möglich, benutzerspezifische Geschäftsregeln in einer zentralen Bibliothek zu speichern und somit für verschiedene Benutzer zugänglich zu machen. Geschäftsregeln beschreiben fachlich die geltenden und in der Zukunft absehbaren Regeln für die Geschäftsprozesse und werden in der Regel innerhalb der Spezifikationsphase definiert. Sie leiten sich ab aus regulatorischen, externen oder unternehmensinternen Anforderungen und ändern sich typischerweise mit der Zeit. Mit diesen Geschäftsregeln werden die zulässigen Werte und Beziehungen zwischen verschiedenen Attributen definiert. Ein Beispiel für eine solche fachliche Regel ''In dem Unternehmen XY werden Freiberufler ausschließlich nach Stunden bezahlt.''

Die Regeln werden wie in dem Beispiel zunächst logisch definiert und später physikalisch an reale Attribute aus verschiedenen Datenquellen und Systemen gebunden. Für das Beispiel lautet die logische Definition : ''Wenn das Beschäftigungsverhältnis gleich FREIBERUFLER ist, so ist die Abrechnungseinheit gleich STUNDEN.'' Diese logische Definition wird nun an eine physikalische Entität gebunden und ein Mapping zwischen den logischen und den realen Attributen festgelegt. In der Abbildung sieht man, dass für das Beispiel die Regel an die Entität Mitarbeiter gebunden wurde. Das logische Attribut ''Beschäftigungsverhältnis'' wurde an das physikalische Attribut ''Anstellungsart'' gebunden, die ''Abrechnungseinheit'' an die ''Abrechneinheit''.

  binding business rule TS V12.jpg
Abbildung: Binden der logischen Attribute an reale Attribute in TSS V12>

Durch die Möglichkeit, die logisch definierten Regeln mehrfach an verschiedene Objekte zu binden, müssen nicht wie bisher gleiche fachliche Regeln für jedes Objekt redundant definiert und gepflegt werden. Sollte zum Beispiel die fachliche Regel ''In dem Unternehmen XY wird beim Geschlecht unterschieden nach Mann, Frau.'' an den Objekten KUNDE und MITARBEITER verwendet werden, mussten bisher zwei Regeln definiert werden. Eine für das Objekt KUNDE, eine für das Objekt MITARBEITER. Das reduzierte einerseits die Anzahl redundanter Regeln, zweitens erhöht sich damit der Pflegeaufwand. Muss eine Regel geändert werden (z. B. beim Geschlecht kommt die Ausprägung ''Unbekannt'' hinzu), mussten bisher alle redundanten Regeln aktualisiert werden. Mit der Version V12 reicht es hingegen aus, die zentrale Regel einmalig zu ändern. Diese Änderung kann dann an alle Objekte automatisch propagiert werden, die diese Regel verwenden.

Neben dem reduzierten Pflegeaufwand hat dieses neue Verfahren zwei weitere Vorteile. Erstens steigt dadurch die Übersichtlichkeit, da alle Geschäftsregeln zentral an einem Ort definiert sind. Zweitens erhöhen sich mittelbar die Korrektheit und die Aktualität dieser Geschäftsregeln. Der zuständige Data Steward kann in regelmäßigen Abständen diese Regeln vom Fachbereich überprüfen und aktualisieren lassen. Früher war das aufgrund der Vielzahl der redundanten Regeln, deren Verstreuung über verschiedene Systeme nur schwer möglich.

Diese Geschäftsregeln können z. B. zum Monitoring der Datenqualität genutzt werden. Im Verarbeitungsprozess wird automatisch geprüft, wie viele Datensätze die jeweilige Regel einhalten und wie viele nicht. Daraus lässt sich eine Gütekennzahl berechnen, aus den gewichteten Gütekennzahlen der einzelnen Geschäftsregelvalidierungen kann dann eine Qualitätskennzahl abgeleitet und z. B. in der Datenqualitäts-Scorecard angezeigt werden.

Fazit: Eine sehr nützliche neue Funktion dieser Version V12, deren hohen Wert die Entwickler und Benutzer hoffentlich möglichst früh erkennen und die Funktion nutzen sollten.

Quelle Bild: Abgeleitet aus Technical Bulletin TSS V12, Trillium Software, 04/2009


May 29, 2009 12:31 AM
Permalink | 1 Kommentar |