Blog von: Detlef Apel http://www.beyenetwork.de/blogs/apel/ Copyright 2010 Tue, 15 Jun 2010 03:03:19 -0700 http://www.movabletype.org/?v=4.261 http://blogs.law.harvard.edu/tech/rss Datentyp-Analyse

Die Datentyp-Analyse ist eine einfache, eher technisch orientierte Analysemethode, die insbesondere bei unbekannten Daten angewendet wird. Bei Textdateien oder Quellen mit abweichenden Datenformaten (z. B. beim Zugriff auf ein anderes Datenbanksys tem) lässt sich damit der passende, fachlich korrekte Datentyp für die Speicherung im Data Warehouse identifizieren.

Zunächst stellt der Daten-Analyst den in den Metadaten (z. B. im Data Dictionary einer Datenbank) dokumentierten physikalischen Datentyp fest. Anschließend analysiert er alle zu diesem Datentyp gehörenden Attributwerte und leitet daraus den tatsächlichen, korrekten physikalischen Datentyp (wie z. B. NUMBER) ab.

Zusätzlich zum Datentyp analysiert der Analyst auch noch die Länge, Genauigkeit (z. B. bei NUMBER die Stellen vor und nach dem Komma), den vorherrschenden Datentyp sowie die davon abweichenden Werte.

Weicht der dokumentierte von dem dominanten Datentyp ab, ist der dokumentierte Datentyp in der Regel ein alphanumerischer. Denn in einem alphanumerischen Datentyp lassen sich fast alle Werte der anderen Datentypen abspeichern. Die Ursachen sind vielfältig: Nicht alle Quellsysteme (z. B. Legacy-Systeme) unterstützen jeden Datentyp (z. B. DATE), insbesondere kommaseparierte Textdateien lassen nur alphanumerische Datentypen zu. Oder die Werteliste enthält nicht zum originären Datentyp passende „Ausreißer“ zur Kennzeichnung besonderer Werte. Zum Beispiel bedeutet in einem ENDEDATUM der für ein Datum nicht zulässige Wert 33.3333, dass der Zeitraum offen ist und noch kein Ende-Datum festgelegt wurde. Oder die Abweisung nicht zum Datentyp passender Werte ist ausgeschaltet, um auch die unzulässigen Werte zu speichern. Diese werden dann erst in einem nachfolgenden Prozess bereinigt oder zum Nachweis archiviert.

Auch wenn diese Gründe im Einzelfall nachvollziehbar sind, korrumpieren sie das Data Warehouse und umgehen die vorhandenen Validierungsprüfungen. Damit die Datenqualität nicht leidet, sollte der Daten-Analyst diese Zweckentfremdung verhindern, indem er in die ETLProzesse eine Datentyp-Validierung nebst zugehörigem Datenfehlermanagement integriert.

Die in Abbildung II.2.4 dargestellten Ergebnisse einer Datenanalyse lassen sich folgendermaßen interpretieren: Zunächst werden die Attribute betrachtet, bei denen der dokumentierte und der dominante (= häufigste) Datentyp voneinander abweichen. Die Attribute BERUFSGRUPPEN_NR und BILDUNGS_NR sind als Text (VARCHAR2) definiert, enthalten aber zu 72,5 bzw. 97,1 Prozent Zahlen (NUMBER). Man überprüft deshalb, ob es sich fachlich tatsächlich um Attribute dieses Datentyps handelt (wie der Attributname vermuten lässt) und warum es auch Werte gibt, die keine Zahlen enthalten. Dürfen diese Attribute ausschließlich Zahlen enthalten, so ist der dokumentierte Datentyp zu aktualisieren. Außerdem sollte man in Betracht ziehen, bei der Verarbeitung dieser Daten die Attributwerte auf den korrekten Datentyp zu überprüfen.

 

Abb. II.2.4.jpgAuch bei den anderen Attributen gibt es Auffälligkeiten: So bestehen bei der ANREDE nur 99 Prozent der Werte aus Text, was unplausibel erscheint. Die weitere Analyse der bweichenden Werte zeigt, dass es Datensätze mit unkorrekten Werten (hier Zahlen 1 bis 3) gibt. Dies bestätigt auch ein Wert für die minimale Länge von 1, der unplausibel für eine Anrede erscheint. Unplausibel ist auch, dass das Attribut ANZ_KINDER 2,3 Prozent nichtnumerische Werte enthält. Die BERUFSGRUPPE enthält hingegen 12,3 Prozent nicht alphanumerische Zeichen, weshalb die abweichenden Werte ebenfalls überprüft und validiert werden.

Entsprechendes gilt für die Attribute BILDUNG, BRANCHE und EINKOMMENSGRUPPE. Sehr oft vertreten Entwickler und Analysten die Meinung, dass der physikalische auch immer der fachlich korrekte Datentyp ist. Das ist so nicht richtig: Der physikalische Datentyp gibt lediglich an, wie die Werte technisch abgespeichert werden sollen; er ist abhängig von den in der jeweiligen Umgebung (z. B. Datenbank) unterstützten Datentypen. Mit Hilfe einer Überprüfung der physikalischen Datentypen werden ausschließlich Werte validiert. Sie sind aber zu unspezifisch, um damit inkorrekte Werte zu identifizieren. Dazu muss diese Analyse durch weitere Methoden, wie eine Muster-Analyse, ergänzt werden.

Die Analyse der zusätzlichen Eigenschaften eines Datentyps wie Länge und Genauigkeit scheint auf den ersten Blick zweitrangig, führt aber bei bestimmten Fragen oft zu wichtigen Hinweisen.

Insbesondere die Länge eines alphanumerischen Datentyps sollte man beachten. Weicht die dokumentierte Länge sehr stark von der maximalen oder dominanten Länge ab, so liegt vermutlich eine Zweckentfremdung dieses Attributes vor. Ist z. B. das Attribut LANGBESCHREIBUNG eines Artikels mit einer Länge von 100 Zeichen dokumentiert, hat die Analyse hingegen eine maximale Länge von drei Zeichen ergeben, so ist das sehr verdächtig. Diese Werte sind dann näher zu betrachten und mit dem Fachbereich zu diskutieren. Entweder wurde das Attribut seit Betriebsbeginn zur Speicherung anderer Informationen zweckentfremdet oder es liegt ein Datenfehler vor, da z. B. ein fehlerhafter Prozess nur die ersten Zeichen in das Attribut gespeichert hat.

Ergibt die Analyse hingegen eine maximale Länge von 98 Zeichen, 70 Prozent der Werte haben aber die dominante Länge von drei Zeichen, lässt das auf einen anderen, ansonsten sehr schwer zu findenden Fehler schließen: Bis zu einem bestimmten Zeitpunkt enthielt das Attribut tatsächlich Beschreibungstexte, anschließend wurde es zweckentfremdet und andere Informationen darin gespeichert.

Passen die durch Analyse ermittelte maximale, minimale und dominante Länge mit der dokumentierten zusammen, so kann man durch Analyse der Verteilung der Längen noch Fehler finden. Beispielsweise ist in Abbildung II.2.5 zu sehen, dass 7 Prozent der Werte für das Attribut NAME eine Länge zwischen ein und drei Zeichen haben. Da dieser Anteil auf den ersten Blick zu hoch erscheint, müssen nachfolgend die zugehörigen Werte näher analysiert und auf fehlerhafte Einträge überprüft werden.

Abb. II.2.5.jpgAuch bei der Genauigkeits-Analyse deutet eine Abweichung zwischen dokumentierter und vorhandener Genauigkeit auf eine Zweckentfremdung hin. Sie zeigt aber auch, ob die Genauigkeit den fachlichen Ansprüchen gerecht wird. Soll in einem Unternehmen z. B. die Kennzahl UMSATZ auf den Cent genau berechnet werden, so müssen alle an der Berechnung dieser Kennzahl beteiligten Werte die dafür erforderliche Genauigkeit besitzen. Ansonsten kommt es bei der Berechnung zu unerwünschten Rundungsfehlern, welche die Korrektheit der Kennzahl vermindern. Es reicht also nicht aus, dass nur die Kennzahl UMSATZ die erforderliche Genauigkeit besitzt. Auch die Berechnungsformeln und die Herkunft der verwendeten Werte müssen bekannt sein. Zudem lassen sich mit der Genauigkeits-Analyse auch Rundungen von Werten identifizieren.

In der Praxis findet sich das gelegentlich bei Geldbeträgen, die auf volle Beträge gerundet werden. Das Beispiel in Tabelle II.2.1 zeigt, dass nur diskrete Werte für das Attribut JAHRESEINKOMMEN im Bereich von 0,01 bis 1.000.000 existieren; die Werte steigen stetig um den konstanten Faktor von 100, andere Zwischenwerte fehlen. Das lässt darauf schließen, dass die Werte gerundet wurden – z. B. auf volle hundert Euro.

Tab. II.2.1.jpgQuelle: Datenqualität erfolgreich steuern, D. Apel et. al., Hanser-Verlag

]]>
http://www.beyenetwork.de/blogs/apel/archives/2010/06/datentyp-analys.php http://www.beyenetwork.de/blogs/apel/archives/2010/06/datentyp-analys.php Data Profiling Tue, 15 Jun 2010 03:03:19 -0700
Mit Data Profiling Kosten und Risiko minimieren Immer noch scheitern viele Projekte an der schlechten Qualität ihrer Daten und überziehen substantiell Termine und Budget. Und das, obwohl diese Problematik schon seit vielen Jahren bekannt ist und heutzutage Vorgehensmodelle, Methoden, Werkzeuge und anderes Handwerkszeug zur Vermeidung existiert (Data Profiling beyenetwork.pdf). Aber warum werden diese nicht genutzt? Studien zeigen, dass Unternehmen die schlechte Qualität ihrer Daten sehr wohl bewusst ist - ändern wollen sie aber nichts daran. Also wird weiterhin versucht, mit Bordmitteln und mehr schlecht als recht in den Prozessen jedenfalls dafür zu sorgen, dass diese nicht aufgrund von Datenfehlern abbrechen. Über die Qualität der Daten deckt man dann lieber den Mantel des Schweigens. Was sind die Ursachen? Glauben die Unternehmen ihre Probleme wären unlösbar? Es gäbe keine Werkzeuge, mit denen sie effizient die Probleme lösen könnten? Es fehlten Experten, die sie in der Anfangsphase unterstützen könnten?

So muss es aber nicht weitergehen! Die Zeit ist reif in die Projektwelt hinauszugehen und zu verkünden, dass endlich Schluss sein muss mit diesem falschen Ängsten. Einerseits um Kosten und das Risiko zu minimieren, aber auch um die Qualität der Daten zu verbessern.

NACH meinen Workshops zum Data Profiling kommen die Teilnehmer auf mich zu und sagen: "Hätten wir das nur früher gewusst, dann wären wir das Problem anders angegangen, hätten viel Geld gespart und ein besseres Ergebnis erreicht!" Ich würde mich aber viel mehr freuen, wenn die Leute VORHER kommen würden! Schließlich dauert eine erste Analyse der Daten mit Data Profiling nicht viel Zeit und Geld und ist aus meiner Sicht für eine realistische Planung unverzichtbar. Aber ich gebe die Hoffnung nicht auf!

 

 

]]>
http://www.beyenetwork.de/blogs/apel/archives/2010/06/mit_data_profil.php http://www.beyenetwork.de/blogs/apel/archives/2010/06/mit_data_profil.php Data Profiling Wed, 02 Jun 2010 03:04:42 -0700
Roadshow Datenqualitätsmanagement 5. - 8.10.09 Anfang Oktober veranstalte ich zusammen mit Oracle eine interessante und trotzdem kostenlose Roadshow zum Thema Datenqualitätsmanagement. Es sind aktuell noch Restplätze frei, so dass sich Interessierte gerne noch anmelden können.

Datenqualität: Sprungbrett zum Geschäftserfolg
Noch immer scheitern in der Praxis BI-Projekte an mangelnder Datenqualität. Dabei steht fest: Unternehmen, die die Qualität ihrer Daten nachhaltig verbessern, haben im Wettbewerb die Nase vorn. Damit das Thema Datenqualität auch für Sie zu einem Sprungbrett zum Geschäftserfolg wird, laden wir Sie zu unserer Roadshow ein. Wir zeigen Ihnen, wie Sie die Datenqualität bei Business-Intelligence-Vorhaben in den Griff bekommen.
Dabei gehen wir auf alle praxisrelevanten Aspekte ein und spannen den Bogen von der Organisation für Datenqualitätsmanagement über eine integrative Architektur bis hin zu Methoden und Werkzeugen wie Data Profiling, Dublettenbehandlung und Monitoring.

Termine

  • 5. Oktober 2009 in München
  • 7. Oktober 2009 in Frankfurt (Dreieich)
  • 8. Oktober 2009 in Düsseldorf

Alle Veranstaltungen finden in der jeweiligen Oracle Geschäftsstelle statt.

Agenda

  • 9.00 Uhr Registrierung
  • 9.30 Uhr Einführung Alfred Schlaucher, Oracle Deutschland
  • 10.00 Uhr Überblick zum Datenqualitätsmanagement Rüdiger Eberlein, Capgemini sd&m
  • 10.30 Uhr Data Profiling Detlef Apel, Capgemini sd&m
  • 11.00 Uhr Kaffeepause
  • 11.30 Uhr Data Profiling in der Projektpraxis Detlef Apel, Capgemini sd&m
  • 12:00 Uhr Übersicht zur Dublettenbehandlung Detlef Apel, Capgemini sd&m
  • 12:20 Uhr Datenqualität im Master Data Management Alfred Schlaucher, Oracle Deutschland
  • 12.30 Uhr Ausklang: Business Lunch

Ich würde mich freuen, den einen oder anderen dort begrüßen zu dürfen.

 

Viele Grüße
Detlef Apel

 

 

 

]]>
http://www.beyenetwork.de/blogs/apel/archives/2009/09/roadshow_datenq.php http://www.beyenetwork.de/blogs/apel/archives/2009/09/roadshow_datenq.php Weiterbildung Tue, 29 Sep 2009 02:47:43 -0700
Buch ''Datenqualität erfolgreich steuern'' ein voller Erfolg! Hallo,

ich bin heute total überrascht von dem tollen Erfolg meines ersten Buchs mit Praxistipps zum Datenqualitätsmanagement. Nicht nur, dass es in den ersten vier Wochen über 350!!! Abnehmer fand. Nein, auch kommen nach und nach die ersten Rezensionen zum Buch heraus, die alle sehr positiv sind.

Hoffentlich lesen noch viele andere Leute dieses Buch und viel wichtiger: beherzigen auch die Tipps! Damit die schlechte Datenqualität nicht jedes Jahr wieder das große und alles beherrschende Thema ist!

Bisherige Rezensionen zum Buch "Datenqualität erfolgreich steuern":

PS: Wer immer noch kein Exemplar hat, findet hier die Bezugsquellen.

Viele Grüße,
vielen Dank an alle Käufer
Detlef Apel

]]>
http://www.beyenetwork.de/blogs/apel/archives/2009/08/buch_datenquali.php http://www.beyenetwork.de/blogs/apel/archives/2009/08/buch_datenquali.php News Tue, 25 Aug 2009 02:35:23 -0700
Attributanalyse: Attributnamen analysieren Der Namen eines Attributs sollte dzu den darin gespeicherten Daten passen, da sprechende Namen (z. B. MITARBEITER_ID) den Inhalt besser verständlich machen lassen als kryptische Bezeichnungen (z. B. MID).
In der Attributnamen-Analyse prüft der Datenanalyst deshalb die Namen aller Attribute auf Verständlichkeit und Aussagekraft. Die Verständlichkeit bei der Nutzung wird erhöht, wenn man den Attributen einen solchen Namen gibt, der auch außerhalb des Kontextes seiner Tabelle aussagekräftig ist. So sollte man beispielsweise dem Attribut mit der Mitarbeiternummer in der Tabelle MITARBEITER den Namen MITARBEITER_ID statt ID geben. Wenn die Attributwerte in einem Prozess weiterverarbeitet werden, fehlt ansonsten der Kontextbezug zu der ursprünglichen Tabelle. Kommen dann bei der Integration weitere IDs hinzu, ist auf den ersten Blick nicht mehr zu erkennen, welche ID welche eindeutige Nummer darstellt.
Enthält ein Attributname einen Hinweis auf den Datentyp (z. B. EINKOMMEN_NR) oder die Funktion (z. B. KUNDE_ID), so sollte dieser auch richtig sein. Beispielsweise können mit ID bezeichnete, aber nicht eindeutige Attribute genauso zu einem falschen Verständnis führen wie solche mit NR und nichtnumerischem Inhalt. Ein Beispiel hierfür ist in der Abbildung das Attribut BERUFSGRUPPEN_NR, dessen Werte nur zu 72,5 Prozent numerisch sind.
Zusätzlich wird analysiert, ob die Namen eindeutig sind oder Synonyme/Homonyme existieren. Der Business-Analyst kann entweder die Attribute und deren Werte betrachten oder den Hinweisen einer Domänen-Analyse nachgehen: Findet er unterschiedlich benannte Attribute mit der gleichen Domäne, so deutet das auf Synonyme hin; entdeckt er hingegen unterschiedliche Domänen in gleichnamigen Attributen, so ist das ein Hinweis auf Homonyme. Synonyme kann er berichtigen, indem er einen eindeutigen Namen festlegt und durchgängig verwendet. Bei Homonymen hingegen muss er die Namen der betroffenen Attribute so ändern, dass sie eindeutig sind.
In der Praxis kommt es öfters vor, dass nicht mehr genutzte Attribute für neue Inhalte zweckentfremdet werden, ohne den Namen ebenfalls anzupassen. Die möglichen Gründe sind: Man hat es schlichtweg vergessen oder man hat, um den Aufwand zu reduzieren, die Abfragen auf dieses Attribut und die dieses Attribut verwendenden Prozesse nicht aktualisieren wollen. Ein Indiz hierfür ist, dass die Werte eines Attributs nicht mit den anhand des Attributnamens erwarteten Werten übereinstimmen. Ein Beispiel: In einem Attribut STATUS werden mit Hilfe der Muster- oder Domänen-Analyse Telefonnummern gefunden. Meist ist es aber sehr schwierig, diese zweckentfremdeten Attribute zu finden, da in der Regel diese Attribute gemischt alte und neue Werte enthalten. So sind in dem Beispiel mit dem Attribut STATUS passende Statusinformationen und unpassende Telefonnummern enthalten.

DatentypAnalyse_low.jpg

]]>
http://www.beyenetwork.de/blogs/apel/archives/2009/07/attributanalyse.php http://www.beyenetwork.de/blogs/apel/archives/2009/07/attributanalyse.php Data Profiling Thu, 09 Jul 2009 12:28:03 -0700
<![CDATA[Fachbuch "Datenqualität erfolgreich steuern"ab 03. Juli bei amazon erhältlich]]> Nachdem mich täglich eine Vielzahl von Anfragen erreichen, wie man das neue deutschsprachige Fachbuch "Datenqualität erfolgreich steuern - Praxislösungen für BI-Projekte" bekommen kann, will ich für alle Interessierten die verschiedenen Möglichkeiten einmal darstellen.

  1. Bestellung per Mail beim TDWI. Auf dieser Internetseite kann das Buch per Mail bestellt werden.
  2. Bestellung über amazon. Ab dem 03. Juli ist das Buch auch über amazon erhältlich. ISBN: 978-3-446-42056-4
  3. Bestellung über den TDWI-Flyer. Der neue Flyer zum TDWI-Buchprogramm enthält auf der letzten Seite ein Bestellformular für das Buch.
  4. Bestellung über Buchhandlungen. Über den Hanser-Verlag sind schon jetzt Bestellungen direkt über Buchhandlungen möglich.
  5. Bestellung über bol. BOL hat sich dankenswerterweise bereit erklärt, Bestellungen anzunehmen.

Nachdem der Vorverkauf schon super angelaufen ist, auf der TDWI-Konferenz 2009 eine Vielzahl von Exemplaren verkauft wurden, während des Booksignings mit allen Autoren auf der gleichen Konferenz viele Bücher signiert und mit einer persönlichen Widmung versehen wurden, sollte spätestens mit der Listung bei amazon das aktuelle Beschaffungsproblem gelindert werden. Damit jeder Interessent auch sein Buch erhält - jedenfalls so lange, bis die Erstauflage vergriffen ist.

Viele Grüße

Detlef Apel


]]>
http://www.beyenetwork.de/blogs/apel/archives/2009/06/fachbuch_datenq.php http://www.beyenetwork.de/blogs/apel/archives/2009/06/fachbuch_datenq.php News Sun, 21 Jun 2009 13:04:32 -0700
Fazit 9. Europäische TDWI-Konferenz: Viele Teilnehmer, interessante Vorträge, tolle Atmosphäre  Vom 15. bis 17.06.2009 fand wieder einmal die alljährliche TDWI-Konferenz mit BARC-Track im Neuen Forum des Deutschen Museums in München statt. Trotz der Finanzkrise wurde wieder die gleiche Zahl an Teilnehmern gezählt wie letztes Jahr - ein Wahnsinnserfolg angesichts der durchschnittlich 30 Prozent geringeren Teilnehmerzahlen anderer Konferenzen. Das zeigt, dass sich diese Konferenz als größte deutsche, unabhängige Fachmesse für Data Warehousing und Business Intelligence mit ihrem Konzept fest in den Köpfen der DWH-/BI-Experten etabliert hat. Auch die Ausstellungsstände waren wie immer schnell vergeben, es zeigten die führenden 30 Hersteller und Beratungshäuser ihre Produkte und Leistungen den interessierten Teilnehmern. Nur Informatica war dieses Jahr leider nicht mit einem Stand vertreten, ich hätte gerne etwas mehr über die Integration der neu hinzugekommenen Produkte von Adress Doctor erfahren.
Dank des etwas kühleren Wetters waren die Konferenzräume dieses Jahr nicht ganz so heiss und stickig wie letztes Jahr, nur in den kleineren, dafür aber oft voll ausgebuchten Räumen stand die Luft unter den niedrigen Decken. Das Zuhören wurde dadurch öfters zur Qual.

Mein Workshop mit dem Titel "Datenqualität erfolgreich steuern" gehörte zu den bestbesuchten der gesamten Konferenz und erhielt sehr positives Feedback, mehr als 70 Teilnehmer lauschten den Auszügen aus dem neuen, gleichnamigen TDWI-Buch (erhältlich per Mail und ab 03.07. bei amazon). Zusätzlich wurde eine kleine Übung zum Data Profiling mit dem Oracle Warehouse Builder durchgeführt, die die Vorträge etwas auflockerte. Der Showcase zur Namen- und Adressbereinigung mit Trillium Software musste leider kurzfristig ausfallen, da durch interessierte Rückfragen und Diskussionen die dafür nötige Zeit fehlte.
Eines der Topthemen dieses Jahr war wieder einmal die Datenqualität. Neben meinem Workshop gab es noch folgende Sessions: 'Präventivmaßnahmen gegen Datenqualitätsprobleme im DWH' und 'Datenqualität und Data Governance in Theorie und Praxis'. Zusätzlich gab es noch zwei von BARC modierte Werkzeugvergleiche, einer zu Datenqualität und Master Data Management, der andere zu Datenqualität und Datenintegration. Im Speed-Dating-Verfahren konnten verschiedene Hersteller die Stärken ihrer Werkzeuge präsentieren, die Zuhörer erhielten in kürzester Zeit einen Überblick über die Unterschiede der verschiedenen Werzeuge. Aber auch in den anderen Sessions war Datenqualität ein Thema, so widmete John O'Brien in seiner Session zu den Datenintegrationstechniken einen Teil seines Vortrags diesem Thema.

Während der Welcome Reception wurde das erste TDWI-Buch "Datenqualität erfolgreich steuern" aus dem neuen Buchprogramm des TDWI von Herrn Prof. Chamoni vorgestellt und empfohlen, er dankte allen zu diesem Anlass anwesenden Autoren für ihre Arbeit. Die nachfolgende Möglichkeit zum Erwerb signierter Bücher wurde überraschend gut angenommen, eine Reihe von Büchern wurden mit persönlichen Widmungen verkauft.

Die Keynotes von Wayne W. Eckerson, Frank Buytendijk und Dr. Horst Zuse waren wieder einmal interessante, perfekt ausgewählte Highlights dieser Konferenz und wurden sehr kurzweilig vorgetragen. Das große Kino mit seinen aufsteigenden Sitzreihen und Samtsitzen war dazu ein würdiger, außergewöhnlicher Rahmen.

Was bleibt ist das Warten auf die nächste Konferenz in 2010 und die Frage, wie es gelingt Data Warehousing und Business Intelligence mit der parallel stattfindenden Fussball-WM zu verknüpfen. Einen Vorschlag hätte ich schon: Public Viewing im Kinosaal.

Bild054_low.jpg

]]>
http://www.beyenetwork.de/blogs/apel/archives/2009/06/fazit_9_europai.php http://www.beyenetwork.de/blogs/apel/archives/2009/06/fazit_9_europai.php News Wed, 17 Jun 2009 23:19:21 -0700
Informatica übernimmt Datenqualitäts-Dienstleister AdressDoctor Informatica erweitert mit der angekündigten Übernahme des Unternehmens Adressdoctor seine Datenintegrationssoftware mit deren Technologie zur Adressbereinigung und -anreicherung. Mit AddressDoctor lassen sich Adressen für mehr als 240 Länder und in 13 Sprachen validieren und korrigieren. Zusätzlich können die Adressdaten mit geografischen Informationen angereichert werden (Geocodierung). Für einige Länder ist auch eine Umzugsprüfung und ein Abgleich mit Verstorbenenlisten möglich.

AdressDoctor besitzt eine Reihe von Referenzkunden in Deutschland, z. B. 1&1 Internet AG, Aramex und Kempinski Hotels.

Mit dieser Akquisition von AddressDoctor verbessert Informatica seine Position im Markt für Datenqualitätswerkzeuge und folgt anderen Herstellern auf dem Weg zu kompletten Datenqualitätswerkzeugsuiten. Es ist zu hoffen, dass die Integration in die Informatica-Produkte möglichst schnell und möglichst vollständig erfolgt, damit die Kunden diese Technologie auch nutzen können.

In der Pressemitteilung von Informatica sagt dazu Ivan Chong, Senior Vice President mit Zuständigkeit für den Geschäftsbereich Data Quality bei Informatica: “Globale Adressprüfung ist ein entscheidendes Element der Datenqualität und AddressDoctor ist ein anerkannter Anbieter führender Technologie im Bereich globaler Adressprüfung. „Der Erwerb von AddressDoctor ermöglicht Informatica, Kunden die notwendige Leistungsfähigkeit und Flexibilität zu bieten, um die Vorteile globaler Adressprüfung im Zuge ihrer Datenqualitätsinitiativen zu erhöhen.“

]]>
http://www.beyenetwork.de/blogs/apel/archives/2009/06/informatica_ube.php http://www.beyenetwork.de/blogs/apel/archives/2009/06/informatica_ube.php News Tue, 02 Jun 2009 23:29:41 -0700
Workshop: Datenqualität erfolgreich steuern – Praxislösungen für BI-Projekte 9. Europäischen TDWI-Konferenz in München einen halbtägigen Workshop zum Thema "Datenqualität erfolgreich steuern Praxislösungen für BI-Projekte". Hier ein paar Informationen dazu:
Die Folgen von schlechter Datenqualität sind gravierend: Bis zu 25 Prozent des operativen Gewinns werden eingebüßt. Zudem überschreiten mehr als 80 Prozent aller datenlastigen Projekte Termine und Budgets. In vielen Unternehmen schwindet deshalb die Hoffnung, dieses Problem durch die bloße Einführung von Standardsoftware für Enterprise Resource Planning (ERP), Customer Relationship Management (CRM), Supply Chain Management (SCM) u. a. oder durch standhaftes Ignorieren lösen zu können. Erfahren Sie in diesem Workshop von den Autoren des ersten TDWI-Buchs "Datenqualität erfolgreich steuern - Praxislösungen für BI-Projekte" anhand praktischer Beispiele, wie Sie ganzheitlich die Qualität Ihrer Daten erfolgreich verbessern können. Erkennen Sie die Ursachen und Auswirkungen schlechter Datenqualität und welche Investitionen sich zur Verbesserung lohnen. Lernen Sie, wie eine Data-Governance-Organisation und eine Qualitätsarchitektur helfen, dieses Ziel zu erreichen. Testen Sie in einer Übung selbst, wie Daten durch Data Profiling mit dem Oracle Warehouse Builder 11g effizient analysiert werden können. Verstehen Sie, wie man am besten Daten validiert, filtert, standardisiert und mit zusätzlichen Informationen anreichert. Lassen Sie sich live zeigen, wie Namen & Adressdaten mit der Trillium Software Data Quality effizient und erfolgreich bereinigt werden können. Erleben Sie, wie Sie die Darstellung Ihrer Informationen verbessern und wie Sie mit Kennzahlen die Datenqualität im Betrieb überwachen können, um proaktiv neue Probleme mit der Datenqualität zu vermeiden. Ein Muss für alle Projektleiter, Architekten, Analysten, Designer und Entwickler, die die Wettbewerbsfähigkeit ihrer Unternehmen mit einer besseren Daten- und Informationsqualität steigern wollen.
Es würde mich freuen, den einen oder anderen Leser auf dieser Konferenz kennenzulernen. Entweder während meines Workshops, an dem TDWI-Konferenz-Stand von Capgemini sd&m oder irgendwo zwischendurch. Viele Grüße,
viel Spaß auf dieser tollen Konferenz
Detlef Apel]]>
http://www.beyenetwork.de/blogs/apel/archives/2009/05/workshop_datenq.php http://www.beyenetwork.de/blogs/apel/archives/2009/05/workshop_datenq.php News Fri, 29 May 2009 01:54:34 -0700
Trillium Software Systems V12: Centralized Business Rules Library In dem News-Eintrag zur neuen Version wurden kurz die neuen, verbesserten Funktionen der aktuellen Version V12 des Trillium Software Systems beschrieben. Grund genug, diese einmal näher zu analysieren und zu bewerten.

Beginnen möchte ich mit der Centralized Business Rules Library, da diese Funktion mir in vielen Gesprächen mit den Toolherstellern wichtig war. Ab sofort ist es möglich, benutzerspezifische Geschäftsregeln in einer zentralen Bibliothek zu speichern und somit für verschiedene Benutzer zugänglich zu machen. Geschäftsregeln beschreiben fachlich die geltenden und in der Zukunft absehbaren Regeln für die Geschäftsprozesse und werden in der Regel innerhalb der Spezifikationsphase definiert. Sie leiten sich ab aus regulatorischen, externen oder unternehmensinternen Anforderungen und ändern sich typischerweise mit der Zeit. Mit diesen Geschäftsregeln werden die zulässigen Werte und Beziehungen zwischen verschiedenen Attributen definiert. Ein Beispiel für eine solche fachliche Regel ''In dem Unternehmen XY werden Freiberufler ausschließlich nach Stunden bezahlt.''

Die Regeln werden wie in dem Beispiel zunächst logisch definiert und später physikalisch an reale Attribute aus verschiedenen Datenquellen und Systemen gebunden. Für das Beispiel lautet die logische Definition : ''Wenn das Beschäftigungsverhältnis gleich FREIBERUFLER ist, so ist die Abrechnungseinheit gleich STUNDEN.'' Diese logische Definition wird nun an eine physikalische Entität gebunden und ein Mapping zwischen den logischen und den realen Attributen festgelegt. In der Abbildung sieht man, dass für das Beispiel die Regel an die Entität Mitarbeiter gebunden wurde. Das logische Attribut ''Beschäftigungsverhältnis'' wurde an das physikalische Attribut ''Anstellungsart'' gebunden, die ''Abrechnungseinheit'' an die ''Abrechneinheit''.

  binding business rule TS V12.jpg
Abbildung: Binden der logischen Attribute an reale Attribute in TSS V12>

Durch die Möglichkeit, die logisch definierten Regeln mehrfach an verschiedene Objekte zu binden, müssen nicht wie bisher gleiche fachliche Regeln für jedes Objekt redundant definiert und gepflegt werden. Sollte zum Beispiel die fachliche Regel ''In dem Unternehmen XY wird beim Geschlecht unterschieden nach Mann, Frau.'' an den Objekten KUNDE und MITARBEITER verwendet werden, mussten bisher zwei Regeln definiert werden. Eine für das Objekt KUNDE, eine für das Objekt MITARBEITER. Das reduzierte einerseits die Anzahl redundanter Regeln, zweitens erhöht sich damit der Pflegeaufwand. Muss eine Regel geändert werden (z. B. beim Geschlecht kommt die Ausprägung ''Unbekannt'' hinzu), mussten bisher alle redundanten Regeln aktualisiert werden. Mit der Version V12 reicht es hingegen aus, die zentrale Regel einmalig zu ändern. Diese Änderung kann dann an alle Objekte automatisch propagiert werden, die diese Regel verwenden.

Neben dem reduzierten Pflegeaufwand hat dieses neue Verfahren zwei weitere Vorteile. Erstens steigt dadurch die Übersichtlichkeit, da alle Geschäftsregeln zentral an einem Ort definiert sind. Zweitens erhöhen sich mittelbar die Korrektheit und die Aktualität dieser Geschäftsregeln. Der zuständige Data Steward kann in regelmäßigen Abständen diese Regeln vom Fachbereich überprüfen und aktualisieren lassen. Früher war das aufgrund der Vielzahl der redundanten Regeln, deren Verstreuung über verschiedene Systeme nur schwer möglich.

Diese Geschäftsregeln können z. B. zum Monitoring der Datenqualität genutzt werden. Im Verarbeitungsprozess wird automatisch geprüft, wie viele Datensätze die jeweilige Regel einhalten und wie viele nicht. Daraus lässt sich eine Gütekennzahl berechnen, aus den gewichteten Gütekennzahlen der einzelnen Geschäftsregelvalidierungen kann dann eine Qualitätskennzahl abgeleitet und z. B. in der Datenqualitäts-Scorecard angezeigt werden.

Fazit: Eine sehr nützliche neue Funktion dieser Version V12, deren hohen Wert die Entwickler und Benutzer hoffentlich möglichst früh erkennen und die Funktion nutzen sollten.

Quelle Bild: Abgeleitet aus Technical Bulletin TSS V12, Trillium Software, 04/2009

]]>
http://www.beyenetwork.de/blogs/apel/archives/2009/05/trillium_softwa.php http://www.beyenetwork.de/blogs/apel/archives/2009/05/trillium_softwa.php Werkzeuge Fri, 29 May 2009 00:31:14 -0700
Group 1 Software erhält Zertifizierung seiner Customer Data Quality (CDQ) Platform™ für Siebel CRM 8 Group 1 Software meldet den Abschluss der erfolgreichen Zertifizierung ihrer Customer Data Quality (CDQ) Platform™ für Siebel CRM 8 von Oracle.
Durch die Integration der CDQ-Plattform über den Data Quality Connector 5.5 kann die Vollständigkeit und Korrektheit der Daten gewährleistet werden. Dadurch wird ein wichtiger Mehrwert geschaffen, durch den automatisierten Datenabgleich, die Aktualisierung und Korrektur von Kundenstamm- und Adressdaten wird die Gefahr sinkender Benutzerakzeptanz für das CRM-System durch eine unzureichende Datenqualität reduziert. 

Mit der erfolgreiche Zertifizierung nach den strengen Richtlinien des Oracle PartnerNetworks wird die reibungslose Integration des Data Quality Connector 5.5 mit Siebel CRM bestätigt, für Kunden reduzieren sich dadurch die Risiken und die Implementierungsprozesse werden verbessert.

Quelle: Pressemitteilung und Pressemitteilung 2

]]>
http://www.beyenetwork.de/blogs/apel/archives/2009/05/group_1_softwar.php http://www.beyenetwork.de/blogs/apel/archives/2009/05/group_1_softwar.php News Thu, 28 May 2009 00:12:17 -0700
Data-Profiling-Verfahren Es existieren eine Vielzahl unterschiedlicher Data-Profiling-Verfahren, die sich in drei Gruppen einteilen lassen:

  1. Attribut-Ebene: Analyse der Werte und Eigenschaften eines Attributs (z. B. einer Tabellenspalte)
  2. Datensatz-Ebene: Analyse aller Sätze einer Struktur (z. B. alle Datensätze einer Tabelle)
  3. Tabellen-Ebene: Analyse aller Beziehungen zwischen Sammlungen von Strukturen (z. B. zwischen Tabellen oder zwischen den Datensätzen einer Tabelle)

 

Data-Profiling-Arten_low.jpg

Abb.: Data-Profiling-Arten (größeres Bild)

 Für jede dieser drei Gruppen existiert eine Vielzahl unterschiedlicher Data-Profiling-Verfahren. Diese Verfahren aber nur einzelne Mosaiksteinchen vom Bild der Datenqualität – erst die richtige, projektspezifische Kombination ergibt einen vollständigen Eindruck und sichert den Erfolg.
Die vorwiegend technisch orientierten unterstützten Standard-Verfahren beschränken sich zumeist auf formale Prüfungen (z. B. auf Vollständigkeit) und beinhalten kaum inhaltliche Prüfungen (z. B. auf Korrektheit). Deshalb bleiben die Ergebnisse unvollständig, werden dafür aber von den auf dem Markt verfügbaren Werkzeugen sehr gut unterstützt.

]]>
http://www.beyenetwork.de/blogs/apel/archives/2009/05/data-profiling-.php http://www.beyenetwork.de/blogs/apel/archives/2009/05/data-profiling-.php Data Profiling Thu, 07 May 2009 14:20:29 -0700
Neues Fachbuch ''Datenqualität erfolgreich steuern'' Immer mehr Unternehmen begreifen erfolgreiches Datenqualitätsmanagement als entscheidenden Wettbewerbsvorteil: Die IT-Kosten sinken, Projekte werden beschleunigt und auf Änderungen am Markt oder in gesetzlichen Auflagen kann schneller und flexibler reagiert werden. Darüber hinaus wird die Datenintegration über System-, Abteilungs- und Unternehmensgrenzen hinweg erleichtert, Imageverluste aufgrund negativer Schlagzeilen werden vermieden und falsche Entscheidungen aufgrund mangelhafter Daten verhindert.

Das Buch ''Datenqualität erfolgreich steuern'' (Erscheinungstermin: Juni 2009) dreht sich um dieses aktuelle Thema und zeigt anhand von Beispielen, wie IT-Verantwortliche die Qualität ihrer Daten zielgerichtet verbessern können. Die praxisorientierte Neuerscheinung beschreibt erstmals detailliert die Lösungsansätze, Methoden und Werkzeuge für das Datenqualitätsmanagement entlang des gesamten Datenflusses von der Datenerfassung über das Data Profiling, die verschiedenen Schritte der Datenintegration bis hin zur Informationsbereitstellung. Wichtige querschnittliche Prozesse sind dabei das Metadaten-Management sowie das laufende Monitoring der Datenqualität.

Das Autorenteam stellt dar, wie man Data Profiling richtig einsetzt und den größten Nutzen aus den Ergebnissen zieht. Auch werden Produkte analysiert und bewertet, mit denen IT-Manager ihre Datenprobleme optimal lösen können. Das Buch geht den Ursachen und Auswirkungen schlechter Datenqualität auf den Grund und verdeutlicht, welche Investitionen sich wirklich lohnen. Das gebündelte Expertenwissen kann vielen Anwendern kostspielige und letztlich erfolglose Experimente ersparen, denn: Das Wissen um die Grundlagen des Datenqualitätsmanagements, die technische Umsetzung mit passgenauen Werkzeugen und die praktische Umsetzung in einem kompletten Zyklus eines BI-Projektes sind unabdingbar für erfolgreiches Datenqualitätsmanagement.

Weitere Informationen zu diesem Buch auf folgender Webseite. Inhalte daraus werden auch hier in meinem Blog veröffentlicht.

Viel Spaß beim Lesen und
viel Erfolg bei der der Umsetzung im nächsten Projekt wünscht

Detlef Apel

]]>
http://www.beyenetwork.de/blogs/apel/archives/2009/05/neues_fachbuch.php http://www.beyenetwork.de/blogs/apel/archives/2009/05/neues_fachbuch.php Weiterbildung Mon, 04 May 2009 10:15:39 -0700
Datenqualitäts-Projekte trotzen der Flaute Auch wenn die Zeitungen immer wieder neu von schlechten Konjunkturaussichten reden -Projekte zur Verbesserung der Datenqualität sind aus der bisherigen Erfahrungen kaum betroffen. Nur wenige Kunden verschieben diese auf einen späteren Zeitpunkt, ganz darauf verzichten tut kaum einer. Warum auch? Gerade in schwierigen Zeiten ist es wichtig, durch eine verbesserte Datenqualität die Projektkosten erheblich zu reduzieren. Das lohnt sich für Unternehmen immer, aber besonders jetzt. Wenn die Konjunktur wieder anzieht, haben diese Unternehmen einen entscheidenden Wettbewerbsvorteil: Sie können ihre Projekte kostengünstiger und schneller abwickeln. Und sind damit erfolgreicher als andere und gehen gestärkt aus der Krise hervor.

Auch die aktuelle Studie von Omikron Data Quality, einem Anbieter für Datenqualitäts-Werkzeuge, untermauert meine Erfahrungen.

]]>
http://www.beyenetwork.de/blogs/apel/archives/2009/04/datenqualitats-.php http://www.beyenetwork.de/blogs/apel/archives/2009/04/datenqualitats-.php News Sat, 25 Apr 2009 12:16:28 -0700
Der iterative Data-Profiling-Prozess Eine Data-Profiling-Analyse verläuft als iterativer Prozess (siehe Abbildung) und besteht aus vier Einzelschritten:

  1. Daten integrieren,
  2. integrierte Daten analysieren,
  3. Ergebnisse darstellen und
  4. fachlich bewerten.

DataProfilingProzess.jpg 

Abbildung: Der iterative Data-Profiling-Prozess ( größeres Bild ansehen)

Schritt 1: Daten integrieren
Zuerst extrahiert das Projekt-Team die Daten aus den Quellsystemen für die Data-Profiling-Analyse. Wer diese Daten zunächst in einen eigenen Staging-Bereich für das Data Profiling kopiert, gewinnt mehrere Vorteile.

Erstens wird die zusätzliche Last auf den Quellsystemen vermieden. Typischerweise analysiert der Data-Profiling-Prozess große Datenbestände, deshalb ist der Bedarf an Rechnerressourcen hoch. Eine Entkopplung verhindert, dass die Quellsysteme unnötig stark belastet werden und sich somit die operativen/dispositiven Prozesse untragbar verlangsamen.

Zweitens wird so die Analyse von Änderungen in den Quellsystemen entkoppelt. Data Profiling ist ein iterativer Prozess, wobei die einzelnen Schritte unter Umständen lange dauern können. Während der Dauer dieses Prozesses ändern sich die Daten in den Quellsystemen ständig. Deshalb können die Wiederholungen nicht auf einem konstanten Datenbestand durchgeführt werden, was die Ergebnisse verfälscht. Nur wenn der Datenbestand während des gesamten Prozesses  im Staging-Bereich konstant bleibt, sind die Ergebnisse reproduzier- und verwertbar.

Drittens wird die Laufzeit des Data-Profiling-Prozesses kürzer. Für das Data Profiling werden Daten aus verschiedenen Systemen über technische, geografische und Systemgrenzen hinweg analysiert. Die Laufzeiten des Data-Profiling-Prozesses können sich bei einem direkten Zugriff stark erhöhen, insbesondere bei schmalbandigen Netzwerkverbindungen. Weiterer Nachteil: Bei auftretenden Verbindungsabbrüchen muss der gesamte Analyseschritt wiederholt werden.

Um bessere Ergebnisse zu erzielen, werden die Daten vor der Data-Profiling-Analyse noch weiter aufbereitet. Beispielsweise werden als Freitextfelder definierte Attribute mit zusammengesetztem Inhalt aufgespalten („Parsing“): So trennt man Name = „Dr. Friedrich Müller in Titel = „Dr.“, Vorname = „Friedrich“, Nachname = „Müller“. Außerdem entfernt man für die Analyse nicht benötigte Attribute und fügt Referenzdatenbestände (z. B. für Adressdaten) hinzu. Besitzen die zu analysierenden Daten referenzielle Beziehungen zu anderen, nicht in die Analyse einbezogenen Daten, sollte man diese Beziehungen auflösen und die Schlüsselwerte durch die „richtigen“ Werte ersetzen. Alternativ werden die verbundenen Daten auch zusätzlich mit in die Analyse einbezogen. Die so aufbereiteten Daten stellt man anschließend für die Analyse bereit.

Schritt 2: integrierte Daten analysieren
Sind die Daten bereitgestellt, werden sie mit Hilfe der verschiedenen Verfahren des Data Profiling analysiert. Obwohl dies weitestgehend automatisch mit Hilfe eines Werkzeugs passiert, muss der Data-Profiling-Analyst interagieren. So muss er die geeigneten Analyseverfahren auswählen und konfigurieren.

Wie der gesamte Prozess ist auch dieser Analyseschritt hochgradig iterativ. Der Analyst wählt ein geeignetes Verfahren, analysiert damit die Daten und begutachtet die Ergebnisse. Darin identifiziert er erste Auffälligkeiten und weitere Fragen, denen er dann nachgeht. Dazu wechselt er in der Regel mehrfach die Verfahren, bis sich am Schluss die Erkenntnisse verfestigt haben. Für diese Aufgabe ist detektivischer Spürsinn gefragt.

Schritt 3: Ergebnisse darstellen
Ergebnisse, offene Fragen und Vermutungen bereitet er in geeigneter Form auf und bespricht sie im Nachgang mit dem Business-Analysten. In der Praxis hat sich gezeigt, dass der Business-Analyst diese nur richtig und vollständig bewerten kann, wenn sie verständlich und nicht zu IT-lastig dargestellt sind. Meist fehlen dem Business-Analysten die notwendigen IT-Kenntnisse, um mit den Begriffen „Referenzielle Integrität“, „Eindeutigkeit“ etc. etwas anfangen zu können. Deshalb ist es erfolgversprechender, bei der Darstellung der Ergebnisse für den Fachexperten verständliche Begriffe zu verwenden.

Beispiel: Versuche, dem Business-Analysten zu erklären, dass „in der Tabelle BESTELLUNGEN 3,2 Prozent Waisen ohne Vater in der Tabelle KUNDEN existieren“, scheitern. Zielführender sind die Fragen: Warum sind 3,2 Prozent aller Bestellungen keinem Kunden zuzuordnen? Wohin sind diese Bestellungen geliefert worden und wer hat die Rechnung bekommen? Außerdem ist es hilfreich, die entsprechenden Datensätze dem meist überraschten Business-Analysten gleich mit zu präsentieren. Denn in vielen Fällen kann der Fachexperte erst anhand der zugehörigen Datensätze die mögliche Ursache identifizieren.

Wer die Reporting-Funktionalitäten des verwendeten Werkzeugs benutzt, kann den Aufwand für die aufbereitete Darstellung meist deutlich reduzieren. Viele Werkzeuge verfügen bereits heute über ein umfangreiches Berichtswesen, das zu den üblichen tabellarischen häufig auch grafische Darstellungen bietet. Außerdem ermöglichen sie den direkten Zugriff und die Darstellung der betroffenen Datensätze.

Schritt 4: Ergebnisse fachlich bewerten
Nachdem der Daten-Analyst dem Business-Analysten die Ergebnisse verständlich präsentiert hat, führt dieser eine fachliche Bewertung durch. Diese geschieht in der Praxis in mehreren Workshops. Auch der Daten-Analyst ist anwesend, um Rückfragen zu beantworten, Ergebnisse zu präzisieren und für eine Bewertung notwendige, zusätzliche Informationen zur Verfügung zu stellen. Die Bewertung ist und bleibt aber die originäre Aufgabe des Business-Analysten, schließlich ist hierfür ausgeprägtes Wissen über die Geschäftsprozesse und die Fachlichkeit nötig. Der Daten-Analyst unterstützt lediglich, kann diese Aufgabe aber nicht selber übernehmen.

Beispiel: Der Daten-Analyst hat in einer Data-Profiling-Analyse herausgefunden, dass für das Attribut KUNDENSTATUS 98,7 Prozent der Werte durch die Domänenwerte INTERESSENT oder KUNDE abgedeckt sind. Die restlichen 1,3 Prozent verteilen sich auf die Werte NULL, NOCH KEIN KUNDE bzw. EXKUNDE. Der Business-Analyst muss jetzt bewerten, ob die Domäne so fachlich richtig definiert ist. Außerdem klärt er, ob die diskreten Werte INTERESSENT und KUNDE tatsächlich die einzigen erlaubten Werte sind, wie die anderen vorhandenen Werte bei der Bereinigung und den nächsten Ladeläufen auf diese beiden zulässigen Werte abgebildet werden sollen und woher diese anderen Werte stammen. Außerdem muss er festlegen, ob das Attribut ein MUSS-Feld ist oder ob auch die gefundenen NULL-Werte zulässig sind. Dazu liefert der Daten-Analyst ihm die Datensätze mit den anderen Werten, die nachfolgend analysiert und im Quellsystem überprüft werden.

Reichen dem Business-Analysten die vorhandenen Informationen nicht oder sind noch Fragen offen, wird der gesamte Prozess mit geänderten Daten und neuen Fragen wiederholt gestartet. Erst wenn alle Fragen geklärt sind, wird der Prozess beendet.

Quelle: "Datenqualität erfolgreich steuern - Praxislösungen für BI-Projekte", TDWIPress, 2009

]]>
http://www.beyenetwork.de/blogs/apel/archives/2009/04/der_iterative_d.php http://www.beyenetwork.de/blogs/apel/archives/2009/04/der_iterative_d.php Data Profiling Thu, 16 Apr 2009 10:15:27 -0700