Blog von: Detlef Apel Subscribe to this blog's RSS feed!

Detlef Apel

Willkommen in meinem Blog zum Informationsqualitätsmanagement im Beyenetwork. Immer mehr Unternehmen begreifen ein erfolgreiches Informationsqualitätsmanagement als einen entscheidenden Wettbewerbsvorteil: Die IT-Kosten sinken, Projekte werden beschleunigt, auf änderungen am Markt oder in gesetzlichen Auflagen kann schneller und flexibler reagiert werden, Datenintegrationen über System-, Abteilungs- und Unternehmensgrenzen werden erleichtert, Imageverluste aufgrund negativer Schlagzeilen vermieden und falsche Entscheidungen basierend auf mangelhaften Informationen verhindert. In diesem Blog möchte ich Ihnen zeigen und mit Ihnen diskutieren, wie Sie die Qualität Ihrer Informationen zielgerichtet und erfolgreich steigern können. Lassen Sie uns gemeinsam die Ursachen und Auswirkungen schlechter Datenqualität analysieren und erfahren, welche Investitionen sich wirklich lohnen. Die Grundlagen des Datenqualitätsmanagements, die technische Umsetzung mit passgenauen Werkzeugen und die praktische Umsetzung in einem kompletten Zyklus eines BI-Projektes sind der Leitfaden für ein erfolgreiches Informationsqualitätsmanagement. Feedback ist ausdrücklich erwünscht! Bitte kommentieren Sie meine Einträge oder schreiben Sie mir unter detlef.apel@capgemini-sdm.com.

Über den Autor >

Detlef Apel ist Senior-Berater im Center of Competence Business Intelligence der Capgemini sd&m AG. Sein Spezialgebiet ist das Informationsqualitätsmanagement in allen Facetten, in dem er seit vielen Jahren große Unternehmen verschiedener Branchen erfolgreich bei der Konzeption, der IT-Architektur, der Optimierung, der Realisierung und der Einführung berät und unterstützt.

Als Redner auf verschiedenen Konferenzen sowie als Autor diverser Fachartikel und des Fachbuchs „Datenqualität erfolgreich steuern – Praxislösungen für Business-Intelligence-Projekte“ stellt er sein Wissen und seine langjährigen Projekterfahrungen der DWH-/BI-Gemeinschaft zur Verfügung.

Anfang Oktober veranstalte ich zusammen mit Oracle eine interessante und trotzdem kostenlose Roadshow zum Thema Datenqualitätsmanagement. Es sind aktuell noch Restplätze frei, so dass sich Interessierte gerne noch anmelden können.

Datenqualität: Sprungbrett zum Geschäftserfolg
Noch immer scheitern in der Praxis BI-Projekte an mangelnder Datenqualität. Dabei steht fest: Unternehmen, die die Qualität ihrer Daten nachhaltig verbessern, haben im Wettbewerb die Nase vorn. Damit das Thema Datenqualität auch für Sie zu einem Sprungbrett zum Geschäftserfolg wird, laden wir Sie zu unserer Roadshow ein. Wir zeigen Ihnen, wie Sie die Datenqualität bei Business-Intelligence-Vorhaben in den Griff bekommen.
Dabei gehen wir auf alle praxisrelevanten Aspekte ein und spannen den Bogen von der Organisation für Datenqualitätsmanagement über eine integrative Architektur bis hin zu Methoden und Werkzeugen wie Data Profiling, Dublettenbehandlung und Monitoring.

Termine

  • 5. Oktober 2009 in München
  • 7. Oktober 2009 in Frankfurt (Dreieich)
  • 8. Oktober 2009 in Düsseldorf

Alle Veranstaltungen finden in der jeweiligen Oracle Geschäftsstelle statt.

Agenda

  • 9.00 Uhr Registrierung
  • 9.30 Uhr Einführung Alfred Schlaucher, Oracle Deutschland
  • 10.00 Uhr Überblick zum Datenqualitätsmanagement Rüdiger Eberlein, Capgemini sd&m
  • 10.30 Uhr Data Profiling Detlef Apel, Capgemini sd&m
  • 11.00 Uhr Kaffeepause
  • 11.30 Uhr Data Profiling in der Projektpraxis Detlef Apel, Capgemini sd&m
  • 12:00 Uhr Übersicht zur Dublettenbehandlung Detlef Apel, Capgemini sd&m
  • 12:20 Uhr Datenqualität im Master Data Management Alfred Schlaucher, Oracle Deutschland
  • 12.30 Uhr Ausklang: Business Lunch

Ich würde mich freuen, den einen oder anderen dort begrüßen zu dürfen.

 

Viele Grüße
Detlef Apel

 

 

 


September 29, 2009 2:47 AM
Permalink | keine Kommentare |

Hallo,

ich bin heute total überrascht von dem tollen Erfolg meines ersten Buchs mit Praxistipps zum Datenqualitätsmanagement. Nicht nur, dass es in den ersten vier Wochen über 350!!! Abnehmer fand. Nein, auch kommen nach und nach die ersten Rezensionen zum Buch heraus, die alle sehr positiv sind.

Hoffentlich lesen noch viele andere Leute dieses Buch und viel wichtiger: beherzigen auch die Tipps! Damit die schlechte Datenqualität nicht jedes Jahr wieder das große und alles beherrschende Thema ist!

Bisherige Rezensionen zum Buch "Datenqualität erfolgreich steuern":

PS: Wer immer noch kein Exemplar hat, findet hier die Bezugsquellen.

Viele Grüße,
vielen Dank an alle Käufer
Detlef Apel


August 25, 2009 2:35 AM
Permalink | keine Kommentare |

Der Namen eines Attributs sollte dzu den darin gespeicherten Daten passen, da sprechende Namen (z. B. MITARBEITER_ID) den Inhalt besser verständlich machen lassen als kryptische Bezeichnungen (z. B. MID).
In der Attributnamen-Analyse prüft der Datenanalyst deshalb die Namen aller Attribute auf Verständlichkeit und Aussagekraft. Die Verständlichkeit bei der Nutzung wird erhöht, wenn man den Attributen einen solchen Namen gibt, der auch außerhalb des Kontextes seiner Tabelle aussagekräftig ist. So sollte man beispielsweise dem Attribut mit der Mitarbeiternummer in der Tabelle MITARBEITER den Namen MITARBEITER_ID statt ID geben. Wenn die Attributwerte in einem Prozess weiterverarbeitet werden, fehlt ansonsten der Kontextbezug zu der ursprünglichen Tabelle. Kommen dann bei der Integration weitere IDs hinzu, ist auf den ersten Blick nicht mehr zu erkennen, welche ID welche eindeutige Nummer darstellt.
Enthält ein Attributname einen Hinweis auf den Datentyp (z. B. EINKOMMEN_NR) oder die Funktion (z. B. KUNDE_ID), so sollte dieser auch richtig sein. Beispielsweise können mit ID bezeichnete, aber nicht eindeutige Attribute genauso zu einem falschen Verständnis führen wie solche mit NR und nichtnumerischem Inhalt. Ein Beispiel hierfür ist in der Abbildung das Attribut BERUFSGRUPPEN_NR, dessen Werte nur zu 72,5 Prozent numerisch sind.
Zusätzlich wird analysiert, ob die Namen eindeutig sind oder Synonyme/Homonyme existieren. Der Business-Analyst kann entweder die Attribute und deren Werte betrachten oder den Hinweisen einer Domänen-Analyse nachgehen: Findet er unterschiedlich benannte Attribute mit der gleichen Domäne, so deutet das auf Synonyme hin; entdeckt er hingegen unterschiedliche Domänen in gleichnamigen Attributen, so ist das ein Hinweis auf Homonyme. Synonyme kann er berichtigen, indem er einen eindeutigen Namen festlegt und durchgängig verwendet. Bei Homonymen hingegen muss er die Namen der betroffenen Attribute so ändern, dass sie eindeutig sind.
In der Praxis kommt es öfters vor, dass nicht mehr genutzte Attribute für neue Inhalte zweckentfremdet werden, ohne den Namen ebenfalls anzupassen. Die möglichen Gründe sind: Man hat es schlichtweg vergessen oder man hat, um den Aufwand zu reduzieren, die Abfragen auf dieses Attribut und die dieses Attribut verwendenden Prozesse nicht aktualisieren wollen. Ein Indiz hierfür ist, dass die Werte eines Attributs nicht mit den anhand des Attributnamens erwarteten Werten übereinstimmen. Ein Beispiel: In einem Attribut STATUS werden mit Hilfe der Muster- oder Domänen-Analyse Telefonnummern gefunden. Meist ist es aber sehr schwierig, diese zweckentfremdeten Attribute zu finden, da in der Regel diese Attribute gemischt alte und neue Werte enthalten. So sind in dem Beispiel mit dem Attribut STATUS passende Statusinformationen und unpassende Telefonnummern enthalten.

DatentypAnalyse_low.jpg


July 9, 2009 12:28 PM
Permalink | keine Kommentare |

Nachdem mich täglich eine Vielzahl von Anfragen erreichen, wie man das neue deutschsprachige Fachbuch "Datenqualität erfolgreich steuern - Praxislösungen für BI-Projekte" bekommen kann, will ich für alle Interessierten die verschiedenen Möglichkeiten einmal darstellen.

  1. Bestellung per Mail beim TDWI. Auf dieser Internetseite kann das Buch per Mail bestellt werden.
  2. Bestellung über amazon. Ab dem 03. Juli ist das Buch auch über amazon erhältlich. ISBN: 978-3-446-42056-4
  3. Bestellung über den TDWI-Flyer. Der neue Flyer zum TDWI-Buchprogramm enthält auf der letzten Seite ein Bestellformular für das Buch.
  4. Bestellung über Buchhandlungen. Über den Hanser-Verlag sind schon jetzt Bestellungen direkt über Buchhandlungen möglich.
  5. Bestellung über bol. BOL hat sich dankenswerterweise bereit erklärt, Bestellungen anzunehmen.

Nachdem der Vorverkauf schon super angelaufen ist, auf der TDWI-Konferenz 2009 eine Vielzahl von Exemplaren verkauft wurden, während des Booksignings mit allen Autoren auf der gleichen Konferenz viele Bücher signiert und mit einer persönlichen Widmung versehen wurden, sollte spätestens mit der Listung bei amazon das aktuelle Beschaffungsproblem gelindert werden. Damit jeder Interessent auch sein Buch erhält - jedenfalls so lange, bis die Erstauflage vergriffen ist.

Viele Grüße

Detlef Apel



June 21, 2009 1:04 PM
Permalink | keine Kommentare |

 Vom 15. bis 17.06.2009 fand wieder einmal die alljährliche TDWI-Konferenz mit BARC-Track im Neuen Forum des Deutschen Museums in München statt. Trotz der Finanzkrise wurde wieder die gleiche Zahl an Teilnehmern gezählt wie letztes Jahr - ein Wahnsinnserfolg angesichts der durchschnittlich 30 Prozent geringeren Teilnehmerzahlen anderer Konferenzen. Das zeigt, dass sich diese Konferenz als größte deutsche, unabhängige Fachmesse für Data Warehousing und Business Intelligence mit ihrem Konzept fest in den Köpfen der DWH-/BI-Experten etabliert hat. Auch die Ausstellungsstände waren wie immer schnell vergeben, es zeigten die führenden 30 Hersteller und Beratungshäuser ihre Produkte und Leistungen den interessierten Teilnehmern. Nur Informatica war dieses Jahr leider nicht mit einem Stand vertreten, ich hätte gerne etwas mehr über die Integration der neu hinzugekommenen Produkte von Adress Doctor erfahren.
Dank des etwas kühleren Wetters waren die Konferenzräume dieses Jahr nicht ganz so heiss und stickig wie letztes Jahr, nur in den kleineren, dafür aber oft voll ausgebuchten Räumen stand die Luft unter den niedrigen Decken. Das Zuhören wurde dadurch öfters zur Qual.

Mein Workshop mit dem Titel "Datenqualität erfolgreich steuern" gehörte zu den bestbesuchten der gesamten Konferenz und erhielt sehr positives Feedback, mehr als 70 Teilnehmer lauschten den Auszügen aus dem neuen, gleichnamigen TDWI-Buch (erhältlich per Mail und ab 03.07. bei amazon). Zusätzlich wurde eine kleine Übung zum Data Profiling mit dem Oracle Warehouse Builder durchgeführt, die die Vorträge etwas auflockerte. Der Showcase zur Namen- und Adressbereinigung mit Trillium Software musste leider kurzfristig ausfallen, da durch interessierte Rückfragen und Diskussionen die dafür nötige Zeit fehlte.
Eines der Topthemen dieses Jahr war wieder einmal die Datenqualität. Neben meinem Workshop gab es noch folgende Sessions: 'Präventivmaßnahmen gegen Datenqualitätsprobleme im DWH' und 'Datenqualität und Data Governance in Theorie und Praxis'. Zusätzlich gab es noch zwei von BARC modierte Werkzeugvergleiche, einer zu Datenqualität und Master Data Management, der andere zu Datenqualität und Datenintegration. Im Speed-Dating-Verfahren konnten verschiedene Hersteller die Stärken ihrer Werkzeuge präsentieren, die Zuhörer erhielten in kürzester Zeit einen Überblick über die Unterschiede der verschiedenen Werzeuge. Aber auch in den anderen Sessions war Datenqualität ein Thema, so widmete John O'Brien in seiner Session zu den Datenintegrationstechniken einen Teil seines Vortrags diesem Thema.

Während der Welcome Reception wurde das erste TDWI-Buch "Datenqualität erfolgreich steuern" aus dem neuen Buchprogramm des TDWI von Herrn Prof. Chamoni vorgestellt und empfohlen, er dankte allen zu diesem Anlass anwesenden Autoren für ihre Arbeit. Die nachfolgende Möglichkeit zum Erwerb signierter Bücher wurde überraschend gut angenommen, eine Reihe von Büchern wurden mit persönlichen Widmungen verkauft.

Die Keynotes von Wayne W. Eckerson, Frank Buytendijk und Dr. Horst Zuse waren wieder einmal interessante, perfekt ausgewählte Highlights dieser Konferenz und wurden sehr kurzweilig vorgetragen. Das große Kino mit seinen aufsteigenden Sitzreihen und Samtsitzen war dazu ein würdiger, außergewöhnlicher Rahmen.

Was bleibt ist das Warten auf die nächste Konferenz in 2010 und die Frage, wie es gelingt Data Warehousing und Business Intelligence mit der parallel stattfindenden Fussball-WM zu verknüpfen. Einen Vorschlag hätte ich schon: Public Viewing im Kinosaal.

Bild054_low.jpg


June 17, 2009 11:19 PM
Permalink | keine Kommentare |

Informatica erweitert mit der angekündigten Übernahme des Unternehmens Adressdoctor seine Datenintegrationssoftware mit deren Technologie zur Adressbereinigung und -anreicherung. Mit AddressDoctor lassen sich Adressen für mehr als 240 Länder und in 13 Sprachen validieren und korrigieren. Zusätzlich können die Adressdaten mit geografischen Informationen angereichert werden (Geocodierung). Für einige Länder ist auch eine Umzugsprüfung und ein Abgleich mit Verstorbenenlisten möglich.

AdressDoctor besitzt eine Reihe von Referenzkunden in Deutschland, z. B. 1&1 Internet AG, Aramex und Kempinski Hotels.

Mit dieser Akquisition von AddressDoctor verbessert Informatica seine Position im Markt für Datenqualitätswerkzeuge und folgt anderen Herstellern auf dem Weg zu kompletten Datenqualitätswerkzeugsuiten. Es ist zu hoffen, dass die Integration in die Informatica-Produkte möglichst schnell und möglichst vollständig erfolgt, damit die Kunden diese Technologie auch nutzen können.

In der Pressemitteilung von Informatica sagt dazu Ivan Chong, Senior Vice President mit Zuständigkeit für den Geschäftsbereich Data Quality bei Informatica: “Globale Adressprüfung ist ein entscheidendes Element der Datenqualität und AddressDoctor ist ein anerkannter Anbieter führender Technologie im Bereich globaler Adressprüfung. „Der Erwerb von AddressDoctor ermöglicht Informatica, Kunden die notwendige Leistungsfähigkeit und Flexibilität zu bieten, um die Vorteile globaler Adressprüfung im Zuge ihrer Datenqualitätsinitiativen zu erhöhen.“


June 2, 2009 11:29 PM
Permalink | keine Kommentare |
Am 15.06.2009 halte ich auf der 9. Europäischen TDWI-Konferenz in München einen halbtägigen Workshop zum Thema "Datenqualität erfolgreich steuern Praxislösungen für BI-Projekte". Hier ein paar Informationen dazu:
Die Folgen von schlechter Datenqualität sind gravierend: Bis zu 25 Prozent des operativen Gewinns werden eingebüßt. Zudem überschreiten mehr als 80 Prozent aller datenlastigen Projekte Termine und Budgets. In vielen Unternehmen schwindet deshalb die Hoffnung, dieses Problem durch die bloße Einführung von Standardsoftware für Enterprise Resource Planning (ERP), Customer Relationship Management (CRM), Supply Chain Management (SCM) u. a. oder durch standhaftes Ignorieren lösen zu können. Erfahren Sie in diesem Workshop von den Autoren des ersten TDWI-Buchs "Datenqualität erfolgreich steuern - Praxislösungen für BI-Projekte" anhand praktischer Beispiele, wie Sie ganzheitlich die Qualität Ihrer Daten erfolgreich verbessern können. Erkennen Sie die Ursachen und Auswirkungen schlechter Datenqualität und welche Investitionen sich zur Verbesserung lohnen. Lernen Sie, wie eine Data-Governance-Organisation und eine Qualitätsarchitektur helfen, dieses Ziel zu erreichen. Testen Sie in einer Übung selbst, wie Daten durch Data Profiling mit dem Oracle Warehouse Builder 11g effizient analysiert werden können. Verstehen Sie, wie man am besten Daten validiert, filtert, standardisiert und mit zusätzlichen Informationen anreichert. Lassen Sie sich live zeigen, wie Namen & Adressdaten mit der Trillium Software Data Quality effizient und erfolgreich bereinigt werden können. Erleben Sie, wie Sie die Darstellung Ihrer Informationen verbessern und wie Sie mit Kennzahlen die Datenqualität im Betrieb überwachen können, um proaktiv neue Probleme mit der Datenqualität zu vermeiden. Ein Muss für alle Projektleiter, Architekten, Analysten, Designer und Entwickler, die die Wettbewerbsfähigkeit ihrer Unternehmen mit einer besseren Daten- und Informationsqualität steigern wollen.
Es würde mich freuen, den einen oder anderen Leser auf dieser Konferenz kennenzulernen. Entweder während meines Workshops, an dem TDWI-Konferenz-Stand von Capgemini sd&m oder irgendwo zwischendurch. Viele Grüße,
viel Spaß auf dieser tollen Konferenz
Detlef Apel

May 29, 2009 1:54 AM
Permalink | keine Kommentare |

In dem News-Eintrag zur neuen Version wurden kurz die neuen, verbesserten Funktionen der aktuellen Version V12 des Trillium Software Systems beschrieben. Grund genug, diese einmal näher zu analysieren und zu bewerten.

Beginnen möchte ich mit der Centralized Business Rules Library, da diese Funktion mir in vielen Gesprächen mit den Toolherstellern wichtig war. Ab sofort ist es möglich, benutzerspezifische Geschäftsregeln in einer zentralen Bibliothek zu speichern und somit für verschiedene Benutzer zugänglich zu machen. Geschäftsregeln beschreiben fachlich die geltenden und in der Zukunft absehbaren Regeln für die Geschäftsprozesse und werden in der Regel innerhalb der Spezifikationsphase definiert. Sie leiten sich ab aus regulatorischen, externen oder unternehmensinternen Anforderungen und ändern sich typischerweise mit der Zeit. Mit diesen Geschäftsregeln werden die zulässigen Werte und Beziehungen zwischen verschiedenen Attributen definiert. Ein Beispiel für eine solche fachliche Regel ''In dem Unternehmen XY werden Freiberufler ausschließlich nach Stunden bezahlt.''

Die Regeln werden wie in dem Beispiel zunächst logisch definiert und später physikalisch an reale Attribute aus verschiedenen Datenquellen und Systemen gebunden. Für das Beispiel lautet die logische Definition : ''Wenn das Beschäftigungsverhältnis gleich FREIBERUFLER ist, so ist die Abrechnungseinheit gleich STUNDEN.'' Diese logische Definition wird nun an eine physikalische Entität gebunden und ein Mapping zwischen den logischen und den realen Attributen festgelegt. In der Abbildung sieht man, dass für das Beispiel die Regel an die Entität Mitarbeiter gebunden wurde. Das logische Attribut ''Beschäftigungsverhältnis'' wurde an das physikalische Attribut ''Anstellungsart'' gebunden, die ''Abrechnungseinheit'' an die ''Abrechneinheit''.

  binding business rule TS V12.jpg
Abbildung: Binden der logischen Attribute an reale Attribute in TSS V12>

Durch die Möglichkeit, die logisch definierten Regeln mehrfach an verschiedene Objekte zu binden, müssen nicht wie bisher gleiche fachliche Regeln für jedes Objekt redundant definiert und gepflegt werden. Sollte zum Beispiel die fachliche Regel ''In dem Unternehmen XY wird beim Geschlecht unterschieden nach Mann, Frau.'' an den Objekten KUNDE und MITARBEITER verwendet werden, mussten bisher zwei Regeln definiert werden. Eine für das Objekt KUNDE, eine für das Objekt MITARBEITER. Das reduzierte einerseits die Anzahl redundanter Regeln, zweitens erhöht sich damit der Pflegeaufwand. Muss eine Regel geändert werden (z. B. beim Geschlecht kommt die Ausprägung ''Unbekannt'' hinzu), mussten bisher alle redundanten Regeln aktualisiert werden. Mit der Version V12 reicht es hingegen aus, die zentrale Regel einmalig zu ändern. Diese Änderung kann dann an alle Objekte automatisch propagiert werden, die diese Regel verwenden.

Neben dem reduzierten Pflegeaufwand hat dieses neue Verfahren zwei weitere Vorteile. Erstens steigt dadurch die Übersichtlichkeit, da alle Geschäftsregeln zentral an einem Ort definiert sind. Zweitens erhöhen sich mittelbar die Korrektheit und die Aktualität dieser Geschäftsregeln. Der zuständige Data Steward kann in regelmäßigen Abständen diese Regeln vom Fachbereich überprüfen und aktualisieren lassen. Früher war das aufgrund der Vielzahl der redundanten Regeln, deren Verstreuung über verschiedene Systeme nur schwer möglich.

Diese Geschäftsregeln können z. B. zum Monitoring der Datenqualität genutzt werden. Im Verarbeitungsprozess wird automatisch geprüft, wie viele Datensätze die jeweilige Regel einhalten und wie viele nicht. Daraus lässt sich eine Gütekennzahl berechnen, aus den gewichteten Gütekennzahlen der einzelnen Geschäftsregelvalidierungen kann dann eine Qualitätskennzahl abgeleitet und z. B. in der Datenqualitäts-Scorecard angezeigt werden.

Fazit: Eine sehr nützliche neue Funktion dieser Version V12, deren hohen Wert die Entwickler und Benutzer hoffentlich möglichst früh erkennen und die Funktion nutzen sollten.

Quelle Bild: Abgeleitet aus Technical Bulletin TSS V12, Trillium Software, 04/2009


May 29, 2009 12:31 AM
Permalink | keine Kommentare |

Group 1 Software meldet den Abschluss der erfolgreichen Zertifizierung ihrer Customer Data Quality (CDQ) Platform™ für Siebel CRM 8 von Oracle.
Durch die Integration der CDQ-Plattform über den Data Quality Connector 5.5 kann die Vollständigkeit und Korrektheit der Daten gewährleistet werden. Dadurch wird ein wichtiger Mehrwert geschaffen, durch den automatisierten Datenabgleich, die Aktualisierung und Korrektur von Kundenstamm- und Adressdaten wird die Gefahr sinkender Benutzerakzeptanz für das CRM-System durch eine unzureichende Datenqualität reduziert. 

Mit der erfolgreiche Zertifizierung nach den strengen Richtlinien des Oracle PartnerNetworks wird die reibungslose Integration des Data Quality Connector 5.5 mit Siebel CRM bestätigt, für Kunden reduzieren sich dadurch die Risiken und die Implementierungsprozesse werden verbessert.

Quelle: Pressemitteilung und Pressemitteilung 2


May 28, 2009 12:12 AM
Permalink | keine Kommentare |

Es existieren eine Vielzahl unterschiedlicher Data-Profiling-Verfahren, die sich in drei Gruppen einteilen lassen:

  1. Attribut-Ebene: Analyse der Werte und Eigenschaften eines Attributs (z. B. einer Tabellenspalte)
  2. Datensatz-Ebene: Analyse aller Sätze einer Struktur (z. B. alle Datensätze einer Tabelle)
  3. Tabellen-Ebene: Analyse aller Beziehungen zwischen Sammlungen von Strukturen (z. B. zwischen Tabellen oder zwischen den Datensätzen einer Tabelle)

 

Data-Profiling-Arten_low.jpg

Abb.: Data-Profiling-Arten (größeres Bild)

 Für jede dieser drei Gruppen existiert eine Vielzahl unterschiedlicher Data-Profiling-Verfahren. Diese Verfahren aber nur einzelne Mosaiksteinchen vom Bild der Datenqualität – erst die richtige, projektspezifische Kombination ergibt einen vollständigen Eindruck und sichert den Erfolg.
Die vorwiegend technisch orientierten unterstützten Standard-Verfahren beschränken sich zumeist auf formale Prüfungen (z. B. auf Vollständigkeit) und beinhalten kaum inhaltliche Prüfungen (z. B. auf Korrektheit). Deshalb bleiben die Ergebnisse unvollständig, werden dafür aber von den auf dem Markt verfügbaren Werkzeugen sehr gut unterstützt.


May 7, 2009 2:20 PM
Permalink | keine Kommentare |