Es scheint fast, als ob der Begriff Big Data momentan für ungefähr alles herhalten muss, was die IT Industrie zu vermarkten hätte. Von Speichersystemen über Cloud-Angeboten bis hin zu allen Arten von Datenbanken und verschiedensten Analyse- und Auswertungssystemen.
Leider wird dabei häufig vergessen klarzumachen, was eigentlich das neue an „Big Data“ sein soll. Denn insbesondere große Datenmengen hatten wir zumindest im Data Warehousing schon immer. Größe ist dabei relativ – das Data Warehouse von Wal Mart war 1992 mit 1 Terabyte unglaublich groß und damit vielleicht BIG Data im Sinne von großen Datenmengen, genauso wie heute die 6 Petabyte, die Ebay für die Analyse verschiedenster Aspekte seines Geschäftes vorhält. Viele Daten ist also sicher nicht irgendetwas neues und damit alleine „Big Data“.
Für mich ist der entscheidende neue Aspekt die Erfassung, Speicherung und Analyse polystrukturierter Daten. Daten fallen in Unternehmen in strukturierter (z.B. Kennzahlen), semi-strukturierter (z.B. XML-Dateien) und unstrukturierter (z.B. Dokumente, Kommentare) Form an. Sie alle einzubeziehen für die Analyse des Geschehens im Unternehmen und seinem Umfeld sowie zum Forecasting relevanter Paramter des Geschäftes – das ist das neue. Möglichkeiten zu schaffen, Daten in unterschiedlichen, auch vorab nicht bekannten Strukturen für die Analyse nutzbar zu machen – dies ist Polystruktur, was neben den Herausforderungen im Bereich der Skalierbarkeit den Kern von Big Data ausmacht.
Was ist Ihre Meinung? Ich freue mich auf Ihre Kommentare!