Wer im Bereich Data Analytics, Datenmanagement und künstliche Intelligenz mitmischen will, muss an erster Stelle dafür sorgen, dass seine Daten konsolidiert werden. Das sorgt in vielen Unternehmen für eine Herausforderung.
Content:
Ein Data Warehouse (DWH), zu dt. "Datenlager" oder auch "Datenplattform", hilft Unternehmen dabei, Daten aus unterschiedlichen Quellen zu konsolidieren, zu verwalten und je nach Bedarf zu verarbeiten. Das bezeichnet man auch als "Single Source of Truth", also eine Quelle, die alle notwendigen und aktuellen Informationen enthält.
Neu ist das Konzept nicht, bereits Mitte der 80er Jahre gab es Entwicklungen, die beispielsweise unter dem Begriff "Information Warehouse" ähnliche Bedürfnisse gedeckt haben.
Integriert - Daten, die aus unterschiedlichen Quellen und mit unterschiedlichen Strukturen zusammenkommen, werden in einer einheitlichen Form gespeichert.
Chronologisch - Auch historische Daten bzw. die Datenhistorie spielt eine Rolle im Data Warehouse, um beispielsweise in Reports verschiedene Zeitabschnitte miteinander zu vergleichen.
Beständig - Daten werden nicht temporär, sondern dauerhaft gespeichert.
Themenorientiert - Die Daten werden nach bestimmten Datenobjekten ausgewählt, die für die Auswertung relevant sind.
(Quelle: Wikipedia)
Lesen Sie, wie die Diakonie RWL mit der Hilfe eines Data Warehouse eine 360°-Sicht auf seine Mitglieder gewann und ein Verbandsmanagementsystem einführen konnte.
Data Warehouses und Data Lakes (Datenseen) werden oft im selben Satz genannt. Doch obwohl beide für viele Verwendungen gemeinsam genutzt werden, unterscheiden sie sich massiv voneinander sowohl in den Funktionen als auch im Aufbau.
Die einzige Gemeinsamkeit eines Data Warehouses und eines Data Lakes besteht darin, dass beide riesige Mengen an Daten lagern können. Doch wenn es um die Nutzung geht, so hängt es stark von der geplanten Nutzung ab, ob sich der Data Lake oder das Data Warehouse für ein Unternehmen eignet.
Einsatz: Wissenschaft, Bildung, Transportwesen, Prognosen (Predictive Analytics), Machine Learning, Einsatz in Bereichen, in denen Daten grundsätzlich häufiger unstrukturiert gesammelt werden (z.B. im Health Care-Bereich)
Einsatz: Reports, Finanzwesen, Business-Anwendungen, Marktanalysen, Auswertung von Kund:innen-/Nutzer:innenverhalten, Integration mit anderen Systemen (CRM, Datenvisualisierung, Business Intelligence)
Quellen: talend "Data Lake vs. Data Warehouse" / Kleyman, Bill (2018) "The Many Use-Cases of A Data Warehouse" / Sulmont, Lis (2020) "Data Lakes vs. Data Warehouses"
Ein großer Vorteil moderner Data Warehouse-Angebote ist das Anbieten cloudbasierter Leistungen. Durch Cloud Computing, besonders als Service-Leistung, können Infrastrukturkosten gespart, Skalierungen ermöglicht und Preisstrukturen transparenter angeboten werden. Zusätzlich ist die Leistung unabhängig vom Nutzer:innenstandort gleich, so dass insbesondere Unternehmen profitieren, die international agieren.
Bei der Auswahl des Data Warehouse spielt immer eine Rolle, welche Datenformate aktuell genutzt werden, da nicht jedes Warehouse alle Formate verarbeiten kann. Auch eine erfolgreiche Verknüpfung mit den Systemen ist notwendig. Gerade bei älteren Systemen sollte dies geprüft werden, um zu garantieren, dass der Dateninput auch gelingt.
Zusätzlich spielen gerade im europäischen Raum Datenschutzgrundlagen eine wichtige Rolle. Von der Datenverschlüsselung bis zur Anonymisierung gibt es diverse Faktoren, die für Unternehmen eine Rolle spielen (könnten), um ihre Daten auch nach den gegebenen Anforderungen zu speichern.
Wir stellen Ihnen die Trends vor, die Ihre digitale Transformation begleiten und beschleunigen. Mit einem Blog-Abo erhalten Sie die neusten Beiträge bequem in Ihre Inbox.