Ist ein Data Warehouse notwendig für Ihre Datenstrategie?

Featured Image

7 Minuten Lesezeit

Wer im Bereich Data Analytics, Datenmanagement und künstliche Intelligenz mitmischen will, muss an erster Stelle dafür sorgen, dass seine Daten konsolidiert werden. Das sorgt in vielen Unternehmen für eine Herausforderung. 

Content: 

  1. Was ist ein Data Warehouse? 
  2. Wie unterscheidet sich ein Data Warehouse von einem Data Lake?
  3. Cloudbasierte Data Warehouses
  4. Herausforderungen

Was ist ein Data Warehouse? 

Zurück zum Beitragsbeginn

Ein Data Warehouse (DWH), zu dt. "Datenlager" oder auch "Datenplattform", hilft Unternehmen dabei, Daten aus unterschiedlichen Quellen zu konsolidieren, zu verwalten und je nach Bedarf zu verarbeiten. Das bezeichnet man auch als "Single Source of Truth", also eine Quelle, die alle notwendigen und aktuellen Informationen enthält. 

Neu ist das Konzept nicht, bereits Mitte der 80er Jahre gab es Entwicklungen, die beispielsweise unter dem Begriff "Information Warehouse" ähnliche Bedürfnisse gedeckt haben. 

Ein Data Warehouse hat folgende Eigenschaften:

Integriert - Daten, die aus unterschiedlichen Quellen und mit unterschiedlichen Strukturen zusammenkommen, werden in einer einheitlichen Form gespeichert. 

Chronologisch - Auch historische Daten bzw. die Datenhistorie spielt eine Rolle im Data Warehouse, um beispielsweise in Reports verschiedene Zeitabschnitte miteinander zu vergleichen. 

Beständig - Daten werden nicht temporär, sondern dauerhaft gespeichert. 

Themenorientiert - Die Daten werden nach bestimmten Datenobjekten ausgewählt, die für die Auswertung relevant sind. 

Wozu dient ein Data Warehouse?

  • Zusammenführung von Daten aus verschiedenen Quellen und verschiedener Datenarten und zwar so, dass diese zentral verfügbar und einsehbar sind. 
  • Das Data Warehouse bietet dadurch eine ideale Grundlage, um beispielsweise Daten zu analysieren oder Data Mining zu betreiben. 
  • Optimierung der Datenqualität durch eine Datenbereinigung und beispielsweise eine standardisierte Taxonomie aber auch Metadaten, um die Historie festzuhalten. 
  • Strukturierung der Daten, so dass diese für Anwender:innen informativ und lesbar sind. 
  • Performance-Steigerung für komplexe Anfragen, ohne dass operative Systeme beeinträchtigt werden. 

(Quelle: Wikipedia)


Lesen Sie, wie die Diakonie RWL mit der Hilfe eines Data Warehouse eine 360°-Sicht auf seine Mitglieder gewann und ein Verbandsmanagementsystem einführen konnte. 

Holen Sie sich den Use Case


Wie unterscheidet sich ein Data Warehouse von einem Data Lake?

Zurück zum Beitragsbeginn

Data Warehouses und Data Lakes (Datenseen) werden oft im selben Satz genannt. Doch obwohl beide für viele Verwendungen gemeinsam genutzt werden, unterscheiden sie sich massiv voneinander sowohl in den Funktionen als auch im Aufbau.  

Die einzige Gemeinsamkeit eines Data Warehouses und eines Data Lakes besteht darin, dass beide riesige Mengen an Daten lagern können. Doch wenn es um die Nutzung geht, so hängt es stark von der geplanten Nutzung ab, ob sich der Data Lake oder das Data Warehouse für ein Unternehmen eignet. 

Data Warehouse: Strukturierte Datensätze, Datennutzen bekannt, Datennutzung einfacher, weniger Daten, aber höhere Qualität / Data Lake: Rohe Datensätze, Datennutzen unbekannt, Architektur kann leicht angepasst werden, große Datenmengen

Data Lake

  • Rohe Datensätze, zur Nutzung müssen die Daten also oft noch verarbeitet werden 
  • Datennutzen ist nicht identifiziert 
  • Wird vorwiegend von Wissenschaftlern (Data Scientists) genutzt, die beispielsweise mit Methoden der künstlichen Intelligenz Informationen aus dem Data Lake "fischen" 
  • Zugriff ist relativ einfach 
  • Enthält oft sehr viel größere Datenmengen (da diese eben noch nicht verarbeitet wurden) 

Einsatz: Wissenschaft, Bildung, Transportwesen, Prognosen (Predictive Analytics), Machine Learning, Einsatz in Bereichen, in denen Daten grundsätzlich häufiger unstrukturiert gesammelt werden (z.B. im Health Care-Bereich) 

Data Warehouse

  • Verarbeitete und strukturierte Datensätze 
  • Nutzung der Daten ist bekannt 
  • Wird vorwiegend von Business Professionals genutzt 
  • Lagert oft weniger Daten, dafür aber mit einer hohen Datenqualität 
  • Einfacher nutzbar auch für Anwender:innen, die keine Expertise in der Datenauswertung haben 
  • Daten können einfacher in Dashboards, Tabellen, etc. verwendet werden 
  • Die Architektur des Data Warehouse ist spezifischer und Anpassungen sind daher komplexer 
  • Historisierung (die Historie der Daten lässt sich nachverfolgen, um etwa Zeitabschnitte zu vergleichen) 
  • Die Aufbewahrung ist häufig etwas kostenintensiver, gleichzeitig können aber Kosten gespart werden, da die Daten einfacher für den für sie bestimmten Zweck eingesetzt werden können 

Einsatz: Reports, Finanzwesen, Business-Anwendungen, Marktanalysen, Auswertung von Kund:innen-/Nutzer:innenverhalten, Integration mit anderen Systemen (CRM, Datenvisualisierung, Business Intelligence) 

Quellen: talend "Data Lake vs. Data Warehouse" / Kleyman, Bill (2018) "The Many Use-Cases of A Data Warehouse" / Sulmont, Lis (2020) "Data Lakes vs. Data Warehouses"

Cloudbasierte data warehouses

Zurück zum Beitragsbeginn

Ein großer Vorteil moderner Data Warehouse-Angebote ist das Anbieten cloudbasierter Leistungen. Durch Cloud Computing, besonders als Service-Leistung, können Infrastrukturkosten gespart, Skalierungen ermöglicht und Preisstrukturen transparenter angeboten werden. Zusätzlich ist die Leistung unabhängig vom Nutzer:innenstandort gleich, so dass insbesondere Unternehmen profitieren, die international agieren. 

Herausforderungen

Zurück zum Beitragsbeginn

Bei der Auswahl des Data Warehouse spielt immer eine Rolle, welche Datenformate aktuell genutzt werden, da nicht jedes Warehouse alle Formate verarbeiten kann. Auch eine erfolgreiche Verknüpfung mit den Systemen ist notwendig. Gerade bei älteren Systemen sollte dies geprüft werden, um zu garantieren, dass der Dateninput auch gelingt. 

Zusätzlich spielen gerade im europäischen Raum Datenschutzgrundlagen eine wichtige Rolle. Von der Datenverschlüsselung bis zur Anonymisierung gibt es diverse Faktoren, die für Unternehmen eine Rolle spielen (könnten), um ihre Daten auch nach den gegebenen Anforderungen zu speichern. 


Wir stellen Ihnen die Trends vor, die Ihre digitale Transformation begleiten und beschleunigen. Mit einem Blog-Abo erhalten Sie die neusten Beiträge bequem in Ihre Inbox. 

Jetzt Abonnieren

von Rosina Germanova

Rosina Germanova ist Senior Consultant im Bereich Business Intelligence. Sie hat über fünf Jahre Berufserfahrung und verfügt über den nötigen Werkzeugkasten, um Daten mit Leben zu befüllen und wertvolles Wissen zu erzeugen.

5 min read

Entspannt & glücklich auf Arbeit: 5 Tipps, um die Stimmung zu heben

Wenn die Tage wieder dunkler werden, geht das oft auch auf die Stimmung, da der Mangel an Sonnenlicht das Level vom...

3 min read

Experten-interview: Cyber Security-Trends & Themen für 2023 und 2024

Wir haben uns mit unserem Cyber Security-Experten Deniz Tourgout zusammengesetzt, um über aktuelle und zukünftige...

3 min read

Die Zukunft für KI: Fakten und Statistiken zur künstlichen Intelligenz

Wie gehen Unternehmen aktuell mit KI-Trends und -Entwicklungen um (Machine Learning, NLP, generative KI) und was bringt...