Een Data Lake of een Data Warehouse?

De termen ‘Data Lake’ en ‘Data Warehouse’ kunnen wat verwarrend zijn. Wat is het nou precies het verschil?

Data Warehouse

De waarde van data zit in het combineren en verwerken ervan tot informatie. Data uit verschillende bronnen wordt daarvoor bijeen gebracht. De bronnen zullen van elkaar verschillen, denk aan financiële gegevens, klantgegevens, voorraad, etc. De variëteit in datatypen uit deze bronnen maakt het lastig om er zinvolle informatie van te maken. Dit is dan ook het voornaamste doel van een Data Warehouse.

Data wordt opgehaald (Extract), getransformeerd (Transform) en opgeslagen (Load) in het Data Warehouse, vandaar het ETL proces. Een Data Warehouse lijkt op het eerste gezicht op een gewone relationele database met bedrijfsinformatie, maar schijn bedriegt. Een Data Warehouse heeft een zogenaamde Layered Scalable Architecture (LSA), verschillende stadia of lagen waarin de data bewerkt wordt tot gebruiksvriendelijke informatie.

De Staging laag

De data wordt met ETL processen vanuit de bronnen naar het Data Warehouse verplaatst, in de originele staat en met de volledige historie.

De Core laag

De data wordt vervolgens geaggregeerd, genormaliseerd, ontdubbeld en opgeschoond. In de Core laag wordt zo de datakwaliteit in orde gemaakt en wordt de data gebruiksklaar gemaakt. Alle transformaties en bewerkingen die worden uitgevoerd komen uit het Data Model. Het Data Model bevat de specificaties van alle entiteiten die in het Data Warehouse worden opgeslagen. Het model definieert de entiteiten, hun onderlinge relaties en de database structuur, van de tabellen en cellen tot de partities en indexering.

De Data Mart laag

Tot slot wordt de schone, bewerkte data zo gestructureerd dat ze voor de verschillende gebruikersgroepen makkelijk toegankelijk is. Vaak wordt de data hier gedenormaliseerd om de hoeveelheid disktoegang (I/O) te beperken. De Data Marts kunnen data aanbieden uit elk van de voorgaande lagen.

De Service laag

De Service laag orkestreert de voorgaande lagen. Het bevat zelf geen data, maar regelt de metadata, kwaliteitscontroles, data governance, security en load management. Met diagnostisch tools en regelmogelijkheden manage je vanuit deze laag het Warehouse.

Het Data Warehouse is ideaal voor gebruikers van verschillende afdelingen in een organisatie door de gestructureerde en toegankelijke gegevens die ze direct kunnen gebruiken in rapportage- en analyse tools. De andere kant van de medaille is dat het opslaan en managen van data in een Data Warehouse kostbaar en tijdrovend is.

Data Lake

Een Data Warehouses kan ook met ongestructureerde data overweg, maar niet van harte. Wanneer het om véél data gaat is opslag in een database of Data Warehouse duur. Bovendien moet de data bewerkt worden zodat het in de structuur van het data model gegoten kan worden.

Om de kosten, bewerkingen en het data model zelf te omzeilen is er het Data Lake, waarin gestructureerde en ongestructureerde data op grote schaal bijeen wordt gebracht. Er is dus geen model of structuur aanwezig in het Lake, wat betekent dat de gebruiker de data zelf moet verwerken tot informatie.

Dit verwerken van data door gebruikers heeft echter geen effect op de oorspronkelijke data in het Data Lake. De data blijft daar in tact. Dit maakt het Data Lake flexibeler dan een data Warehouse. De data kan keer op keer voor allerlei toepassingen aangeroepen worden. De kans dat gebruikers het wiel telkens opnieuw uitvinden ligt daardoor op de loer.

De verschillen op een rij

  Data Lake Data Warehous
Doel Bevat met name ruwe, ongestructureerde data, perfect voor Data Scientists. Gebruiksklare informatie voor eindgebruikers.
Processen ELT - Extract, Load, Transform. Bewerking door de gebruiker, indien nodig. ETL - Data wordt bewerkt, opgeschoond en gestructureerd opgeslagen, klaar voor gebruik(ers).
Begrip Amper kennis van de data, alles stroomt naar binnen, want je weet niet waarvoor de data gebruikt gaat worden. Er is diep begrip van de data nodig om het data model te kunnen maken.
Ontwerp Vooral aandacht voor het ETL proces vanwege de variëteit in bronnen en gebruikers. De data wordt op hoog (3) niveau genormaliseerd waar dan ook de meeste aandacht naar uit gaat.
Prijs Goedkope servers met Apache Hadoop voldoen. Ontwerp en onderhoudskosten zijn hoog. Plus de kosten voor het platform zoals SAP of Oracle.

Over de auteur

admin

Gerard van der Molen

Gerard is een strateeg en een business architect, gericht op innovatie en ontwikkeling. Met zijn brede kennis en nieuwsgierigheid, zet hij veranderingen in gang door situaties helder te schetsen en de juiste vragen te stellen. 

Blijf op de hoogte

Verder lezen