Wat betekent Data lake?

Definitie

Een data lake is een groot opslag-systeem waar ruwe data uit allerlei bronnen wordt verzameld, in het formaat waarin het binnenkomt. Geen voorbewerking, geen schema vooraf. Pas op het moment dat je iets met die data wilt doen (rapporteren, analyseren, AI trainen), structureer en filter je het.

Vergelijking: een data warehouse is een nette bibliotheek met geclassificeerde boeken. Een data lake is een opslagloods waar elke leverancier zijn dozen neerzet, jij open ze pas als je iets zoekt. Dat lijkt rommelig, maar het maakt je flexibel: je hoeft niet vooraf te weten welke vragen je over een jaar gaat stellen.

Waarom het ertoe doet voor MKB

Voor de meeste MKB-bedrijven is een echt data lake overkill. Het is een concept dat past bij organisaties die veel verschillende databronnen hebben (sensoren, websites, klantgedrag, financiële data) en daarop willen kunnen analyseren of AI-modellen draaien.

Voor MKB die wel groeit naar serieuze data-volumes (bijvoorbeeld e-commerce met klikgedrag van miljoenen bezoekers, of een productiebedrijf met sensordata) is een data lake relevant. Voor een bedrijf met 200 klanten en wat bestellingen niet.

Concreet voorbeeld

Een Nederlandse e-commerce-speler met 3 miljoen sessies per maand verzamelt: klikgedrag op de website, zoekopdrachten, productviews, aankopen, retouren, mailcampagne-resultaten en klantenservicegesprekken. Dat is te divers en te groot om in een traditionele database te stoppen. Ze gebruiken een data lake op Microsoft Azure waarin alle ruwe events binnenkomen. Analisten kunnen daarop ad-hoc onderzoeken naar conversie, segmentatie en aanbevelingsmodellen.

Voor de meeste MKB-bedrijven: je hebt een database, dat is geen data lake. Je hebt eventueel een data warehouse voor rapportages, dat is ook geen data lake. Het verschil zit in de schaal, diversiteit en flexibiliteit.

Misverstanden en valkuilen

“Data lake is hetzelfde als data warehouse.” Nee. Een data warehouse heeft een vast schema, een data lake niet. Een data warehouse is goed voor terugkerende rapportages, een data lake voor verkennend onderzoek en ruwe data.
“Een data lake is een tool die ik kan kopen.” Niet echt. Het is een aanpak. Producten zoals Azure Data Lake, AWS S3 met Lake Formation of Databricks helpen je een data lake te bouwen, maar het succes ervan zit in de discipline en het gebruik, niet in de tool.
“Verzamel alles, dan ben je voorbereid.” Klinkt logisch, leidt vaak tot een data swamp: een data lake waar niemand meer iets vindt of begrijpt. Discipline rond catalogisering en metadata is essentieel.
“Met een data lake kan ik AI draaien.” Een data lake is een fundament, niet de oplossing. AI-modellen vragen vooral schone, relevante data. Een rommelige data lake levert geen goede modellen op.

Wanneer moet je hiervan wakker liggen, wanneer niet

Wakker liggen: als je zonder duidelijke analyse-vraag begint met “alle data verzamelen”. Begin altijd met de vraag, niet met de tool. Een data lake bouwen kost serieus geld en aandacht.

Niet wakker liggen: als je een ondernemer bent met tot pakweg 50.000 klanten en standaard rapportages. Een goede boekhoud-tool, een fatsoenlijke CRM en een BI-tool zoals Power BI of Metabase volstaan dan ruimschoots.

Gerelateerde termen

Single source of truth: een andere data-aanpak, voor andere doelen.
Cloud computing: bijna alle moderne data lakes draaien in de cloud.
API: data komt vaak via API’s binnen.

Data lake