Definitie
Big data is een verzamelterm voor gegevens die zo groot in volume, zo snel binnenkomend of zo divers in vorm zijn dat traditionele databases en analyse-tools het niet praktisch aankunnen. De klassieke drie V’s: Volume (omvang), Velocity (snelheid) en Variety (variatie).
De term is jaren overhyped geweest. Veel “big data”-projecten betreffen in werkelijkheid gewoon “data”. Echt big data komt voor bij sensor-streams, social-media-stromen, klikgedrag van miljoenen gebruikers of wetenschappelijke datasets. Voor de meeste MKB-organisaties is dat niet de werkelijkheid.
Waarom het ertoe doet voor MKB
Voor de meeste MKB-organisaties is “big data” een marketing-term die niet van toepassing is. Een bedrijf met 50.000 klanten en 1 miljoen transacties per jaar heeft ruim genoeg aan een gewone database of datawarehouse. Pas bij honderden miljoenen records wordt het anders.
Voor jouw bedrijf is het belangrijker om kleine, schone data goed te benutten dan grote hoeveelheden data te willen verzamelen. Wie eerst de basisrapportages op orde brengt, krijgt meer waarde dan wie naar een big-data-platform springt.
Concreet voorbeeld
Een online retailer met 200.000 klanten en 3 miljoen orders per jaar werd door een leverancier voorgehouden dat ze “big data” nodig hadden om personalisatie te realiseren. Een platform van 8.000 euro per maand werd voorgesteld.
Bij navraag bleek dat de bestaande database (PostgreSQL) prima alle vragen aankon. De totale dataset paste in 80 GB. Een datawarehouse-oplossing van 200 euro per maand met goede analyse-tools gaf alle gewenste inzichten. Het label “big data” was vooral een verkoopmiddel geweest.
Misverstanden en valkuilen
- “Wij hebben big data.” Vraag om concrete getallen. Onder 100 miljoen records ben je bijna altijd nog in “gewone data” territorium.
- “Meer data is beter.” Niet automatisch. Kleine, schone data met scherpe analyse-vragen levert meestal meer op dan veel ruwe data zonder doel.
- “Big data vereist Hadoop of Spark.” Vroeger ja, tegenwoordig kunnen cloud-datawarehouses als BigQuery en Snowflake ook erg grote datasets verwerken zonder die complexe stack.
- “AI heeft big data nodig.” Sommige AI-toepassingen wel, maar veel MKB-AI (zoals classificatie van klantmails) werkt prima op een paar duizend voorbeelden.
Wanneer moet je hier wakker liggen, wanneer niet
Wakker liggen: als je echt te maken hebt met sensor-streams, hoogfrequent klikgedrag of vergelijkbare grootschalige datastromen, en je merkt dat je huidige systemen het niet aankunnen. Dan is een doordachte architectuur essentieel.
Niet wakker liggen: als een leverancier je een “big data oplossing” wil verkopen terwijl je vraag eigenlijk gewoon over rapportage gaat. Vraag concrete getallen op en vergelijk met simpelere oplossingen.
Gerelateerde termen
- Datawarehouse: voor de meeste MKB-data ruimschoots voldoende.
- Data lake: vaker geassocieerd met big data dan datawarehouses.
- Machine learning: gebruikt soms grote datasets, soms juist kleine.
- ETL: bij big data wordt vaak ELT gebruikt in plaats van ETL.