Lexicon · Data

Data pipeline

Definitie

Een data pipeline is een geautomatiseerde reeks stappen die data van bron naar bestemming verplaatst, vaak met transformaties onderweg. Denk aan een lopende band: aan de ene kant gaan ruwe gegevens erin (bijvoorbeeld webshop-orders, CRM-mutaties, sensorwaarden), aan de andere kant komen ze gestructureerd en bruikbaar uit op de plek waar ze geanalyseerd of gebruikt worden.

Het verschil met een eenmalige import: een pipeline draait continu of op vaste momenten, signaleert fouten, herstart bij storingen en houdt een logboek bij. Bekende tools zijn Apache Airflow, Fivetran, dbt en Azure Data Factory, maar veel MKB-bedrijven beginnen met een combinatie van Zapier, Make of een paar Python-scripts in de cloud.

Waarom het ertoe doet voor MKB

Voor MKB-bedrijven die met meerdere systemen werken (webshop, ERP, CRM, marketingtool, boekhouding) zorgt een data pipeline ervoor dat informatie automatisch tussen die systemen stroomt. Een verkoop in de webshop landt automatisch als order in het ERP, als klant in het CRM en als omzetregel in de boekhouding, zonder dat iemand iets hoeft te kopieren.

De winst zit op twee plekken. Tijd: handmatig data overzetten kost vaak meer uren dan eigenaren beseffen. En betrouwbaarheid: handmatige stappen leiden tot tikfouten, vergeten exports en discrepanties tussen systemen. Een goede pipeline draait stil op de achtergrond en valt alleen op wanneer er iets niet klopt.

Concreet voorbeeld

Een online retailer met 12 medewerkers verkoopt via Shopify, Bol.com en een eigen Magento-shop. Voorheen draaide een medewerker twee keer per dag een export uit elk kanaal, plakte die in Excel en uploadde de samenvatting naar het ERP. Twee uur per dag, vijf dagen per week, plus vergissingen.

Met een data pipeline (Make-scenario plus een dbt-transformatie in BigQuery, ongeveer €450 setup en €60 per maand) lopen orders van alle drie de kanalen automatisch elk uur door naar het ERP, gekoppeld aan dezelfde klantrecords. Resultaat: 10 uur per week vrijgekomen voor de medewerker en gemiddeld 0 verkeerde overschrijvingen per maand in plaats van 4 tot 6 voorheen.

Misverstanden en valkuilen

  • “Een pipeline bouw je eenmalig en daarna werkt het.” Systemen aan beide kanten veranderen, API’s krijgen nieuwe versies, datavolumes groeien. Reken op periodiek onderhoud en monitoring, anders sta je op een dinsdagochtend ineens twee dagen achter.
  • “Zapier is geen echte pipeline.” Voor lage volumes (honderden records per dag) is no-code prima geschikt. Pas bij grote volumes of complexe transformaties lonen zwaardere tools. Begin niet groter dan nodig.
  • “We hebben geen pipeline nodig, alles staat al in onze database.” Zodra je rapporteert over data uit meerdere bronnen of historische trends, ontstaat alsnog een pipeline. Beter expliciet ontworpen dan stiekem gegroeid in Excel-bestanden.
  • “Het moet realtime.” Voor de meeste MKB-toepassingen is elk uur of zelfs eens per nacht volledig genoeg. Realtime is duurder, complexer en zelden nodig. Stel de vraag: welk besluit verandert door 30 minuten oudere data.

Wanneer moet je hiervan wakker liggen, wanneer niet

Wakker liggen: als jouw bedrijf data uit meerdere systemen handmatig combineert voor rapportages of facturatie en er regelmatig discussies zijn over kloppende cijfers. Of als de groei van het bedrijf wordt afgeremd doordat medewerkers steeds meer tijd kwijt zijn aan kopieren en plakken tussen systemen. Dan kost geen pipeline meer dan een wel.

Niet wakker liggen: als jouw bedrijf draait op één centraal systeem dat alles bevat wat nodig is, of als datastromen tussen systemen klein en stabiel zijn. Eerst inrichten wat je hebt, daarna pas verbinden.

Gerelateerde termen

  • ETL: het klassieke patroon (extract, transform, load) dat veel pipelines volgen.
  • API: hoe een pipeline data uit bron-systemen ophaalt.
  • Datawarehouse: de typische bestemming van een pipeline voor analyse-doeleinden.
  • Data lake: alternatieve bestemming voor ruwere of ongestructureerde data.
  • Middleware: de bredere categorie waar pipelines onder vallen voor systeemkoppelingen.
  • Single source of truth: het doel dat pipelines vaak helpen realiseren.
Filed under Data
Leestijd 3 min
Gepubliceerd 26 mei 2026

Zie ook

Back-up
Back-up is een kopie van data of een systeem op een andere locatie, met als doel herstel na verlies, malware...
Big data
Big data verwijst naar datavolumes die zo groot, snel binnenkomend of divers zijn dat standaardtools ze niet praktisch kunnen verwerken....
Data governance
Data governance is het geheel van afspraken, eigenaren en definities rondom data binnen een bedrijf. Wie is verantwoordelijk voor welke...
Data lake
Een data lake is een grote opslagplaats voor ruwe data uit allerlei bronnen, in het oorspronkelijke formaat. Je verzamelt eerst,...
Datawarehouse
Een datawarehouse is een database speciaal ingericht voor rapportages en analyses, waarin data uit meerdere bronnen wordt samengebracht en gestructureerd....
ETL
ETL staat voor Extract, Transform, Load: data uit verschillende bronnen ophalen, omzetten naar een bruikbaar formaat en opslaan in een...

Verder lezen

Freelancer, bureau of fractional partner: wie moet je software bouwen?
Voor MKB-projecten is er een derde optie: vergelijk freelancer, bureau en fractional partner op kosten, risico en werkwijze.
Het one-person tech team: waarom je geen team van 5 nodig hebt
Je zoekt een developer voor je nieuwe platform. Het bureau komt met een offerte: projectmanager, UX-designer, twee developers, een tester. Vijf mensen, zes maanden,...
Technische schuld: wat het je echt kost en hoe je het oplost
Je herkent het waarschijnlijk. Elke aanpassing aan je software duurt langer dan verwacht. Je IT-kosten stijgen jaar na jaar, maar je systemen voelen niet...