Lexicon · Data

Vector database

Definitie

Een vector database is een database die gespecialiseerd is in het opslaan en doorzoeken van vectoren: rijen getallen die de betekenis van tekst, afbeeldingen of audio wiskundig weergeven. In plaats van zoeken op exacte trefwoorden, zoekt een vector database op semantische gelijkenis. Twee documenten over “klant belt over factuur” en “debiteur stelt vraag over rekening” liggen dicht bij elkaar in de vectorruimte, ook al delen ze geen woorden.

Het verschil met een gewone database: een relationele database zoekt op exacte waarden, een vector database zoekt op betekenis. Bekende voorbeelden zijn Pinecone, Weaviate, Qdrant en Postgres met de pgvector-extensie. Vrijwel alle moderne AI-toepassingen die werken met eigen bedrijfsdata leunen op een vector database.

Waarom het ertoe doet voor MKB

Voor MKB-bedrijven die generatieve AI willen toepassen op eigen documenten (handleidingen, contracten, klantenservicegeschiedenis, productcatalogus) is een vector database de onmisbare laag onder een fatsoenlijke RAG-toepassing. Zonder vector database is een AI-chatbot beperkt tot publieke kennis en weet hij niets van jouw bedrijf.

De praktische impact: een medewerker stelt in eigen woorden een vraag, het systeem vindt de drie meest relevante interne documenten en de AI antwoordt met bronvermelding. Geen mappenstructuur doorzoeken, geen tagging-discipline nodig. Het werkt ook op slecht gestructureerde data, wat in de meeste MKB-bedrijven de norm is.

Concreet voorbeeld

Een technisch installatiebedrijf met 60 monteurs heeft 4.000 oude werkbonnen, installatierapporten en pdf-handleidingen verspreid over Dropbox en een netwerkschijf. Een monteur op locatie weet vaak niet dat een vergelijkbaar probleem twee jaar terug bij een andere klant al opgelost is.

Door alle documenten te indexeren in een vector database (eenmalige import van ongeveer €2.500, daarna €80 per maand hostingkosten) kan de monteur via een app vragen stellen als “compressor maakt tikkend geluid bij koudwaterstart, type Daikin uit 2019”. Het systeem haalt de drie meest relevante eerdere meldingen op met de gekozen oplossing. Eerste maand: gemiddeld 22 minuten tijdwinst per storingsmelding, ongeveer 30 storingsmeldingen per dag.

Misverstanden en valkuilen

  • “Een vector database vervangt onze gewone database.” Nee, hij staat ernaast. Klantgegevens, voorraad, facturen blijven in de relationele database. De vector database houdt alleen de gevectoriseerde inhoud bij, met verwijzingen terug naar de bron.
  • “We gooien gewoon alle documenten erin en klaar.” Vooraf opschonen en chunken (in stukken hakken van logische lengte) maakt het verschil tussen bruikbare en onbruikbare resultaten. Slechte input geeft slechte output, ook hier.
  • “Pinecone is altijd de juiste keuze.” Voor kleinere datasets (onder de 100.000 documenten) is pgvector op een bestaande PostgreSQL-server vaak goedkoper en simpeler. Pas bij grote schaal of zeer hoge query-frequentie loont een gespecialiseerde dienst.
  • “Eenmalig vullen en het werkt voor altijd.” Nieuwe documenten, gewijzigde handleidingen, vervallen contracten: de database moet meegroeien. Reken op een proces, niet een eenmalig project.

Wanneer moet je hiervan wakker liggen, wanneer niet

Wakker liggen: als jouw bedrijf veel kennis heeft vastgelegd in tekst (handleidingen, dossiers, e-mails, tickets, contracten) en concurrenten beginnen AI-assistenten te bouwen op die kennis. Zonder vector database blijft die kennis ontoegankelijk voor AI en stagneer je in productiviteitswinst die anderen wel pakken.

Niet wakker liggen: als jouw bedrijf nauwelijks werkt met tekstuele kennisbronnen of als de bestaande data zo gestructureerd is dat klassieke zoekoplossingen prima volstaan. Investeer dan eerst in datakwaliteit en zoekfunctionaliteit binnen de huidige systemen.

Gerelateerde termen

  • Embedding: de wiskundige representatie die in een vector database wordt opgeslagen.
  • RAG: de techniek die vector databases combineert met taalmodellen voor antwoorden op eigen data.
  • LLM: het taalmodel dat de opgehaalde documenten omzet in een antwoord.
  • Database: de bredere categorie waar de vector database een gespecialiseerde variant van is.
  • Generative AI: de toepassing waar vector databases vaak voor worden ingezet.
  • Datawarehouse: aanvullende opslag voor gestructureerde data naast de vector database.
Filed under Data
Leestijd 3 min
Gepubliceerd 26 mei 2026

Zie ook

Back-up
Back-up is een kopie van data of een systeem op een andere locatie, met als doel herstel na verlies, malware...
Big data
Big data verwijst naar datavolumes die zo groot, snel binnenkomend of divers zijn dat standaardtools ze niet praktisch kunnen verwerken....
Data governance
Data governance is het geheel van afspraken, eigenaren en definities rondom data binnen een bedrijf. Wie is verantwoordelijk voor welke...
Data lake
Een data lake is een grote opslagplaats voor ruwe data uit allerlei bronnen, in het oorspronkelijke formaat. Je verzamelt eerst,...
Data pipeline
Data pipeline is een geautomatiseerde reeks stappen die data van bron naar bestemming verplaatst, vaak met transformaties onderweg. Bijvoorbeeld: webshop-orders...
Datawarehouse
Een datawarehouse is een database speciaal ingericht voor rapportages en analyses, waarin data uit meerdere bronnen wordt samengebracht en gestructureerd....

Verder lezen

Freelancer, bureau of fractional partner: wie moet je software bouwen?
Voor MKB-projecten is er een derde optie: vergelijk freelancer, bureau en fractional partner op kosten, risico en werkwijze.
Het one-person tech team: waarom je geen team van 5 nodig hebt
Je zoekt een developer voor je nieuwe platform. Het bureau komt met een offerte: projectmanager, UX-designer, twee developers, een tester. Vijf mensen, zes maanden,...
Technische schuld: wat het je echt kost en hoe je het oplost
Je herkent het waarschijnlijk. Elke aanpassing aan je software duurt langer dan verwacht. Je IT-kosten stijgen jaar na jaar, maar je systemen voelen niet...