Wat betekent Vector database?

Definitie

Een vector database is een database die gespecialiseerd is in het opslaan en doorzoeken van vectoren: rijen getallen die de betekenis van tekst, afbeeldingen of audio wiskundig weergeven. In plaats van zoeken op exacte trefwoorden, zoekt een vector database op semantische gelijkenis. Twee documenten over “klant belt over factuur” en “debiteur stelt vraag over rekening” liggen dicht bij elkaar in de vectorruimte, ook al delen ze geen woorden.

Het verschil met een gewone database: een relationele database zoekt op exacte waarden, een vector database zoekt op betekenis. Bekende voorbeelden zijn Pinecone, Weaviate, Qdrant en Postgres met de pgvector-extensie. Vrijwel alle moderne AI-toepassingen die werken met eigen bedrijfsdata leunen op een vector database.

Waarom het ertoe doet voor MKB

Voor MKB-bedrijven die generatieve AI willen toepassen op eigen documenten (handleidingen, contracten, klantenservicegeschiedenis, productcatalogus) is een vector database de onmisbare laag onder een fatsoenlijke RAG-toepassing. Zonder vector database is een AI-chatbot beperkt tot publieke kennis en weet hij niets van jouw bedrijf.

De praktische impact: een medewerker stelt in eigen woorden een vraag, het systeem vindt de drie meest relevante interne documenten en de AI antwoordt met bronvermelding. Geen mappenstructuur doorzoeken, geen tagging-discipline nodig. Het werkt ook op slecht gestructureerde data, wat in de meeste MKB-bedrijven de norm is.

Concreet voorbeeld

Een technisch installatiebedrijf met 60 monteurs heeft 4.000 oude werkbonnen, installatierapporten en pdf-handleidingen verspreid over Dropbox en een netwerkschijf. Een monteur op locatie weet vaak niet dat een vergelijkbaar probleem twee jaar terug bij een andere klant al opgelost is.

Door alle documenten te indexeren in een vector database (eenmalige import van ongeveer €2.500, daarna €80 per maand hostingkosten) kan de monteur via een app vragen stellen als “compressor maakt tikkend geluid bij koudwaterstart, type Daikin uit 2019”. Het systeem haalt de drie meest relevante eerdere meldingen op met de gekozen oplossing. Eerste maand: gemiddeld 22 minuten tijdwinst per storingsmelding, ongeveer 30 storingsmeldingen per dag.

Misverstanden en valkuilen

“Een vector database vervangt onze gewone database.” Nee, hij staat ernaast. Klantgegevens, voorraad, facturen blijven in de relationele database. De vector database houdt alleen de gevectoriseerde inhoud bij, met verwijzingen terug naar de bron.
“We gooien gewoon alle documenten erin en klaar.” Vooraf opschonen en chunken (in stukken hakken van logische lengte) maakt het verschil tussen bruikbare en onbruikbare resultaten. Slechte input geeft slechte output, ook hier.
“Pinecone is altijd de juiste keuze.” Voor kleinere datasets (onder de 100.000 documenten) is pgvector op een bestaande PostgreSQL-server vaak goedkoper en simpeler. Pas bij grote schaal of zeer hoge query-frequentie loont een gespecialiseerde dienst.
“Eenmalig vullen en het werkt voor altijd.” Nieuwe documenten, gewijzigde handleidingen, vervallen contracten: de database moet meegroeien. Reken op een proces, niet een eenmalig project.

Wanneer moet je hiervan wakker liggen, wanneer niet

Wakker liggen: als jouw bedrijf veel kennis heeft vastgelegd in tekst (handleidingen, dossiers, e-mails, tickets, contracten) en concurrenten beginnen AI-assistenten te bouwen op die kennis. Zonder vector database blijft die kennis ontoegankelijk voor AI en stagneer je in productiviteitswinst die anderen wel pakken.

Niet wakker liggen: als jouw bedrijf nauwelijks werkt met tekstuele kennisbronnen of als de bestaande data zo gestructureerd is dat klassieke zoekoplossingen prima volstaan. Investeer dan eerst in datakwaliteit en zoekfunctionaliteit binnen de huidige systemen.

Gerelateerde termen

Embedding: de wiskundige representatie die in een vector database wordt opgeslagen.
RAG: de techniek die vector databases combineert met taalmodellen voor antwoorden op eigen data.
LLM: het taalmodel dat de opgehaalde documenten omzet in een antwoord.
Database: de bredere categorie waar de vector database een gespecialiseerde variant van is.
Generative AI: de toepassing waar vector databases vaak voor worden ingezet.
Datawarehouse: aanvullende opslag voor gestructureerde data naast de vector database.

Vector database