Definitie
RAG staat voor Retrieval-Augmented Generation. Het is een techniek waarbij een AI-model (meestal een LLM) eerst relevante informatie ophaalt uit een database of documentenverzameling, en die informatie vervolgens gebruikt om een vraag te beantwoorden. Het model “leest” als het ware eerst de juiste documenten en formuleert dan een antwoord.
Het lost een fundamenteel probleem op van LLM’s: ze kennen alleen wat in hun trainingsdata zat, vaak met een afsluitdatum. Met RAG kun je een LLM laten antwoorden op basis van jouw bedrijfsdocumenten, recente data of specialistische kennis, zonder een nieuw model te trainen.
Waarom het ertoe doet voor MKB
Voor MKB is RAG de praktische manier om “AI met onze eigen kennis” te realiseren. Een interne kennisbank, productdocumentatie, juridische teksten of klantgeschiedenis kan ontsloten worden voor medewerkers via een chat-interface, zonder vertrouwelijke gegevens prijs te geven aan een algemeen AI-model.
Voor jouw bedrijf is RAG vooral interessant als veel kennis vast zit in documenten die moeilijk doorzoekbaar zijn. Wel: de kwaliteit hangt sterk af van hoe je documenten zijn voorbereid en opgesplitst. Slecht ingerichte RAG levert weinig op.
Concreet voorbeeld
Een installatiebedrijf met 80 medewerkers had jaren aan productdocumentatie, monteurshandleidingen, foutcodes en garantievoorwaarden in PDF-vorm. Bij vragen van monteurs in het veld kostte het opzoeken van het juiste antwoord vaak 15-20 minuten, soms met onjuiste resultaten.
Een RAG-systeem werd opgezet: alle documenten geïndexeerd, gekoppeld aan een LLM via een eenvoudige app. Monteurs kunnen nu vragen stellen als “wat is de procedure bij foutcode E47 op de Vaillant ecoTEC?” en krijgen een antwoord met directe verwijzingen naar de bron-paragrafen. Doorlooptijd 30 seconden. Foutmarge laag, want het systeem citeert letterlijk uit de bron.
Misverstanden en valkuilen
- “RAG lost alle AI-fouten op.” Verbetert het sterk, maar elimineert hallucinatie niet helemaal. Het model kan nog steeds verkeerde verbanden leggen tussen opgehaalde stukken.
- “Documenten erin gooien is voldoende.” Onjuist. Documenten moeten zinvol worden opgesplitst (chunking), goed geïndexeerd en getest. Slechte voorbereiding = slechte antwoorden.
- “RAG vervangt zoeken.” Aanvulling, geen vervanging. Voor sommige vragen blijft gewoon zoeken beter, vooral als de gebruiker een specifiek document zoekt.
- “Het is goedkoop.” De LLM-aanroepen kosten geld per vraag. Bij heel veel gebruikers en heel grote documentensets kunnen kosten oplopen. Maar voor MKB-schaal meestal beheersbaar.
Wanneer moet je hier wakker liggen, wanneer niet
Wakker liggen: als veel waardevolle kennis in je bedrijf in documenten zit die slecht doorzoekbaar zijn. Of als medewerkers veel tijd kwijt zijn aan informatie opzoeken bij collega’s. RAG kan daar concrete waarde leveren.
Niet wakker liggen: als je informatie al goed gestructureerd is in een werkende kennisbank met goede zoekfunctie. Of als de hoeveelheid documenten klein is en mensen het overzicht hebben. Dan is RAG overkill.
Gerelateerde termen
- LLM: de motor achter RAG.
- Embedding: de techniek waarmee RAG documenten doorzoekbaar maakt.
- Generative AI: RAG is een vorm van toegepaste generative AI.
- API: RAG-koppelingen lopen meestal via API’s.