Definitie
Een token is de kleinste eenheid waarmee een taalmodel werkt: een stukje tekst, vaak een woorddeel of een kort woord. “Marketing” is een token, “marketingbureau” kan er twee of drie zijn. Een LLM leest, denkt en schrijft niet in letters of woorden, maar in tokens. Eén Nederlands woord is gemiddeld 1,5 tot 2 tokens.
Tokens bepalen twee dingen die direct relevant zijn voor je portemonnee en je gebruikservaring: het contextvenster (hoeveel tekst het model in één keer kan vasthouden, vaak 8K, 128K of 1M tokens) en de prijs (AI-leveranciers rekenen per duizend input- en output-tokens).
Waarom het ertoe doet voor MKB
Voor MKB-bedrijven die AI gaan inzetten in productie verschuift de discussie snel van “werkt het” naar “wat kost een query”. Een lange systeemprompt, een dik PDF als context en een uitgebreid antwoord lopen samen op tot tienduizenden tokens per gesprek. Vermenigvuldigd met duizenden gebruikersinteracties per maand kunnen kosten gemakkelijk verviervoudigen als je niet oplet.
Daarnaast is het contextvenster letterlijk een grens: zit je document buiten het venster, dan ziet het model het niet. Begrijpen hoe tokens werken voorkomt dat je een AI-feature lanceert die in de demo werkt en in productie of bij de grootste klant juist crasht of fantaseert.
Concreet voorbeeld
Een SaaS-bouwer voor advocaten bouwde een AI-assistent die jurisprudentie samenvat. Bij de pilot werkte het prima op uitspraken van 5 pagina’s. De eerste echte klantopdracht: een dossier van 180 pagina’s. Het model knipte zwijgend de eerste 80% af en gaf een samenvatting van het slot. De jurist herkende dat niet en stuurde het door naar de client.
De oplossing: stuk-voor-stuk verwerken in 8.000-token blokken (ongeveer 12 pagina’s), tussenresultaten in een database opslaan en een eindsamenvatting op de samenvattingen draaien. Tokenverbruik per dossier ging van 95.000 naar 340.000, kosten van €0,40 naar €1,20 per dossier. Een ander effect: een aparte tokenmeter in het dashboard liet klanten vooraf zien wat een opdracht kost, wat verwachtingsmanagement bij grote dossiers oploste.
Misverstanden en valkuilen
- “Eén woord is één token.” Klopt voor sommige Engelse korte woorden, maar Nederlandse samenstellingen, namen, technische termen en cijfers worden vaak in meerdere tokens opgedeeld. Reken voor een ruwe schatting in NL op 1,5 token per woord.
- “Het contextvenster is groot genoeg, dat komt wel goed.” Modellen lezen wel, maar onthouden niet alles even goed. Informatie in het midden van een lange prompt wordt vaak slechter benut dan informatie aan het begin of einde. Lang is niet hetzelfde als bruikbaar.
- “Kosten per token zijn verwaarloosbaar.” Bij honderdduizend gebruikers per maand telt 0,002 dollar per query op tot vier- of vijfcijferige bedragen. Modelkeuze en prompt-compactheid worden dan een directe businessbeslissing.
- “Output telt niet, dat is maar een zinnetje.” Output-tokens zijn meestal twee tot vier keer zo duur als input. Een model dat een uitgebreide redenering uitschrijft kost al snel meer dan de prompt zelf.
Wanneer moet je hiervan wakker liggen, wanneer niet
Wakker liggen: als je AI-features in productie zet die door veel gebruikers tegelijk worden gebruikt of die met lange documenten werken. Token-economie wordt dan een directe marge-discussie. Zonder monitoring zie je pas op de maandafrekening dat een populaire feature je marge opslokt.
Niet wakker liggen: als je AI gebruikt voor losse interne taken (e-mails opstellen, samenvattingen voor jezelf, brainstorm) op een vast abonnement. Het concept moet je begrijpen om verstandige keuzes te maken, maar elke token tellen is dan overdreven.
Gerelateerde termen
- LLM: tokens zijn de bouwstenen waarmee een LLM intern werkt.
- Embedding: tokens worden omgezet naar embeddings voor verwerking door het model.
- Prompt engineering: efficiente prompts beperken het tokenverbruik per query.
- RAG: techniek om alleen relevante stukjes binnen het tokenvenster te plaatsen.
- Generative AI: tokens zijn de eenheid waarin generatieve modellen denken en factureren.
- API: hoe applicaties tokens naar AI-modellen sturen en weer terugkrijgen.