Onderzoek · juni 2026
1 op de 5 grote Nederlandse sites blokkeert AI, maar laat de zoekbot juist open
Op de 500 populairste .nl-domeinen worden de trainingsbots van AI-bedrijven duidelijk vaker geblokkeerd dan de zoekindexbots die bepalen of een site in de antwoorden van ChatGPT, Perplexity en Google verschijnt. Een meting van robots.txt, peildatum 17 juni 2026.
AI-assistenten halen hun antwoorden niet uit één bron. De ene crawler traint het model, de andere bouwt de zoekindex waaruit live geciteerd wordt. De blokkades leunen sterk op de eerste, terwijl juist de tweede bepaalt of je in AI-antwoorden verschijnt.
De meting
De kerncijfers
Noemer: 443 leesbare robots.txt-bestanden van de top 500 .nl-domeinen.
blokkeert minstens één AI-crawler
blokkeert alleen een trainingsbot en laat de zoekindexbots open
blokkeert een AI-zoekindexbot en is niet citeerbaar in AI-zoek
blokkeert Google-Extended maar niet Googlebot
blokkeert Googlebot, de enige route via robots.txt uit Google en AI Overviews
heeft een llms.txt-bestand
Hoe het werkt
Drie soorten AI-crawlers, drie verschillende gevolgen
Alleen 2 van de 3 raken je vindbaarheid in AI.
Trainingsbot
Verzamelt tekst om AI-modellen te trainen.
GPTBot, ClaudeBot, CCBot
Geen effect op je AI-zichtbaarheidZoekindexbot
Bouwt de index waaruit een assistent live citeert.
OAI-SearchBot, PerplexityBot, Claude-SearchBot
Bepaalt of je geciteerd wordtLive-fetch-bot
Haalt een pagina op op het moment van de vraag.
ChatGPT-User, Perplexity-User
Bepaalt of je geciteerd wordtDe kernbevinding
De trainingsbot wordt geblokkeerd, terwijl de zoekbot open blijft
De trainingsbots worden het vaakst buitengesloten. De zoekindexbots, die bepalen of je geciteerd wordt, blijven juist veel vaker open.
Vaakst geblokkeerd: trainingsbots
Bepalen je zichtbaarheid: zoekindexbots
Van de 77 sites die GPTBot blokkeren, laten er 39 OAI-SearchBot openstaan. Ongeveer de helft blijft dus citeerbaar in de zoekgebaseerde antwoorden van ChatGPT.
Per crawler
GPTBot wordt bijna 20 keer vaker geblokkeerd dan Googlebot
De trainingsbots staan bovenaan, de zoekindexbots eronder. GPTBot (17,4%) tegenover OAI-SearchBot (8,6%) en Claude-SearchBot (8,1%): dat contrast is de kern van het onderzoek.
Het patroon
Wie één AI-crawler blokkeert, blokkeert er gemiddeld 9,4
Wie een AI-crawler weert, weert er meestal niet één. Brede lijsten worden in één keer overgenomen, niet per bot afgewogen.
gemiddeld geblokkeerde AI-crawlers per blokkerende site
Het duidelijkste voorbeeld zijn NU.nl en AD, beide van DPG Media, met een vrijwel identieke robots.txt tot en met hetzelfde DPG-copyrightblok. Een gedeeld sjabloon, in de praktijk.
De voorbeelden
Van het RIVM tot de Volkskrant: wie blokkeert wat
Trainingsbot dicht, zoekbot open
Blokkeert GPTBot, laat OAI-SearchBot open, 39 domeinen
Houden de trainingsbot buiten de deur, maar blijven citeerbaar in ChatGPT-zoek.
- RIVM
- Naturalis
- Autoriteit Persoonsgegevens
- NPO Radio 1
- BNR
- Ticketmaster
- Tripadvisor
- eBay
- Thomann
- Transfermarkt
Niet citeerbaar in AI-zoek
Blokkeert een AI-zoekindexbot, 54 domeinen
Nieuwsmedia en omroepen zijn hier sterk oververtegenwoordigd, vaak een bewuste positie rond auteursrecht.
- NRC
- de Volkskrant
- De Telegraaf
- Trouw
- Het Parool
- het Financieele Dagblad
- De Correspondent
- De Groene Amsterdammer
- Brabants Dagblad
- BN DeStem
- De Gelderlander
- De Limburger
- Leeuwarder Courant
- Dagblad van het Noorden
- Omrop Fryslan
- Omroep West
- RTV Noord
- Overheid.nl
- DigiD
- Gemeente Amsterdam
- Libelle
- Quote
Google-Extended dicht, Googlebot open
Blokkeert Google-Extended maar niet Googlebot, 55 domeinen
Verschijnen daardoor nog gewoon in AI Overviews, die uit de gewone zoekindex putten.
- Amazon.nl
- Gemeente Amsterdam
- AutoScout24
- Delpher
- Tripadvisor
- Vinted
- ZorgkaartNederland
Selectie uit de meting. De volledige lijst zit in het onderzoeksdocument.
Handmatige check
Vier nieuwsmerken onder de loep
NOS, NU.nl, AD en RTL vielen buiten de geautomatiseerde set en zijn met de hand gecontroleerd. Ze tellen niet mee in de percentages, maar laten het patroon scherp zien: allemaal de trainingsbot dicht, allemaal Googlebot open, en onderling toch niet consequent.
| Merk | GPTBot | OAI-SearchBot | PerplexityBot | Claude-SearchBot | Google-Extended | Googlebot |
|---|---|---|---|---|---|---|
| NOS | dicht | open | dicht | open | dicht | open |
| NU.nl | dicht | dicht | dicht | open | dicht | open |
| AD | dicht | dicht | dicht | open | dicht | open |
| RTL | dicht | open | dicht | open | dicht | open |
NU.nl en AD, beide van DPG Media, blokkeren ook de zoekbot van ChatGPT, terwijl NOS en RTL die openlaten en dus citeerbaar blijven. De huidige Claude-SearchBot blokkeert geen van de vier, terwijl ze het verouderde anthropic-ai allemaal wel weren.
Verdieping
Drie dingen die verder opvallen
AI-training is het strijdtoneel, niet de zoekindex
Google-Extended blokkeren haalt je niet uit AI Overviews. Die putten uit de zoekindex van Googlebot, en die staat bijna overal open. De strijd gaat over training, terwijl de toegang die voor AI Overviews telt onaangeroerd blijft.
Verouderde blocklists
De afgeschafte Anthropic-namen worden vaker geblokkeerd dan de actuele Claude-crawlers. Zo'n regel doet niets meer, terwijl de huidige Claude openstaat.
De nieuwe instrumenten liggen ongebruikt
De middelen die speciaal voor het sturen van AI zijn bedoeld, worden nauwelijks gebruikt. De praktijk draait vrijwel volledig op robots.txt, met alle ruwheid van dien.
heeft een llms.txt-bestand
gebruikt de nosnippet-richtlijn
Voor jou
Wat betekent dit voor jou
- 1
Ken het verschil tussen trainingsbots, zoekindexbots en live-fetch-bots. Alleen de laatste twee bepalen of je in AI-antwoorden verschijnt.
- 2
Controleer je robots.txt op OAI-SearchBot, PerplexityBot en Claude-SearchBot. Blokkeer je die, dan ben je niet citeerbaar in AI-zoek. Controleer of dat is wat je wilt.
- 3
Weet dat Google-Extended blokkeren je niet uit AI Overviews haalt. Daar kom je via robots.txt alleen uit door Googlebot te blokkeren, wat je organische verkeer kost.
Verantwoording
Volledig onderzoeksdocument volgt als PDF
Alle cijfers, de per-domein-data en de complete crawlerindeling verschijnen binnenkort als downloadbare PDF. De ruwe dataset is op aanvraag beschikbaar voor onderzoekers en journalisten.
Methode en verantwoording
We onderzochten de 500 populairste .nl-domeinen volgens de Tranco-ranglijst. Per domein haalden we het openbare robots.txt op en bepaalden we per AI-crawler of de root volledig geblokkeerd is (Disallow: /), met correcte groepsselectie, prefix-matching van user-agents en de regel dat een Allow wint bij een gelijke matchlengte. Er komt geen AI-model aan te pas, de meting is deterministisch en herhaalbaar.
Van de 500 domeinen waren er 463 bereikbaar. Van die 463 hadden er 443 een leesbare robots.txt, en dat is de noemer voor alle percentages. De overige 20 sloten hun robots.txt af met een 403 of waren onbereikbaar, en die hebben we uitgesloten in plaats van ze als niet-blokkerend mee te tellen. Een klein aantal populaire domeinen viel tijdens de geautomatiseerde meting buiten de set; die zijn waar relevant met de hand gecontroleerd, in de tekst als zodanig benoemd en buiten de percentages gehouden.
We rapporteren wat een robots.txt declareert en wat daarvan volgens de documentatie van OpenAI, Google, Perplexity, Anthropic, Apple en Meta het gevolg is. We leiden geen bedoeling af, want waarom een site een crawler blokkeert is uit het bestand niet op te maken. Een meting toont bovendien gedeclareerd beleid, niet of een bot zich eraan houdt, en is een momentopname op een peildatum.
Auteur: Matt Timmermans, Timmermans Media. Peildatum 17 juni 2026.
Citeer dit onderzoek
Bron: Timmermans Media, AI-crawleronderzoek Nederland, juni 2026, timmermansmedia.nl, peildatum 17 juni 2026.

Welke crawlers laat jouw site toe?
Word gevonden in het AI-tijdperk
Wij zorgen dat je de juiste crawlers toelaat en structureel geciteerd wordt in ChatGPT, Claude, Gemini en Google AI Overviews.