Onderzoek · juni 2026

1 op de 5 grote Nederlandse sites blokkeert AI, maar laat de zoekbot juist open

Name: AI-crawlerblokkades op de top 500 .nl-domeinen
Creator: Timmermans Media
Published: 2026-06-17T08:00:00.000Z

Op de 500 populairste .nl-domeinen worden de trainingsbots van AI-bedrijven duidelijk vaker geblokkeerd dan de zoekindexbots die bepalen of een site in de antwoorden van ChatGPT, Perplexity en Google verschijnt. Een meting van robots.txt, peildatum 17 juni 2026.

426

.nl-domeinen gemeten

AI-crawlers per site

20,4%

blokkeert er minstens één

AI-assistenten halen hun antwoorden niet uit één bron. De ene crawler traint het model, de andere bouwt de zoekindex waaruit live geciteerd wordt. De blokkades leunen sterk op de eerste, terwijl juist de tweede bepaalt of je in AI-antwoorden verschijnt.

De meting

De kerncijfers

Noemer: 426 leesbare robots.txt-bestanden van de top 500 .nl-domeinen.

20,4%

blokkeert minstens één AI-crawler

6,6%

blokkeert alleen een trainingsbot en laat de zoekindexbots open

13,1%

blokkeert een AI-zoekindexbot en is niet citeerbaar in AI-zoek

13,4%

blokkeert Google-Extended maar niet Googlebot

0,7%

blokkeert Googlebot, de enige route via robots.txt uit Google en AI Overviews

5,9%

heeft een llms.txt-bestand

Hoe het werkt

Drie soorten AI-crawlers, drie verschillende gevolgen

Alleen 2 van de 3 raken je vindbaarheid in AI.

Trainingsbot

Verzamelt tekst om AI-modellen te trainen.

GPTBot, ClaudeBot, CCBot

Geen effect op je AI-zichtbaarheid

Zoekindexbot

Bouwt de index waaruit een assistent live citeert.

OAI-SearchBot, PerplexityBot, Claude-SearchBot

Bepaalt of je geciteerd wordt

Live-fetch-bot

Haalt een pagina op op het moment van de vraag.

ChatGPT-User, Perplexity-User

Bepaalt of je geciteerd wordt

De kernbevinding

De trainingsbot wordt geblokkeerd, terwijl de zoekbot open blijft

De trainingsbots worden het vaakst buitengesloten. De zoekindexbots, die bepalen of je geciteerd wordt, blijven juist veel vaker open.

Vaakst geblokkeerd: trainingsbots

GPTBot

17,6%

CCBot

16,7%

ClaudeBot

14,8%

Bepalen je zichtbaarheid: zoekindexbots

OAI-SearchBot

9,2%

Claude-SearchBot

8,5%

Googlebot

0,7%

36/75

Van de 75 sites die GPTBot blokkeren, laten er minstens 36 OAI-SearchBot openstaan. Ongeveer de helft blijft dus citeerbaar in de zoekgebaseerde antwoorden van ChatGPT.

Per crawler

GPTBot wordt 25 keer vaker geblokkeerd dan Googlebot

TrainingsbotZoekindexbotLive-fetch-botVerouderdGemengd

GPTBot OpenAI

17,6%

CCBot Common Crawl

16,7%

Amazonbot Amazon

15%

ClaudeBot Anthropic

14,8%

Bytespider ByteDance

14,6%

Google-Extended Google

14,1%

anthropic-ai Anthropic

12,7%

ChatGPT-User OpenAI

12,4%

PerplexityBot Perplexity

12,4%

Applebot-Extended Apple

12,2%

Claude-Web Anthropic

12%

Meta-ExternalFetcher Meta

10,1%

Meta-ExternalAgent Meta

9,9%

Perplexity-User Perplexity

9,4%

OAI-SearchBot OpenAI

9,2%

Claude-SearchBot Anthropic

8,5%

Claude-User Anthropic

8,5%

Applebot Apple

3,8%

Googlebot Google

0,7%

De trainingsbots staan bovenaan, de zoekindexbots eronder. GPTBot (17,6%) tegenover OAI-SearchBot (9,2%) en Claude-SearchBot (8,5%): dat contrast is de kern van het onderzoek.

Het patroon

Wie één AI-crawler blokkeert, blokkeert er gemiddeld 10

Wie een AI-crawler weert, weert er meestal niet één. Brede lijsten worden in één keer overgenomen, niet per bot afgewogen.

10 of meer

51 sites

precies 1

16 sites

5 tot 9

13 sites

2 tot 4

9 sites

10,0

gemiddeld geblokkeerde AI-crawlers per blokkerende site, mediaan 11

Het duidelijkste voorbeeld zijn NU.nl en AD, beide van DPG Media, met een vrijwel identieke robots.txt tot en met hetzelfde DPG-copyrightblok. Een gedeeld sjabloon, in de praktijk.

De voorbeelden

Van NOS tot de Volkskrant: wie blokkeert wat

Trainingsbot dicht, zoekbot open

Blokkeert GPTBot, laat OAI-SearchBot open, 36 domeinen

Houden de trainingsbot buiten de deur, maar blijven citeerbaar in ChatGPT-zoek.

NOS
RTL
Naturalis
NPO Radio 1
BNR
Ticketmaster
Tripadvisor
eBay
Thomann
Vinted
ZorgkaartNederland

Niet citeerbaar in AI-zoek

Blokkeert een AI-zoekindexbot, 56 domeinen

Nieuwsmedia en omroepen zijn hier sterk vertegenwoordigd, vaak een bewuste positie rond auteursrecht.

NRC
de Volkskrant
De Telegraaf
Trouw
Het Parool
het Financieele Dagblad
De Correspondent
De Groene Amsterdammer
NU.nl
AD
Brabants Dagblad
BN DeStem
De Gelderlander
De Limburger
Leeuwarder Courant
Dagblad van het Noorden
Omrop Fryslan
Omroep West
RTV Noord
Overheid.nl
DigiD
Gemeente Amsterdam

Google-Extended dicht, Googlebot open

Blokkeert Google-Extended maar niet Googlebot, 57 domeinen

Verschijnen daardoor nog gewoon in AI Overviews, die uit de gewone zoekindex putten.

NRC
De Telegraaf
Delpher
Amazon.nl
Gemeente Amsterdam
Tripadvisor
Vinted
ZorgkaartNederland

Selectie uit de meting. De volledige lijst zit in het onderzoeksdocument.

Handmatige check

Vier nieuwsmerken onder de loep

NOS, NU.nl, AD en RTL waren in de geautomatiseerde crawl onbereikbaar en zijn los opgehaald en met de hand gecontroleerd. Ze zijn met dezelfde logica meegeteld in de cijfers en laten het patroon scherp zien: allemaal de trainingsbot dicht, allemaal Googlebot open, en onderling toch niet consequent.

Merk	GPTBot	OAI-SearchBot	PerplexityBot	Claude-SearchBot	Google-Extended	Googlebot
NOS	dicht	open	dicht	open	dicht	open
NU.nl	dicht	dicht	dicht	dicht	dicht	open
AD	dicht	dicht	dicht	dicht	dicht	open
RTL	dicht	open	dicht	open	dicht	open

NU.nl en AD, beide van DPG Media, blokkeren ook de zoekbot van ChatGPT, terwijl NOS en RTL die openlaten en dus citeerbaar blijven. NU.nl en AD hanteren bovendien een kale Claude-regel die onder prefix-matching ook de huidige Claude-SearchBot meepakt; NOS en RTL laten die open.

Verdieping

Drie dingen die verder opvallen

AI-training is het strijdtoneel, niet de zoekindex

Google-Extended blokkeren haalt je niet uit AI Overviews. Die putten uit de zoekindex van Googlebot, en die staat bijna overal open. De strijd gaat over training, terwijl de toegang die voor AI Overviews telt onaangeroerd blijft.

Google-Extended

14,1%

Googlebot

0,7%

Verouderde blocklists

De afgeschafte Anthropic-namen worden vaker geblokkeerd dan de actuele Claude-crawlers. Zo'n regel doet niets meer, terwijl de huidige Claude openstaat.

anthropic-ai

12,7%

Claude-Web

12%

Claude-SearchBot

8,5%

De nieuwe instrumenten liggen ongebruikt

De middelen die speciaal voor het sturen van AI zijn bedoeld, worden nauwelijks gebruikt. De praktijk draait vrijwel volledig op robots.txt, met alle ruwheid van dien.

5,9%

heeft een llms.txt-bestand

0,0%

gebruikt de nosnippet-richtlijn

Voor jou

Wat betekent dit voor jou

1
Ken het verschil tussen trainingsbots, zoekindexbots en live-fetch-bots. Alleen de laatste twee bepalen of je in AI-antwoorden verschijnt.
2
Controleer je robots.txt op OAI-SearchBot, PerplexityBot en Claude-SearchBot. Blokkeer je die, dan ben je niet citeerbaar in AI-zoek. Controleer of dat is wat je wilt.
3
Weet dat Google-Extended blokkeren je niet uit AI Overviews haalt. Daar kom je via robots.txt alleen uit door Googlebot te blokkeren, wat je organische verkeer kost.

Doe de gratis AI-zichtbaarheidscheck Check je robots.txt op AI-bots

Verantwoording

Download het volledige onderzoeksdocument

Alle cijfers, de per-domein-data en de complete crawlerindeling staan in het volledige onderzoeksdocument (PDF). De ruwe dataset is op aanvraag beschikbaar voor onderzoekers en journalisten.

Onderzoek als PDF downloaden

Methode en verantwoording

We onderzochten de 500 populairste .nl-domeinen volgens de Tranco-ranglijst. Per domein haalden we het openbare robots.txt op en bepaalden we per AI-crawler of de root volledig geblokkeerd is (Disallow: /), met correcte groepsselectie, prefix-matching van user-agents en de regel dat een Allow wint bij een gelijke matchlengte. Er komt geen AI-model aan te pas, de meting is deterministisch en herhaalbaar.

Van de 500 domeinen waren er in de geautomatiseerde crawl 460 bereikbaar en 40 onbereikbaar. Van die 460 hadden er 422 een leesbare robots.txt; de overige 38 sloten dat bestand af met een 403 of 401 en zijn uitgesloten in plaats van als niet-blokkerend meegeteld. Vier grote nieuwsmerken (NOS, NU.nl, AD en RTL) zaten bij de onbereikbare door de netwerkconfiguratie van de meetmachine; hun openbare robots.txt is rechtstreeks opgehaald, met exact dezelfde logica gescoord en toegevoegd, wat de noemer op 426 brengt. De llms.txt- en nosnippet-cijfers komen uit de volledige meetronde waarin ook llms.txt en de homepage zijn opgehaald.

We rapporteren wat een robots.txt declareert en wat daarvan volgens de documentatie van OpenAI, Google, Perplexity, Anthropic, Apple en Meta het gevolg is. We leiden geen bedoeling af, want waarom een site een crawler blokkeert is uit het bestand niet op te maken. Voor de toewijzing van regels aan crawlers gebruiken we prefix-matching, zoals Google dat ook doet: een generieke regel voor bijvoorbeeld Claude geldt daarmee ook voor de specifieke Claude-crawlers zoals Claude-SearchBot. Een meting toont bovendien gedeclareerd beleid, niet of een bot zich eraan houdt, en is een momentopname op een peildatum.

Auteur: Matt Timmermans, Timmermans Media. Peildatum 17 juni 2026.

Citeer dit onderzoek

Bron: Timmermans Media, AI-crawleronderzoek Nederland, juni 2026, timmermansmedia.nl, peildatum 17 juni 2026.

Welke crawlers laat jouw site toe?

Word gevonden in het AI-tijdperk

Wij zorgen dat je de juiste crawlers toelaat en structureel geciteerd wordt in ChatGPT, Claude, Gemini en Google AI Overviews.

Plan een gratis gesprek