Menu

Onderzoek · juni 2026

1 op de 5 grote Nederlandse sites blokkeert AI, maar laat de zoekbot juist open

Op de 500 populairste .nl-domeinen worden de trainingsbots van AI-bedrijven duidelijk vaker geblokkeerd dan de zoekindexbots die bepalen of een site in de antwoorden van ChatGPT, Perplexity en Google verschijnt. Een meting van robots.txt, peildatum 17 juni 2026.

443
.nl-domeinen gemeten
19
AI-crawlers per site
20,8%
blokkeert er minstens één

AI-assistenten halen hun antwoorden niet uit één bron. De ene crawler traint het model, de andere bouwt de zoekindex waaruit live geciteerd wordt. De blokkades leunen sterk op de eerste, terwijl juist de tweede bepaalt of je in AI-antwoorden verschijnt.

De meting

De kerncijfers

Noemer: 443 leesbare robots.txt-bestanden van de top 500 .nl-domeinen.

20,8%

blokkeert minstens één AI-crawler

7,9%

blokkeert alleen een trainingsbot en laat de zoekindexbots open

12,2%

blokkeert een AI-zoekindexbot en is niet citeerbaar in AI-zoek

12,4%

blokkeert Google-Extended maar niet Googlebot

0,9%

blokkeert Googlebot, de enige route via robots.txt uit Google en AI Overviews

5,9%

heeft een llms.txt-bestand

Hoe het werkt

Drie soorten AI-crawlers, drie verschillende gevolgen

Alleen 2 van de 3 raken je vindbaarheid in AI.

Trainingsbot

Verzamelt tekst om AI-modellen te trainen.

GPTBot, ClaudeBot, CCBot

Geen effect op je AI-zichtbaarheid

Zoekindexbot

Bouwt de index waaruit een assistent live citeert.

OAI-SearchBot, PerplexityBot, Claude-SearchBot

Bepaalt of je geciteerd wordt

Live-fetch-bot

Haalt een pagina op op het moment van de vraag.

ChatGPT-User, Perplexity-User

Bepaalt of je geciteerd wordt

De kernbevinding

De trainingsbot wordt geblokkeerd, terwijl de zoekbot open blijft

De trainingsbots worden het vaakst buitengesloten. De zoekindexbots, die bepalen of je geciteerd wordt, blijven juist veel vaker open.

Vaakst geblokkeerd: trainingsbots

GPTBot
17,4%
CCBot
16,5%
ClaudeBot
14,4%

Bepalen je zichtbaarheid: zoekindexbots

OAI-SearchBot
8,6%
Claude-SearchBot
8,1%
Googlebot
0,9%
39/77

Van de 77 sites die GPTBot blokkeren, laten er 39 OAI-SearchBot openstaan. Ongeveer de helft blijft dus citeerbaar in de zoekgebaseerde antwoorden van ChatGPT.

Per crawler

GPTBot wordt bijna 20 keer vaker geblokkeerd dan Googlebot

TrainingsbotZoekindexbotLive-fetch-botVerouderdGemengd
GPTBot
17,4%
CCBot
16,5%
ClaudeBot
14,4%
Amazonbot
14,4%
Bytespider
14,2%
Google-Extended
13,3%
anthropic-ai
12%
ChatGPT-User
11,5%
PerplexityBot
11,5%
Applebot-Extended
11,5%
Claude-Web
11,1%
Meta-ExternalAgent
9,7%
Perplexity-User
9%
Meta-ExternalFetcher
9%
OAI-SearchBot
8,6%
Claude-SearchBot
8,1%
Claude-User
7,9%
Applebot
3,8%
Googlebot
0,9%

De trainingsbots staan bovenaan, de zoekindexbots eronder. GPTBot (17,4%) tegenover OAI-SearchBot (8,6%) en Claude-SearchBot (8,1%): dat contrast is de kern van het onderzoek.

Het patroon

Wie één AI-crawler blokkeert, blokkeert er gemiddeld 9,4

Wie een AI-crawler weert, weert er meestal niet één. Brede lijsten worden in één keer overgenomen, niet per bot afgewogen.

10 of meer
ruim de helft
precies 1
circa 1 op de 5
5 tot 9
bijna 1 op de 5
2 tot 4
klein
9,4

gemiddeld geblokkeerde AI-crawlers per blokkerende site

Het duidelijkste voorbeeld zijn NU.nl en AD, beide van DPG Media, met een vrijwel identieke robots.txt tot en met hetzelfde DPG-copyrightblok. Een gedeeld sjabloon, in de praktijk.

De voorbeelden

Van het RIVM tot de Volkskrant: wie blokkeert wat

Trainingsbot dicht, zoekbot open

Blokkeert GPTBot, laat OAI-SearchBot open, 39 domeinen

Houden de trainingsbot buiten de deur, maar blijven citeerbaar in ChatGPT-zoek.

  • RIVM
  • Naturalis
  • Autoriteit Persoonsgegevens
  • NPO Radio 1
  • BNR
  • Ticketmaster
  • Tripadvisor
  • eBay
  • Thomann
  • Transfermarkt

Niet citeerbaar in AI-zoek

Blokkeert een AI-zoekindexbot, 54 domeinen

Nieuwsmedia en omroepen zijn hier sterk oververtegenwoordigd, vaak een bewuste positie rond auteursrecht.

  • NRC
  • de Volkskrant
  • De Telegraaf
  • Trouw
  • Het Parool
  • het Financieele Dagblad
  • De Correspondent
  • De Groene Amsterdammer
  • Brabants Dagblad
  • BN DeStem
  • De Gelderlander
  • De Limburger
  • Leeuwarder Courant
  • Dagblad van het Noorden
  • Omrop Fryslan
  • Omroep West
  • RTV Noord
  • Overheid.nl
  • DigiD
  • Gemeente Amsterdam
  • Libelle
  • Quote

Google-Extended dicht, Googlebot open

Blokkeert Google-Extended maar niet Googlebot, 55 domeinen

Verschijnen daardoor nog gewoon in AI Overviews, die uit de gewone zoekindex putten.

  • Amazon.nl
  • Gemeente Amsterdam
  • AutoScout24
  • Delpher
  • Tripadvisor
  • Vinted
  • ZorgkaartNederland

Selectie uit de meting. De volledige lijst zit in het onderzoeksdocument.

Handmatige check

Vier nieuwsmerken onder de loep

NOS, NU.nl, AD en RTL vielen buiten de geautomatiseerde set en zijn met de hand gecontroleerd. Ze tellen niet mee in de percentages, maar laten het patroon scherp zien: allemaal de trainingsbot dicht, allemaal Googlebot open, en onderling toch niet consequent.

MerkGPTBotOAI-SearchBotPerplexityBotClaude-SearchBotGoogle-ExtendedGooglebot
NOSdichtopendichtopendichtopen
NU.nldichtdichtdichtopendichtopen
ADdichtdichtdichtopendichtopen
RTLdichtopendichtopendichtopen

NU.nl en AD, beide van DPG Media, blokkeren ook de zoekbot van ChatGPT, terwijl NOS en RTL die openlaten en dus citeerbaar blijven. De huidige Claude-SearchBot blokkeert geen van de vier, terwijl ze het verouderde anthropic-ai allemaal wel weren.

Verdieping

Drie dingen die verder opvallen

AI-training is het strijdtoneel, niet de zoekindex

Google-Extended blokkeren haalt je niet uit AI Overviews. Die putten uit de zoekindex van Googlebot, en die staat bijna overal open. De strijd gaat over training, terwijl de toegang die voor AI Overviews telt onaangeroerd blijft.

Google-Extended
13,3%
Googlebot
0,9%

Verouderde blocklists

De afgeschafte Anthropic-namen worden vaker geblokkeerd dan de actuele Claude-crawlers. Zo'n regel doet niets meer, terwijl de huidige Claude openstaat.

anthropic-ai
12%
Claude-Web
11,1%
Claude-SearchBot
8,1%

De nieuwe instrumenten liggen ongebruikt

De middelen die speciaal voor het sturen van AI zijn bedoeld, worden nauwelijks gebruikt. De praktijk draait vrijwel volledig op robots.txt, met alle ruwheid van dien.

5,9%

heeft een llms.txt-bestand

0,0%

gebruikt de nosnippet-richtlijn

Voor jou

Wat betekent dit voor jou

  1. 1

    Ken het verschil tussen trainingsbots, zoekindexbots en live-fetch-bots. Alleen de laatste twee bepalen of je in AI-antwoorden verschijnt.

  2. 2

    Controleer je robots.txt op OAI-SearchBot, PerplexityBot en Claude-SearchBot. Blokkeer je die, dan ben je niet citeerbaar in AI-zoek. Controleer of dat is wat je wilt.

  3. 3

    Weet dat Google-Extended blokkeren je niet uit AI Overviews haalt. Daar kom je via robots.txt alleen uit door Googlebot te blokkeren, wat je organische verkeer kost.

Verantwoording

Volledig onderzoeksdocument volgt als PDF

Alle cijfers, de per-domein-data en de complete crawlerindeling verschijnen binnenkort als downloadbare PDF. De ruwe dataset is op aanvraag beschikbaar voor onderzoekers en journalisten.

Methode en verantwoording

We onderzochten de 500 populairste .nl-domeinen volgens de Tranco-ranglijst. Per domein haalden we het openbare robots.txt op en bepaalden we per AI-crawler of de root volledig geblokkeerd is (Disallow: /), met correcte groepsselectie, prefix-matching van user-agents en de regel dat een Allow wint bij een gelijke matchlengte. Er komt geen AI-model aan te pas, de meting is deterministisch en herhaalbaar.

Van de 500 domeinen waren er 463 bereikbaar. Van die 463 hadden er 443 een leesbare robots.txt, en dat is de noemer voor alle percentages. De overige 20 sloten hun robots.txt af met een 403 of waren onbereikbaar, en die hebben we uitgesloten in plaats van ze als niet-blokkerend mee te tellen. Een klein aantal populaire domeinen viel tijdens de geautomatiseerde meting buiten de set; die zijn waar relevant met de hand gecontroleerd, in de tekst als zodanig benoemd en buiten de percentages gehouden.

We rapporteren wat een robots.txt declareert en wat daarvan volgens de documentatie van OpenAI, Google, Perplexity, Anthropic, Apple en Meta het gevolg is. We leiden geen bedoeling af, want waarom een site een crawler blokkeert is uit het bestand niet op te maken. Een meting toont bovendien gedeclareerd beleid, niet of een bot zich eraan houdt, en is een momentopname op een peildatum.

Auteur: Matt Timmermans, Timmermans Media. Peildatum 17 juni 2026.

Citeer dit onderzoek

Bron: Timmermans Media, AI-crawleronderzoek Nederland, juni 2026, timmermansmedia.nl, peildatum 17 juni 2026.

Welke crawlers laat jouw site toe?

Word gevonden in het AI-tijdperk

Wij zorgen dat je de juiste crawlers toelaat en structureel geciteerd wordt in ChatGPT, Claude, Gemini en Google AI Overviews.