Wat is robots.txt en hoe stel je het in voor SEO?

Als je een website hebt, wil je doorgaans dat al je webpagina’s goed worden weergeven in de zoekresultaten van bijvoorbeeld Google. Sommige pagina’s zijn echter irrelevant om opgenomen te worden in de zoekresultaten, denk bijvoorbeeld aan bedankpagina’s na een bestelling of de achterkant van je website waaruit je alles beheert. Wat je dan kan doen is het instellen van een robots.txt. In een robots.txt bestand geef je richtlijnen over welke delen van je website relevant zijn om gescand te worden door Google en andere zoekmachines. Op een goede manier je robots.txt inrichten draagt dan ook een steentje bij aan het verbeteren van SEO. In dit artikel lees je verder wat robots.txt precies is, hoe je deze moet instellen en wat de beperkingen ervan zijn.

Wat is robots.txt?

Robots.txt refereert naar een tekstbestand met richtlijnen over welke delen van jouw website bezocht mogen worden door website crawlers. Robots.txt maakt deel uit van het Robot Exclusion Protocol (REP): Een verzameling van standaarden over de manier waarop websites communiceren met web crawlers. Zoekmachines maken namelijk gebruik van zogeheten web crawlers of bots die alle websites afstruinen en opslaan in een database. Bij gebrek aan een robots.txt bestand (en andere richtlijnen), gaan de crawlers ervan uit dat ze de hele website mogen scannen. Het is niet altijd wenselijk  om je gehele website gecrawld te hebben.

Let op: het robots.txt bestand betreft richtlijnen. De crawlers van grote partijen respecteren het robots.txt bestand, maar kwaadwillende partijen kunnen het omzeilen. Het robots.txt bestand is dus niet geschikt om toegang tot vertrouwelijke informatie te ontzeggen.

wordpress robots.txt

Voorbeeld van een robots.txt

Waarom robots.txt instellen?

Een robots.txt bestand instellen is vrij eenvoudig en levert meerdere voordelen op voor je website. Ten eerste kan het instellen van een robots.txt bestand ervoor zorgen dat je servers minder belast worden door verzoeken van crawlers. Vooral voor grote websites kan dit een groot verschil maken. Daarnaast helpt een robots.txt met het besparen van je crawl budget, wat vervolgens je SEO ten goede komt. In de volgende alinea’s lichten wij deze drie argumenten verder toe.

Reden 1: Serverruimte

Het scannen van de web crawlers belast de servers van zowel de zoekmachine als de website die gescand wordt. Door het instellen van een robots.txt bestand zorg je er enerzijds voor dat je eigen website server niet overladen wordt door verzoeken van bots en anderzijds dat de crawlers geen tijd en serverruimte verspillen door onnodige delen van de website scannen. Kort gezegd helpt een robots.txt bestand ervoor dat crawlers op efficiënte wijze nieuwe content op je website scannen en hierdoor optimaal weergeven wordt in zoekresultaten van bijvoorbeeld Google.

Reden 2: Crawl budget

Crawlers krijgen een zogenaamde crawl budget toegewezen: een limiet van hoe vaak crawlers langskomen en hoeveel pagina´s van een website ze scannen. Het crawl budget kan iedere dag licht variëren en is op te zoeken in Google Search Console. Voordat een crawler een website scant, kijkt het allereerst naar of er een robots.txt bestand is ingesteld. Wanneer deze niet ingesteld is, scannen de robots de gehele website. Dus ook pagina’s die niet relevant zijn voor de meeste bezoekers, dus bijvoorbeeld de bedankpagina’s na een bestelling of de admin-pagina. Hartstikke zonde van het crawl budget dus.

Reden 3: Robots.txt en SEO

Het crawl budget is geen factor die direct invloed heeft op je rankings, maar toch kan het instellen van een robots.txt helpen voor je SEO. Wanneer je crawlers instrueert om bepaalde pagina’s niet te scannen, blijft er meer crawl budget over waardoor de rest van je website vaker wordt gecrawld. Met een robots.txt-bestand kan je de crawlers bovendien leiden naar je sitemap, een document met links naar alle pagina’s van je website. Dit geldt voor alle soorten webpagina’s, dus ook blogartikelen, nieuwsberichten, referenties, etc. Door crawlers de juiste weg te wijzen en irrelevante pagina’s uit te sluiten, kunnen nieuwe pagina’s sneller geïndexeerd worden en is je daardoor content net wat beter vindbaar.

Noindex, nofollow of robots.txt?

Om ervoor te zorgen dat een pagina niet geïndexeerd wordt, kan je noindex en nofollow metatags gebruiken. Het kan verwarrend zijn om het verschil tussen deze drie middelen te achterhalen. De noindex of nofollow meta tags zijn anders dan een robots.txt en zet je in wanneer je zeker wilt dat de pagina niet geïndexeerd wordt. Echter kunnen deze pagina’s nog wel gecrawld worden. Het robots.txt bestand biedt dus een oplossing voor het besparen van je crawl budget. De noindex of nofollow meta tags bieden oplossingen voor indexatieproblemen.

robots.txt instellen

Hoe werkt robots.txt?

Voordat een crawler of bot een website scant, kijkt het eerst of er een robots.txt-bestand is ingesteld. Het robots.txt-bestand bestaat uit een aantal regels met instructies voor crawlers. Deze instructies zijn richtlijnen om te laten weten welke delen van de website ze het beste kunnen crawlen en zijn dus geen technisch middel dat toegang tot deze pagina’s daadwerkelijk verbiedt. Naast de instructie(s) zelf, is het ook mogelijk om voor iedere crawler een andere instructie mee te geven. Ook is het mogelijk om de plek van je XML sitemap aan te geven. Dat is geen vereiste, maar heeft als voordeel dat elke zoekmachine je sitemap dan direct kunnen vinden.

Hoe ziet een robots.txt bestand uit?

In essentie zien robots.txt-bestanden eruit als volgt:

User-agent: [naam van user-agent]

Disallow: [URL querystring die niet gecrawld moeten worden]

Samen vormen deze twee regels de basis van elke robots.txt-bestand. Let op dat de URL voor het robots.txt bestand hoofdlettergevoelig is en dat je robots in meervoud schrijft (dus niet robot.txt). Je kunt het robots.txt bestand veel uitgebreider maken door meer instructies toe te voegen aan specifieke User Agents. Gebruik telkens een nieuwe regel voor iedere instructie.

Tip: bekijk voorbeelden van hoe robots.txt eruit ziet

Een handige tip is om de robots.txt bestanden van andere websites te bekijken voor voorbeelden. Het is zeer eenvoudig te achterhalen hoe een robots.txt bestand van iedere website er uitziet, mits deze ingesteld is. Het robots.txt bestand is namelijk voor iedereen toegankelijk door “/robots.txt” achter de domeinnaam van een website te plakken. Het robots.txt-bestand van 2Bfound vind je bijvoorbeeld door “/robots.txt” achter 2bfound.nl te plakken (https://2bfound.nl/robots.txt). Het robots.txt-bestand van 2Bfound ziet er als volgt uit:

robots.txt bestand 2Bfound

Robots.txt bestand 2Bfound

User Agent

Er bestaan heel veel verschillende crawlers, zoals je kan zien in deze robots database. Wanneer de instructies gelden voor iedere crawler, kan je het sterretje symbool [*] gebruiken. Het kan zo zijn dat je voor meerdere web crawlers (andere) instructies wilt meegeven. Per web crawler (User Agent) kun je maar één groep met richtlijnen opgeven. Het geven van dezelfde instructies voor meerdere groepen in het robots.txt bestand kunnen de web crawlers niet begrijpen. Je moet dus per User Agent instructies opgeven, ook als er geen verschil is in de instructies. Het robots.txt bestand van Instagram laat goed zien hoe je instructies moet geven aan meerdere User Agents:

instagram robots.txt

Robots.txt bestand Instagram

Sitemap

Als je een sitemap hebt, kan je de locatie van de sitemap aangeven aan het einde van het tekstbestand. Zoals in het onderstaande voorbeeld:

User-agent: *

Disallow: /voorbeeld/

Disallow: /voorbeeld2/

Sitemap: http://www.voorbeeld.nl/sitemap.xml

Instructies robots.txt

Een robots.txt bestand kan je inzetten voor de volgende drie resultaten:

  • Volledige allow

Alle content mag gecrawld worden. De instructies daarvoor zien eruit als volgt:

User-agent: *
Disallow:

  • Volledige disallow

Geen enkele content mag gecrawld worden. De instructies daarvoor zien eruit als volgt:

User-agent: *
Disallow: /

Deze optie is niet aan te raden voor het behalen van een hoge positie in Google, omdat je hiermee tegen Google zegt dat alle pagina’s vanaf de homepage niet gescand mogen worden.

  • Voorwaardelijke allow

Hierbij mag content gecrawld worden op basis van de instructies in het robots.txt bestand. Dat kan middels specifieke instructies per User Agent (zoals hierboven besproken) en de instructies “Allow” en “Disallow”.

Disallow

Achter “Disallow:” kan je specificeren welke delen van de website je niet gecrawld wilt hebben. Het is niet nodig om de volledige domeinnaam te gebruiken, enkel het deel dat daarachter volgt. Stel je hebt een website genaamd www.voorbeeld.nl, waarbij je wilt dat je webpagina met je geheime dagboek niet gecrawld wordt (www.voorbeeld.nl/geheimdagboek/). Dan zullen de instructies daarvoor er als volgt uitzien:

User-agent: *

Disallow: /geheimdagboek/

Allow

Stel dat je een hele mooie foto hebt in je geheime dagboek die je wél gescand wilt hebben, dan kan je dat laten weten door middel van de “Allow” instructie.

User-agent: *

Disallow: /geheimdagboek/

Allow: /geheimdagboek/helemooiefoto.jpg

Hiermee vertel je dat de crawlers wel die ene hele mooie foto mag scannen, ook al mag dat niet voor de rest van het geheime dagboek.

Let op! De Allow richtlijn wordt alleen ondersteund door de bots van Google en Bing.

Hoe stel je een robots.txt-bestand in?

Het voordeel van een robots.txt-bestand is dat het simpel in te stellen is en relatief weinig technische kennis vereist. Schrijf de instructies in een kladblok-programma, zodat er geen opmaak toegevoegd wordt. Het robots.txt-bestand plaats je (via FTP) altijd in de root directory van jouw website (de hoogst gelegen directory van de host) met “robots.txt” als bestandsnaam. Voor WordPress websites bestaan er handige plugins, zoals Yoast SEO, waarmee je binnen WordPress gemakkelijk het robots.txt bestand instelt.

Wat kan robots.txt niet? Beperkingen

Een robots.txt bestand instellen kan veel voordelen opleveren, maar komt ook met een aantal beperkingen.

  • Richtlijn

Het is al eerder vermeld in dit artikel, maar het blijft belangrijk: het robots.txt bestand betreft slechts richtlijnen. Kwaadwillende partijen (bijvoorbeeld spambots) respecteren het bestand niet.

  • Indexatie nog mogelijk

Daarnaast is het ook belangrijk om te weten dat een webpagina toch weergeven kan worden in de zoekresultaten, ondanks het instellen van een robots.txt. Dat kan komen doordat er bijvoorbeeld gelinkt wordt naar de desbetreffende pagina vanaf een pagina die wel gecrawld mag worden. De crawler scant dan de content van die pagina niet, maar neemt wel de URL op in de index. In Google wordt voor deze pagina’s geen meta description vertoont in de zoekresultaten, enkel de URL. Het is mogelijk om deze URLs tijdelijk (voor 90 dagen) te verwijderen via Google Search Console. Ook is het gebruik van noindex en nofollow meta tags beter geschikt wanneer je echt wilt voorkomen dat een webpagina opgenomen wordt in de zoekresultaten.

  • Bestandsgrootte

Google hanteert een limiet voor de bestandsgrootte van een robots.txt bestand, namelijk 500kb. Bij overschrijding wordt de inhoud na dit maximum genegeerd.

Controleer je robots.txt bestand

Wanneer je een robots.txt hebt gemaakt en wilt weten of die correct is ingesteld, zijn daar handige tools voor om het te controleren. Met de robots.txt tester van Google kan je controleren of je de juiste richtlijnen hebt meegegeven aan Google. Ook heeft Google richtlijnen voor robots.txt opgesteld met technische achtergrondinformatie wanneer je er nog meer in wilt verdiepen.

Meer informatie over robots.txt?

Heb je na het lezen van dit artikel nog meer vragen over het robots.txt bestand, of wil je het instellen ervan liever overlaten aan specialisten in zoekmachine optimalisatie? Neem dan gerust contact op met onze specialisten! Volg ons ook op LinkedInFacebook, Twitter en Instagram voor de laatste ontwikkelingen op het gebied van online marketing!