Een crawler? Wat is dat eigenlijk? [uitleg]

Heb je ooit wel eens gehoord van de Googlebot of Bingbot? Dat zijn de crawlers van de grootste zoekmachines ter wereld namelijk van Google en Bing. Een crawler is een stukje software dat alle webpagina’s ter wereld afstruint op zoek naar nieuwe pagina’s. Ze crawlen een website en proberen daardoor nieuwe pagina’s te indexeren. We leggen je er graag meer over uit!

Wat doet deze crawler dan precies?

Wat is een crawler? Een crawler struint het world wide web af op zoek naar websites en de bijbehorende pagina’s. Deze crawlers proberen linkjes op deze websites en paginas te volgen en zo een beter beeld te krijgen wat er nu allemaal online staat. Vervolgens komen deze resultaten voor in de zoekmachine van een Google of Bing. Het is dus belangrijk om een duidelijke website te maken waarbij de crawler heel eenvoudig jouw structuur kan begrijpen en ook een goed beeld van je website krijgt.

Iedere website heeft een bepaald crawlbudget waar deze crawler zijn werk voor doet. Is dit budget op dan stopt de crawler. Hoe dat precies werkt is een behoorlijk lastig verhaal. Maar een website heeft een autoriteit en hoe hoger deze is hoe hoger het crawlbudget zal zijn. Althans, dat is wat onderzoeken vertellen.

Hoe zorg je voor een goede besteding?

Je wilt natuurlijk niet dat deze crawler budget gaat stoppen in het doorspitten van allerlei pagina’s op je site die er helemaal niet toe doen. Daarvoor kan je drie dingen verbeteren.

Txt-bestand: Geef bepaalde pagina’s een disallow zodat je er voor zorgt dat de crawler hier geen budget aan besteed. Dit zijn bijvoorbeeld ‘verplichte’ pagina’s waar je niet op gevonden wilt worden.

No-index: Wil je bepaalde pagina’s uit de zoekresultaten houden, of dit nu al gebeurd is of niet, geef ze dan een no-index tag mee.

Canonical tag: Heb je meerdere vergelijkbare pagina’s (denk aan dezelfde content) dan kan je een canonical tag meegeven om duidelijk te maken wat dé unieke pagina is.