Met een robots.txt bestand beperkt u de toegang tot uw webpagina’s voor zoekmachinerobots die uw site crawlen. Voordat een zoekmachinerobot of Google robot een site bezoekt, gaat deze eerst langs het robots.txt bestand. Hierin wordt aangegeven welke pagina’s niet gecrawld kunnen worden.
Het robots.txt bestand wordt als volgt geplaatst: wwww.uwdomeinnaam.nl/robots.txt. Zoals de extensie (.txt) al zegt, is het een tekstbestand. Met de term “Disallow:” wordt aangegeven welke pagina’s de zoekmachinerobot niet mag crawlen. Hierbij kunt u denken aan inlogpagina’s en bepaalde verwijderde pagina’s. Tevens kunt u aangeven aan de zoekmachinerobot waar de XML sitemap te vinden is. Ons robots.txt bestand ziet er op dit moment als volgt uit:
Voor onze website maken wij gebruik van WordPress als CMS. WordPress is het meestgebruikte CMS wereldwijd. Het voordeel van WordPress is, dat u enkel een robots.txt plugin hoeft te installeren en het robots.txt bestand wordt automatisch gegenereerd en geplaatst.