robot txt configuration
protocole d'exclusion des robots txt
Le protocole d'exclusion des robots, connu sous le nom de robots.txt, est une convention visant à empêcher les robots d'indexation (web crawlers) d'accéder à tout ou une partie de votre site web.
Le fichier robots.txt,est à placer la racine d'un site web et nul par ailleur ,il contient une liste de ressources du site qui ne sont pas censées être indexées par les moteurs de recherches.
Ce fichier permet également d'indiquer aux moteurs l'adresse du fichier sitemap.xml de votre site.
Par convention, les robots consultent le fichier robots.txt avant d'indexer votre site Web.
Lorsqu'un robot tente d'accéder à une page web, comme par exemple http://www.votre-domaine.fr/page.html, il tente d'accéder en premier lieu au fichier robots.txt situé à l'adresse http://www.votre-domaine.fr/robots.txt
plus de renseignements utiles sur la configuration robot txt ici : http://robots-txt.com/
Aucun commentaire:
Enregistrer un commentaire