SearchGPT : le moteur de recherche par ChatGPT va-t-il supplanter Google (et le SEO) ?
4 nov. 2024
SEO
Publié le 22 sept. 2023 - 7 minutes de lecture
Le fichier robots.txt est essentiel pour optimiser le référencement naturel d'un site, gérer le budget crawl, renforcer la sécurité et améliorer la performance, mais une utilisation appropriée est cruciale pour éviter des problèmes
Au programme
Parmi tous les outils et fichiers utiles au référencement naturel d'un site web, le fichier robots.txt est un incontournable pour tous les créateurs de sites web. Découvrez ce petit fichier, facile à mettre en place, qui guidera les robots de crawl vers les pages les plus importantes de votre site, et interdira l'accès à d'autres.
Le robots.txt est un fichier texte utilisé comme un protocole d'exclusion des robots d'exploration, tel que Googlebots. Placé à la racine de votre site web, à la base de l'arborescence des dossiers hébergés sur le serveur, il permet d'empêcher les web crawlers (ou robots d'exploration) d'accéder à tout ou partie de votre site Internet. Pour cela, il envoie des commandes aux robots d'indexation des moteurs de recherche leur indiquant ce qu'ils ont le droit de crawler ou non.
Le fichier robots.txt est l'un des premiers fichiers crawlés par un moteur d'indexation. Il permet donc de prioriser l'activité du bot avant même qu'il ait commencé l'exploration du site, grâce aux consignes de crawl intégrées à la racine du site.
Attention, le fichier robots.txt n'est pas destiné à désindexer des pages. En effet, si vous interdisez aux robots d'explorer une page de votre site web qui est déjà indexée, cela ne la désindexera pas. Si c'est votre intention, il faudra alors utiliser la balise noindex, ou protéger la page par un mot de passe.
En revanche, si vous avez une page web non-indexée, interdire le crawl avec robots.txt vous assure qu'elle ne sera jamais indexée.
Bon à savoir : le fichier robots.txt de votre site web est accessible en saisissant www. nomdedomaine.extensiondedomaine / robots.txt dans la barre de recherche.
Si le robots.txt ne doit pas être utilisé pour gérer l'indexation des pages web d'un site, il est intéressant pour le SEO, pour la gestion du budget crawl, ainsi que pour la sécurité du site.
L'intérêt d'un fichier robots.txt concerne d'abord l'éditeur de site. En effet, celui-ci va pouvoir, avec le robots.txt, autoriser ou interdire des accès à des pages, ou à des dossiers, qui ne sont pas pertinents pour le SEO, et qui, de ce fait, vont consommer inutilement du budget crawl. Les robots ne vont alors pas perdre de temps sur vos pages sans intérêt, et concentrer toute leur attention sur vos pages importantes, augmentant ainsi votre budget crawl.
Piloter astucieusement son robots.txt est donc un très bon moyen d'ouvrir et de fermer les vannes aux bons endroits sur un site web, afin d'obtenir une optimisation du référencement sur tous les mots-clés.
Robots.txt est aussi intéressant pour la sécurité, dans le cas où, par exemple, un bot extérieur de black hat non-désiré génère une surcharge sur le serveur, ou quand on n'a pas envie que Google accède au site web (dans le cas d'une refonte notamment).
Le fait d'interdire l'accès, via le fichier robots.txt, peut permettre d'éviter des catastrophes, comme l'indexation prématurée du site, ou l'indexation de la préprod.
Le robots.txt est enfin un atout pour les moteurs de recherche. En priorisant la navigation, et en fermant les bonnes portes, vous allez optimiser le temps de parcours des robots d’exploration. Au final, vous faites des économies d'argent, car, rappelons-le, les bots coûtent très cher à déployer sur tous les sites web de la planète.
Si tout le monde gérait de façon efficiente son robots.txt, les bots pourraient aller à l'essentiel plutôt que de parcourir des tonnes de pages inutiles.
Le robots.txt est un simple fichier texte, qu'on peut éditer à partir de n'importe quel éditeur de texte, et dans lequel on renseigne ses instructions.
Le fichier robots.txt charge les robots des moteurs de recherche (également appelés agents ou spiders) de recevoir des instructions. Pour cela, il faut alors utiliser plusieurs commandes.
Parmi les renseignements que l'on peut fournir dans robots.txt, on commence toujours par indiquer à quel moteur de recherche on s'adresse. Pour cela, on utilise la consigne "user-agent", suivie de deux points et de la liste des user-agents autorisés, qu'on trouve très facilement sur Google (googlebot pour Google, bingbot pour Bing…).
L'intérêt, c'est que l'on peut définir quel robot de moteur de recherche aura accès ou non au site, ou à certaines parties du site. Généralement, vous verrez souvent la fonction :user-agent:, ce qui signifie que l'instruction concerne l'intégralité des moteurs de recherche.
En effet, l'astérisque signifie "n'importe quel caractère" ou "s'applique à tous". Cela permet d'assurer que nous prenons en compte toutes les URL concernées ou les moteurs de recherche autorisés en ligne.
Ensuite, on utilise seulement 2 instructions : allow pour ouvrir des portes, et disallow pour les fermer.
Il suffit alors d'entrer la consigne, et d'ajouter l'élément que vous souhaitez autoriser ou bloquer.
Cas particulier, si vous souhaitez, par exemple, fermer l'accès total à un répertoire, mais que vous voulez quand même que Google, voire son canal SEO Google Discover, accède à un seul petit bout du répertoire, alors vous devrez procéder par ordre chronologique. En premier lieu, on interdit l'accès au dossier, et en second temps, on autorise l'accès à la petite partie du dossier. De cette façon, le moteur de recherche comprend qu'il y a une exception à la règle de base.
Par exemple : vous ne voulez pas que Google accède à votre répertoire d'images, mais vous voulez qu'il accède quand même au dossier spécifique "images 2022". Alors vous interdisez d'abord l'accès au dossier images, puis vous autorisez l'accès à "images 2022".
Pour utiliser robots.txt de manière intelligente et efficace, il est essentiel d'en connaître les spécificités, dont voici les plus importantes :
Bon à savoir : le fichier robots.txt doit être encodé en UTF-8, un mode d'encodage spécifique aux fichiers txt.
L'utilisation du fichier robots.txt peut être un véritable atout pour l'optimisation de votre site web. Mais attention, si vous l'utilisez mal, cela peut aussi se retourner contre vous, nécessitant l'intervention d'une agence web lilloise.
L'usage primaire du robots.txt a un enjeu de sécurité, en refusant l'accès aux dossiers admin, à certaines ressources du CMS, ou à certaines pages.
Il faut donc éviter d'avoir des interdictions sur des pages susceptibles d'être exploitées par un hacker, comme l'url de connexion de votre site. En effet, si un hacker veut s'en prendre spécifiquement à votre site web, il regardera directement robots.txt et se servira des informations qu'il va collecter pour accélérer son travail.
Rappelons que robots.txt n'est qu'un fichier qui donne des consignes au robot. Et si les robots bienveillants jouent généralement le jeu, les plus malveillants sont libres de ne pas les suivre, voire même d'aller tout droit vers vos pages interdites, pour en récupérer les données sensibles.
Donc, utilisez robots.txt avec modération. Mieux vaut essayer le fait de ne laisser aucune trace sur le site, comme votre url de connexion, plutôt que d'avoir à la bloquer dans le robots.txt.
Le deuxième gros enjeu du robots.txt vise la performance. Pour prendre un cas classique, un site e-commerce avec un grand nombre de filtres à facettes et de filtres de tri pourrait se retrouver dans des situations où il aurait des combinaisons infinies de pages générées par l'ensemble des combinaisons de ces filtres à facettes. La bonne solution consiste alors, dans 99 % des cas, à simplement indiquer dans le robots.txt la référence du paramètre php, et de le mettre en disallow pour l'ignorer.
L'encodage du fichier robots.txt peut rapidement devenir un casse-tête, surtout si votre site est dense. Alors, pour vous assurer que votre fichier est fonctionnel, et que toutes les consignes sont opérationnelles, vous pouvez vérifier votre fichier robots.txt sur la Google Search Console avant de l’intégrer.
Il vous suffira d'aller dans l'onglet "exploration", puis sur "outil de test du fichier robots.txt". Vous pourrez alors copier les données de votre fichier robots.txt, et lancer le test.
Si le test est validé, et que la mention "autorisé" s'affiche, vous pouvez alors intégrer votre fichier à la racine de votre site Internet, car celui-ci est opérationnel.
Vous aimeriez optimiser votre budget crawl en guidant les robots des moteurs de recherche vers les pages web de votre site les plus pertinentes ? Lemon Interactive peut vous aider à installer robots.txt sur votre site, et ainsi améliorer votre référencement naturel.
Rencontrons-nous
Pour développer ensemble votre performance digitale !