un regard plus profond sur les Robots.txt

0 Comments

inscrivez-vous pour nos récapitulatifs quotidiens du paysage en constante évolution du marketing de recherche.

Remarque: En soumettant ce formulaire, vous acceptez les conditions de Third Door Media. Nous respectons votre vie privée.

Stephan Spencer le 16 avril 2009 à 8h00

  • catégories:All Things SEO Column, Channel:SEO, How To: SEO, SEO: Crawling and Robots
  • Le Robot exclusion Protocol (REP) n’est pas exactement un protocole compliqué et ses utilisations sont assez limitées, et donc il est généralement donné court shrift par SEOs., Pourtant, il y a beaucoup plus que vous ne le pensez. Robots.txt est avec nous depuis plus de 14 ans, mais combien d’entre nous savaient qu’en plus de la directive disallow, il y avait une directive noindex à laquelle Googlebot obéit? Que les pages noindexées ne se retrouvent pas dans l’index mais les pages interdites le font, et ces dernières peuvent apparaître dans les résultats de recherche (bien qu’avec moins d’informations car les araignées ne peuvent pas voir le contenu de la page)? Que les pages interdites accumulent encore PageRank? Que les robots.txt peut accepter une forme limitée de correspondance de modèle?, Que, à cause de cette dernière fonctionnalité, vous pouvez interdire sélectivement non seulement les répertoires, mais aussi les types de fichiers particuliers (enfin, les extensions de fichiers pour être plus exact)? Qu’un des robots.les araignées ne peuvent pas accéder à la page txt non autorisée, elles ne peuvent donc pas lire et obéir à une balise meta robots contenue dans la page?

    Un des robots.le fichier txt fournit des informations critiques pour les araignées de moteur de recherche qui explorent le web. Avant ces robots (est-ce que quelqu’un dit le mot complet « robots” plus?) accéder aux pages d’un site, ils vérifient pour voir si un robot.le fichier txt existe., Cela rend l’exploration du web plus efficace, car les robots.le fichier txt empêche les robots d’accéder à certaines pages qui ne devraient pas être indexées par les moteurs de recherche.

    Ayant un robots.fichier txt est une bonne pratique. Même pour la simple raison que certains programmes de métriques interpréteront la réponse 404 à la demande de robots manquants.fichier txt comme une erreur, ce qui pourrait entraîner des rapports de performance erronés. Mais ce qui se passe dans ces robots.fichier txt? C’est le cœur du problème.

    les Deux robots.,les balises TXT et robots meta reposent sur la coopération des robots et ne sont en aucun cas garanties de fonctionner pour chaque bot. Si vous avez besoin d’une protection plus forte contre les robots et autres agents sans scrupules, vous devez utiliser d’autres méthodes telles que la protection par mot de passe. Trop de fois, j’ai vu des webmasters placer naïvement des URL sensibles telles que des zones administratives dans des robots.txt. Vous feriez mieux de croire les robots.txt est l’un des premiers ports d’escale du pirate—pour voir où ils devraient pénétrer.

    Robots.,txt fonctionne bien pour:

    • interdire les robots d’exploration des parties non publiques de votre site web
    • interdire aux moteurs de recherche d’essayer d’indexer des scripts, des utilitaires ou d’autres types de code
    • éviter l’indexation de contenu en double sur un site Web, comme les versions « imprimées” des pages html
    • le fichier txt doit résider à la racine du domaine et doit être nommé « robots.txt  » (toutes les minuscules). Robot.,le fichier txt situé dans un sous-répertoire n’est pas valide, car les bots ne vérifient ce fichier qu’à la racine du domaine.

      la Création d’un des robots.fichier txt est facile. Vous pouvez créer un robots.fichier txt dans n’importe quel éditeur de texte. Il doit s’agir d’un fichier texte codé en ASCII, pas D’un fichier HTML.

      Robots.syntaxe txt

      • User-Agent: le robot auquel la règle suivante s’applique (par exemple « Googlebot”, etc.)
      • Disallow: les pages auxquelles vous souhaitez bloquer l’accès aux bots (autant de lignes de disallow que nécessaire)
      • Noindex: les pages que vous souhaitez qu’un moteur de recherche bloque et non indexer (ou désindexer si elles sont précédemment indexées)., Officieusement pris en charge par Google; non pris en charge par Yahoo et Live Search.
      • chaque groupe User-agent / Disallow doit être séparé par une ligne vide; cependant, aucune ligne vide ne doit exister au sein d’un groupe (entre la ligne User-agent et la dernière Disallow).
      • le symbole de hachage (#) peut être utilisé pour les commentaires dans un robot.fichier txt, où tout ce qui suit # sur cette ligne sera ignoré. Peut être utilisé pour des lignes entières ou des fins de lignes.
      • les répertoires et les noms de fichiers sont sensibles à la casse: « private”, « Private” Et « PRIVATE” sont tous très différents des moteurs de recherche.,

      regardons un exemple de robots.fichier txt. L’exemple ci-dessous inclut:

      • Le robot appelé « Googlebot” n’a rien d’interdit et peut aller n’importe où
      • le site entier est fermé au robot appelé « msnbot”;
      • tous les robots (autres que Googlebot) ne doivent pas visiter le répertoire /tmp/ ou les répertoires ou fichiers appelés /logs, comme expliqué avec des commentaires, par exemple, tmp.htm, /journaux ou des journaux.php.

      User-agent: Googlebot
      Disallow:

      User-agent: msnbot
      Disallow: /

      # Block all robots from tmp and logs directories
      User-agent: *
      Disallow: /tmp/
      Disallow: /logs # for directories and files called logs

      Ce qui devrait figurer sur la ligne User-Agent?, Un agent utilisateur est le nom du robot de moteur de recherche. Vous pouvez définir une entrée pour appliquer à un bot (précisez le nom), ou vous pouvez l’appliquer à tous les robots (par l’inscription d’un astérisque, qui agit comme un joker). Une entrée qui s’applique à tous les bots ressemble à ceci:

      User-Agent: *

      Les principaux robots incluent: Googlebot (Google), Slurp (Yahoo!), msnbot (MSN) et TEOMA (Ask).,

      gardez à l’esprit qu’un bloc de directives spécifié pour L’agent utilisateur de Googlebot sera obéi par Googlebot; mais Googlebot n’obéira pas également aux directives pour l’agent utilisateur de * (tous les bots).

      Qu’est-ce qui devrait être répertorié sur la ligne Disallow? L’option Interdire répertorie les pages que vous souhaitez bloquer. Vous pouvez lister une URL spécifique ou un modèle. L’entrée doit commencer par une barre oblique (/).,

      Exemples:

      • Pour bloquer l’ensemble du site: Disallow: /
      • Pour bloquer un répertoire et tout ce qu’il contient: Disallow: /private_directory/
      • Pour bloquer une page: Disallow: /private_file.html
      • Pour bloquer une page et/ou un répertoire nommé privé: Disallow: /private

      Si vous servir du contenu via les protocoles http et https, vous aurez besoin d’un distinct des robots.fichier txt pour chacun de ces protocoles. Par exemple, pour permettre aux robots d’indexer toutes les pages http mais aucune page https, vous utiliseriez les robots.,les fichiers txt comme suit, pour votre protocole http:

      User-agent: *
      Disallow:

      Et pour le protocole https:

      User-agent: *
      Disallow: /

      Robots de vérifier pour les robots.fichier txt chaque fois qu’ils viennent sur un site web. Les règles dans les robots.le fichier txt sera en vigueur immédiatement une fois qu’il sera téléchargé à la racine du site et que le bot arrivera sur le site. La fréquence d’accès varie en fonction de la fréquence à laquelle les robots naviguent sur le site en fonction de la popularité, de l’autorité et de la fréquence à laquelle le contenu est mis à jour., Certains sites peuvent être analysées plusieurs fois par jour tandis que d’autres peuvent uniquement être analysé quelques fois par semaine. Google Webmaster Central fournit un moyen de voir quand Googlebot a accédé aux robots pour la dernière fois.fichier txt.

      je recommanderais d’utiliser les robots.outil d’analyse TXT dans Google Webmaster Central pour vérifier des URL spécifiques pour voir si vos robots.le fichier txt les autorise ou les bloque, voyez si Googlebot a eu du mal à analyser des lignes dans vos robots.fichier txt, et tester les modifications apportées à vos robots.fichier txt.,

      Certaines techniques avancées

      Les principaux moteurs de recherche ont commencé à travailler ensemble pour faire progresser la fonctionnalité des robots.fichier txt. Comme mentionné ci-dessus, certaines fonctions ont été adoptées par les principaux moteurs de recherche, et pas nécessairement tous les principaux moteurs, qui permettent un contrôle plus fin de l’exploration. Comme ceux-ci peuvent être limités, faites preuve de prudence dans leur utilisation.

      délai D’exploration: certains sites Web peuvent connaître des quantités élevées de trafic et souhaiter ralentir les araignées des moteurs de recherche pour permettre plus de ressources de serveur pour répondre aux demandes de trafic régulier., Crawl delay est une directive spéciale reconnue par Yahoo, Live Search et Ask qui indique à un robot d’exploration le nombre de secondes à attendre entre les pages d’exploration:

      User-agent: msnbot
      Crawl-delay: 5

      Pattern matching: à ce moment, pattern matching semble être utilisable par les trois majors: Google, Yahoo et Live Search. La valeur de filtrage est considérable. Regardons d’abord les plus élémentaires de filtrage, en utilisant le caractère générique astérisque., Pour bloquer l’accès à tous les sous-répertoires commençant par « Privé »:

      User-agent: Googlebot
      Disallow: /private*/

      Vous pouvez faire correspondre la fin de la chaîne en utilisant le signe dollar ($). Par exemple, pour bloquer les URL qui se terminent par .asp:

      User-agent: Googlebot
      Disallow: /*.asp$

      contrairement à la correspondance de motifs plus avancée trouvée dans les expressions régulières en Perl et ailleurs, le point d’interrogation n’a pas de pouvoirs spéciaux. Donc, pour bloquer l’accès à toutes les URL qui incluent un point d’interrogation (?,), il suffit d’utiliser le point d’interrogation (pas besoin de « s’échapper” ou de le précéder d’une barre oblique inversée):

      User-agent: *
      Disallow: /*?*

      Pour bloquer les robots d’indexer tous les fichiers d’un type de fichier spécifique (par exemple, .gif):

      User-agent: *
      Disallow: /*.gif$

      Voici un exemple plus compliqué. Supposons que votre site utilise la partie chaîne de requête des URL (ce qui suit le « ?” ) uniquement pour les ID de session, et vous souhaitez exclure toutes les URL contenant le paramètre dynamique pour vous assurer que les bots n’explorent pas les pages en double. Mais vous voudrez peut-être inclure toutes les URL qui se terminent par un »?”., Voici comment y parvenir:

      User-agent: Slurp
      Disallow: /*? # block any URL that includes a ?
      Allow: /*?$ # allow any URL that ends in a ?

      directive Allow: pour le moment, la directive Allow semble uniquement prise en charge par Google, Yahoo et Ask. Tout comme cela semble, cela fonctionne à l’opposé de la directive Disallow et offre la possibilité d’appeler spécifiquement des répertoires ou des pages qui peuvent être explorés. Cela peut être bénéfique après que de grandes sections ou l’ensemble du site a été interdit.,

      pour autoriser Googlebot uniquement dans le répertoire « google”:

      User-agent: Googlebot
      Disallow: /
      Allow: /google/

      directive Noindex: comme mentionné ci-dessus, cette directive offre des avantages en éliminant les listes Sans Titre sans extrait des résultats de recherche, mais elle est limitée à Google. Sa syntaxe reflète exactement Disallow. Dans les mots de Matt Cutts:

      « Google autorise une directive NOINDEX dans les robots.txt et il supprimera complètement toutes les URL du site correspondant de Google., (Ce comportement peut être modifié selon ce débat politique, bien sûr, c’est pourquoi nous n’avons pas parlé beaucoup.)”

      Plan du site: un fichier de plan du site XML peut indiquer aux moteurs de recherche toutes les pages de votre site, et éventuellement, fournir des informations sur ces pages, telles que celles qui sont les plus importantes et la fréquence à laquelle elles changent. Il agit comme un mécanisme de découverte automatique pour que l’Araignée trouve le fichier XML sitemap. Vous pouvez informer Google et d’autres moteurs de recherche de votre plan du site en ajoutant la ligne suivante à vos robots.,fichier txt:

      Sitemap: sitemap_location

      Le sitemap_location doit être l’URL complète vers le plan du site, tels que: http://www.example.com/sitemap.xml. Cette directive est indépendante de la ligne user-agent, donc peu importe où vous la placez dans votre fichier. Tous les principaux moteurs de recherche prennent en charge le protocole Sitemap de découverte automatique, y compris Google, Yahoo, Live Search et Ask.

      tandis que la découverte automatique fournit un moyen d’informer les moteurs de recherche sur le plan du site.,fichier xml, il est également intéressant de vérifier et de soumettre des sitemaps directement aux moteurs de recherche via chacune de leurs consoles de webmaster (Google Webmaster Central, Yahoo Site Explorer, Live Search Webmaster Center).

      En savoir plus sur les robots de Google

      Google utilise plusieurs robots différents (user-agents). Le bot pour la recherche sur le web est Googlebot. Les autres robots de Google suivent les règles que vous avez configurées pour Googlebot, mais vous pouvez également configurer des règles supplémentaires pour ces robots spécifiques. Bloquer Googlebot bloque tous les bots qui commencent par”Googlebot ».,li>Googlebot-Mobile: explore les pages pour l’index mobile

    • Googlebot-Image: explore les pages pour l’index d’image
    • Mediapartners-Google: explore les pages pour déterminer le contenu AdSense, explore uniquement les sites Si Afficher des annonces AdSense
    • Adsbot-Google: explore pour mesurer la qualité de la page de destination AdWords, explore uniquement les sites p>

      User-agent: Googlebot
      Disallow: /

      Vous pouvez autoriser Googlebot, mais bloquer L’accès à tous les autres bots:

      User-agent: *
      Disallow: /

      User-agent: Googlebot
      Disallow:

      problèmes avec les robots.,txt

      Pages que vous bloquez à l’aide de robots.txt interdit peut toujours être dans L’index de Google et apparaître dans les résultats de recherche — surtout si d’autres sites sont liés à eux. Certes, un classement élevé est assez improbable car Google ne peut pas « voir » le contenu de la page; il a très peu de choses à faire à part le texte d’ancrage des liens entrants et internes, et L’URL (et le titre et la description ODP si dans ODP/DMOZ.) Par conséquent, L’URL de la page et, potentiellement, d’autres informations accessibles au public peuvent apparaître dans les résultats de recherche. Cependant, aucun contenu de vos pages ne sera analysé, indexé ou affiché.,

      pour empêcher totalement une page d’être ajoutée à l’index d’un moteur de recherche même si d’autres sites y sont liés, utilisez une balise META DE robots « noindex” et assurez-vous que la page n’est pas interdite dans les robots.txt. Lorsque les araignées parcourent la page, elles reconnaissent la balise meta « noindex” et déposent l’URL de l’index.

      Robots.TXT et robots meta tag conflits

      Si les robots.fichier TXT et robots meta tag instructions pour un conflit de page, les robots suivent les plus restrictives. Plus précisément:

      • Si vous bloquez une page avec des robots.,txt, les robots n’exploreront jamais la page et ne liront jamais les balises META DE robots sur la page.
      • Si vous autorisez une page avec des robots.txt mais le bloquer d’être indexé à l’aide d’une balise META robots, Googlebot accédera à la page, Lira la balise meta, et par la suite ne l’indexera pas.

      Alors que les robots.les fichiers txt sont destinés à protéger le contenu d’un site contre l’indexation, y compris les robots.fichier txt quel que soit est recommandé que de nombreux processus robotiques cherchent pour eux et offrant on ne peut accélérer leurs procédures. Ensemble, des robots.,txt et robots Meta tags vous donnent la flexibilité d’exprimer des politiques d’accès complexes relativement facilement:

      • suppression d’un site web entier ou d’une partie d’un site web.
      • Éviter l’indexation des images dans la Recherche d’Images de Google et autres moteurs.
      • éviter l’indexation du contenu en double sur un site.
      • suppression de pages individuelles sur un site à l’aide d’une balise META robots.
      • suppression des copies et des extraits mis en cache à l’aide d’une balise META robots.

      les Deux robots.txt et robots meta tag s’appuient sur la coopération des robots, et ne sont en aucun cas garantis de fonctionner pour chaque robot., Si vous avez besoin d’une protection renforcée contre les robots et autres agents, vous devez utiliser d’autres méthodes telles que la protection par mot de passe.

      inscrivez-vous à nos récapitulatifs quotidiens du paysage en constante évolution du marketing de recherche.

      Remarque: En soumettant ce formulaire, vous acceptez les conditions de Third Door Media. Nous respectons votre vie privée.,

      A propos de l’auteur

      Stephan Spencer

      Stephan Spencer est le créateur du séminaire SEO immersif de 3 jours Traffic Control; auteur des livres O’Reilly The Art of SEO, Google Power Search et social eCommerce; fondateur de L’agence SEO Netconcepts 2010); inventeur de la technologie de proxy SEO gravitystream; et l’hôte de deux émissions de podcast get yourself optimized et marketing speak.


    Laisser un commentaire

    Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *