una mirada más profunda a los Robots.txt

octubre 4, 2020 admin 0 Comments

Suscríbase a nuestros resúmenes diarios del cambiante panorama del marketing de búsqueda.

Nota: al enviar este formulario, usted acepta los Términos de Third Door Media. Respetamos su privacidad.

Stephan Spencer el 16 de abril de 2009 a las 8:00 am

categorías:All Things SEO columna, Canal: SEO, cómo: SEO, SEO: Crawling and Robots

El Protocolo de exclusión de Robots (REP) no es exactamente un protocolo complicado y sus usos son bastante limitados, y por lo tanto generalmente se le da poca importancia por SEOs., Sin embargo, hay mucho más de lo que podrías pensar. Robot.txt ha estado con nosotros por más de 14 años, pero ¿cuántos de nosotros sabíamos que además de la directiva de no permitir hay una directiva de noindex que Googlebot obedece? Que las páginas no indexadas no terminan en el índice, pero las páginas no permitidas sí, y estas últimas pueden aparecer en los resultados de búsqueda (aunque con menos información ya que las arañas no pueden ver el contenido de la página)? Que las páginas no permitidas todavía acumulan PageRank? Esos robots.txt puede aceptar una forma limitada de coincidencia de patrones?, Que, debido a esa última característica, puede rechazar selectivamente no solo directorios sino también tipos de archivos particulares (bueno, extensiones de archivo para ser más exactos)? Eso son robots.txt disallowed page no puede ser accedido por las arañas, por lo que no pueden leer y obedecer una etiqueta meta robots contenida dentro de la página?

a robots.el archivo txt proporciona información crítica para las arañas de los motores de búsqueda que rastrean la web. Antes de estos bots (¿alguien dice la palabra completa «robots»?) páginas de acceso de un sitio, comprueban para ver si un robots.el archivo txt existe., Hacerlo hace que el rastreo de la web más eficiente, porque los robots.el archivo txt evita que los bots accedan a ciertas páginas que no deben ser indexadas por los motores de búsqueda.

tener robots.el archivo txt es una buena práctica. Incluso solo por la sencilla razón de que algunos programas de métricas interpretarán la respuesta 404 a la solicitud de robots desaparecidos.archivo txt como un error, lo que podría resultar en informes de rendimiento erróneos. Pero lo que va en esos robots.archivo txt? Ese es el quid de la cuestión.

ambos robots.,las meta etiquetas txt y robots dependen de la cooperación de los robots, y de ninguna manera se garantiza que funcionen para cada bot. Si necesita una protección más fuerte contra robots sin escrúpulos y otros agentes, debe usar métodos alternativos como la protección con contraseña. Demasiadas veces he visto a webmasters colocar ingenuamente URLs sensibles como áreas administrativas en robots.txt. Mejor creer robots.txt es uno de los primeros puertos de llamada del hacker, para ver dónde deben entrar.

Robots.,txt funciona bien para:

impedir que los rastreadores de partes no públicas de su sitio web
impedir que los motores de búsqueda intenten indexar scripts, utilidades u otros tipos de código
Evitar la indexación de contenido duplicado en un sitio web, como versiones «impresas» de páginas html
Auto-descubrimiento de mapas de sitio XML

a riesgo de ser el Capitán Obvio, los robots.el archivo txt debe residir en la raíz del dominio y debe llamarse «robots».txt » (todas en minúsculas). Robot.,el archivo txt ubicado en un subdirectorio no es válido, ya que los bots solo verifican este archivo en la raíz del dominio.

crear robots.archivo txt es fácil. Puedes crear robots.archivo txt en cualquier editor de texto. Debe ser un archivo de texto codificado en ASCII, no un archivo HTML.

Robots.sintaxis txt

User-Agent: el robot al que se aplica la siguiente regla (por ejemplo, «Googlebot», etc.)
No permitir: las páginas a las que desea bloquear el acceso de los bots (tantas líneas de no permitir como sea necesario)
Noindex: las páginas que desea que un motor de búsqueda bloquee y no indexe (o des-indexe si previamente indexado)., No oficialmente soportado por Google; no soportado por Yahoo y Live Search.
Cada grupo User-Agent / Disallow debe estar separado por una línea en blanco; sin embargo, no deben existir líneas en blanco dentro de un grupo (entre la línea User-agent y la última Disallow).
El símbolo hash ( # ) puede ser usado para comentarios dentro de un robot.archivo txt, donde todo después de # en esa línea será ignorado. Puede utilizarse para líneas enteras o al final de líneas.
Los directorios y nombres de archivo distinguen entre mayúsculas y minúsculas: «privado», «privado» y «privado» son todos singularmente diferentes a los motores de búsqueda.,

veamos un ejemplo de robots.archivo txt. El ejemplo a continuación incluye:

El robot llamado » Googlebot «no tiene nada prohibido y puede ir a cualquier parte
todo el sitio está cerrado al robot llamado»msnbot»;
Todos los robots (que no sean Googlebot) no deben visitar el directorio /tmp/ o directorios o archivos llamados /logs, como se explica con comentarios, por ejemplo, tmp.htm, / logs o logs.php.

User-agent: Googlebot Disallow:

User-agent: msnbot Disallow: /

# Block all robots from tmp and logs directories User-agent: * Disallow: /tmp/ Disallow: /logs # for directories and files called logs

Lo que debe ser incluido en el Agente de Usuario de la línea?, Un agente de usuario es el nombre de un robot de motor de búsqueda específico. Puede configurar una entrada para que se aplique a un bot específico (enumerando el nombre) o puede configurarla para que se aplique a todos los bots (enumerando un asterisco, que actúa como un comodín). Una entrada que se aplica a todos los bots se ve así:

User-Agent: *

los robots principales incluyen: Googlebot (Google), Slurp(Yahoo!), msnbot (MSN), y TEOMA (Ask).,

tenga en cuenta que un bloque de directivas especificado para el agente de usuario de Googlebot será obedecido por Googlebot; pero Googlebot no también obedecerá las directivas para el agente de usuario de * (todos los bots).

¿Qué debe aparecer en la línea de No permitir? La opción No permitir enumera las páginas que desea bloquear. Puede listar una URL específica o un patrón. La entrada debe comenzar con una barra diagonal ( / ).,

Ejemplos:

Para bloquear todo el sitio: Disallow: /
Para bloquear un directorio y todo lo que es: Disallow: /private_directory/
Para bloquear una página: Disallow: /private_file.html
Para bloquear una página y/o de un directorio llamado privada: Disallow: /private

Si va a servir contenido a través de http y https, usted necesita separar los robots.archivo txt para cada uno de estos protocolos. Por ejemplo, para permitir que los robots indexen todas las páginas http pero no las páginas https, usarías los robots.,archivos txt como sigue, para su protocolo http:

User-agent: * Disallow:

y para el protocolo https:

User-agent: * Disallow: /

Bots compruebe los robots.txt archivo cada vez que vienen a un sitio web. Las reglas en los robots.el archivo txt entrará en vigor inmediatamente una vez que se cargue en la raíz del sitio y el bot llegue al sitio. La frecuencia con la que se accede varía en la frecuencia con la que los bots arañan el sitio en función de la popularidad, la autoridad y la frecuencia con la que se actualiza el contenido., Algunos sitios pueden ser rastreados varias veces al día, mientras que otros solo pueden ser rastreados unas pocas veces a la semana. Google Webmaster Central proporciona una manera de ver cuándo Googlebot accedió por última vez a los robots.archivo txt.

recomendaría usar los robots.herramienta de análisis txt en Google Webmaster Central para comprobar URL específicas para ver si tus robots.el archivo txt Los permite o los bloquea, vea si Googlebot tuvo problemas para analizar cualquier línea en sus robots.archivo txt, y probar los cambios en sus robots.archivo txt.,

algunas técnicas avanzadas

los principales motores de búsqueda han comenzado a trabajar juntos para avanzar en la funcionalidad de los robots.archivo txt. Como se mencionó anteriormente, hay algunas funciones que han sido adoptadas por los principales motores de búsqueda, y no necesariamente todos los principales motores, que proporcionan un control más fino sobre el rastreo. Sin embargo, como estos pueden ser limitados, tenga cuidado en su uso.

retraso de Rastreo: algunos sitios web pueden experimentar grandes cantidades de tráfico y les gustaría ralentizar las arañas de los motores de búsqueda para permitir que más recursos del servidor satisfagan las demandas del tráfico regular., Crawl delay es una directiva especial reconocida por Yahoo, Live Search y Ask que indica a un rastreador el número de segundos que debe esperar entre las páginas de rastreo:

User-agent: msnbot Crawl-delay: 5

coincidencia de patrones: en este momento, la coincidencia de patrones parece ser utilizable por las tres principales: Google, Yahoo y Live Search. El valor de la coincidencia de patrones es considerable. Veamos primero lo más básico de la coincidencia de patrones, usando el carácter comodín del asterisco., Para bloquear el acceso a todos los subdirectorios que comienzan con «private»:

User-agent: Googlebot Disallow: /private*/

Puede coincidir con el final de la cadena utilizando el signo de Dólar ($). Por ejemplo, para bloquear URLs que terminan con .asp:

User-agent: Googlebot Disallow: /*.asp$

a diferencia de la coincidencia de patrones más avanzada que se encuentra en las expresiones regulares en Perl y en otros lugares, el signo de interrogación no tiene poderes especiales. Por lo tanto, para bloquear el acceso a todas las URL que incluyen un signo de interrogación (?,), simplemente use el signo de interrogación (no es necesario «escaparlo» o precederlo con una barra invertida):

User-agent: * Disallow: /*?*

para bloquear a los robots de rastrear todos los archivos de un tipo de archivo específico (por ejemplo, .gif):

User-agent: * Disallow: /*.gif$

he Aquí un ejemplo más complejo. Digamos que su sitio utiliza la parte de cadena de consulta de las URL (lo que sigue a la «?») únicamente para los ID de sesión, y desea excluir todas las URL que contienen el parámetro dinámico para garantizar que los bots no rastreen páginas duplicadas. Pero es posible que desee incluir cualquier URL que termine con un «?”., Así es como lo lograrías:

User-agent: Slurp Disallow: /*? # block any URL that includes a ? Allow: /*?$ # allow any URL that ends in a ?

Permitir directiva: en este momento, la directiva Permitir parece ser compatible solo con Google, Yahoo y Ask. Tal como suena, funciona lo contrario de la Directiva Disallow y proporciona la capacidad de llamar específicamente a directorios o páginas que se pueden rastrear. Esto puede ser beneficioso después de grandes secciones o todo el sitio ha sido prohibido.,

para permitir Googlebot solo en el directorio «google»:

User-agent: Googlebot Disallow: / Allow: /google/

directiva Noindex: como se mencionó anteriormente, esta directiva ofrece beneficios en la eliminación de listados sin título sin fragmentos de los resultados de búsqueda, pero está limitada a Google. Su sintaxis refleja exactamente No permitir. En palabras de Matt Cutts:

» Google permite una directiva NOINDEX en robots.txt y eliminará por completo todas las URL del sitio coincidentes de Google., (Ese comportamiento podría cambiar en base a esta discusión política, por supuesto, por lo que no hemos hablado mucho de ello.) «

Sitemap: un archivo XML sitemap puede indicar a los motores de búsqueda Todas las páginas de su sitio y, opcionalmente, proporcionar información sobre esas páginas, como cuáles son las más importantes y con qué frecuencia cambian. Actúa como un mecanismo de auto-descubrimiento para que la araña encuentre el archivo XML sitemap. Puede decirle a Google y otros motores de búsqueda sobre su mapa del sitio agregando la siguiente línea a sus robots.,archivo txt:

Sitemap: sitemap_location

El sitemap_location debe ser la URL completa al Sitemap, como: http://www.example.com/sitemap.xml. Esta directiva es independiente de la línea user-agent, por lo que no importa dónde la Coloque en su archivo. Todos los principales motores de búsqueda admiten el protocolo Auto-Discovery Sitemap, incluidos Google, Yahoo, Live Search y Ask.

mientras que el auto-descubrimiento proporciona una manera de informar a los motores de búsqueda sobre el mapa del sitio.,archivo xml, también vale la pena verificar y enviar mapas de sitio directamente a los motores de búsqueda a través de cada una de sus consolas webmaster (Google Webmaster Central, Yahoo Site Explorer, Live Search Webmaster Center).

Más información sobre los bots de Google

Google utiliza varios bots diferentes (agentes de usuario). El bot para la búsqueda en la web es Googlebot. Los otros bots de Google siguen las reglas que configuraste para Googlebot, pero también puedes establecer reglas adicionales para estos bots específicos. Bloquear Googlebot bloquea todos los bots que comienzan con»Googlebot».,li > Googlebot-Mobile: rastrea páginas para índice móvil

Googlebot-Image: rastrea páginas para Índice de imágenes

Mediapartners-Google: rastrea páginas para determinar el contenido de AdSense, solo rastrea Sitios Si muestran anuncios de AdSense

Adsbot-Google: rastrea para medir la calidad de la página de destino de AdWords, solo rastrea sitios que usan Google AdWords para publicitar

Puede bloquear Googlebot por completo utilizando:

User-agent: Googlebot Disallow: /

puede permitir Googlebot, pero bloquear el acceso a todos los demás Bots:

User-agent: * Disallow: /

User-agent: Googlebot Disallow:

problemas con robots.,txt

páginas que bloquea mediante el uso de robots.txt no permite todavía puede estar en el índice de Google y aparecer en los resultados de búsqueda — especialmente si otros sitios enlazan a ellos. Por supuesto, un alto ranking es bastante improbable ya que Google no puede » ver » el contenido de la página; tiene muy poco que ver aparte del texto de anclaje de los enlaces entrantes e internos, y la URL (y el título y la descripción de ODP si está en ODP/ODP. Como resultado, la URL de la página y, potencialmente, otra información disponible públicamente pueden aparecer en los resultados de búsqueda. Sin embargo, ningún contenido de sus páginas SERÁ rastreado, indexado o mostrado.,

para evitar por completo que una página se agregue al índice de un motor de búsqueda, incluso si otros sitios enlazan a ella, use una meta etiqueta de robots «noindex» y asegúrese de que la página no esté desautorizada en robots.txt. Cuando las arañas rastrean la página, reconocerá la meta etiqueta «noindex» y soltará la URL del índice.

Robots.txt y robots meta tag conflictos

Si los robots.para un conflicto de Página, los bots siguen las instrucciones más restrictivas. Más específicamente:

si bloquea una página con robots.,txt, los bots nunca rastrearán la página y nunca leerán etiquetas meta de robots en la página.
Si permite una página con robots.txt pero bloquearlo de ser indexado usando una etiqueta meta de robots, Googlebot accederá a la página, leerá la etiqueta meta, y posteriormente no la indexará.

mientras robots.los archivos txt son para proteger el contenido de un sitio de ser indexado, incluidos los robots.sin importar el archivo txt se recomienda ya que muchos procesos robóticos los buscan y ofreciendo uno solo puede agilizar sus procedimientos. Juntos, robots.,las meta etiquetas txt y robots le dan la flexibilidad de expresar políticas de acceso complejas con relativa facilidad:

eliminar un sitio web completo o parte de un sitio web.
Evitar la indexación de imágenes en la búsqueda de imágenes de Google y otros motores de imágenes.
Evitar la indexación de contenido duplicado en un sitio.
eliminar páginas individuales en un sitio usando una Meta etiqueta de robots.
Eliminar copias en caché y fragmentos de código usando una etiqueta meta robots.

ambos robots.txt y robots meta tag dependen de la cooperación de los robots, y de ninguna manera se garantiza que funcionen para cada robot., Si necesita una protección más fuerte contra robots y otros agentes, debe usar métodos alternativos como la protección con contraseña.

Suscríbase a nuestros resúmenes diarios del cambiante panorama del marketing de búsqueda.

Nota: al enviar este formulario, usted acepta los Términos de Third Door Media. Respetamos su privacidad.,

Sobre El Autor

Stephan Spencer

Stephan Spencer es el creador de los 3 días de inmersión SEO seminario de Control de Tráfico; un autor de los libros de O’Reilly el Arte de La SEO, el Poder de Google de Búsqueda, Sociales y de comercio electrónico; fundador de la agencia SEO Netconcepts (adquirido en 2010); inventor de la SEO de la tecnología de proxy GravityStream; y el anfitrión de dos podcast muestra hazte Optimizado y Comercialización de Hablar.

una mirada más profunda a los Robots.txt

Sobre El Autor

Deja una respuesta Cancelar la respuesta

Entradas recientes

Archivos

Meta