Een diepere kijk op Robots.txt

0 Comments

Meld u aan voor onze dagelijkse samenvattingen van het steeds veranderende search marketing landschap.

opmerking: door dit formulier in te dienen, gaat u akkoord met de voorwaarden van Third Door Media. Wij respecteren uw privacy.

Stephan Spencer op 16 April 2009 om 8:00 uur

  • Categories: All Things SEO Column, Channel: SEO, How to: SEO, SEO: Crawling and Robots
  • Het Robots Exclusion Protocol (REP) is niet bepaald een ingewikkeld protocol en het gebruik ervan is vrij beperkt, en daarom wordt het meestal kort samengevat door SEOs., Toch is er veel meer aan de hand dan je zou denken. Robot.txt is al meer dan 14 jaar bij ons, maar hoeveel van ons wisten dat er naast de ‘niet toestaan’ – richtlijn een ‘geenindex’ – richtlijn is die Googlebot gehoorzaamt? Dat niet-geïndexeerde pagina ’s niet in de index eindigen, maar niet-toegestane pagina’ s wel, en dat laatste kan worden weergegeven in de zoekresultaten (zij het met minder informatie omdat de spiders de pagina-inhoud niet kunnen zien)? Dat verboden pagina ‘ s nog steeds pagerank accumuleren? Die robots.txt kan een beperkte vorm van pattern matching accepteren?, Dat, als gevolg van die laatste functie, kunt u selectief niet alleen mappen, maar ook bepaalde bestandstypen (goed, bestandsextensies om precies te zijn) verbieden? Dat is een robot.txt niet toegestaan pagina kan niet worden benaderd door de spiders, dus ze kunnen niet lezen en gehoorzamen een meta robots tag in de pagina?

    a robots.txt-bestand biedt kritische informatie voor zoekmachine spinnen die het web kruipen. Voor deze bots (zegt iemand nog het volledige woord “robots”?) toegang tot pagina ‘ s van een site, ze controleren om te zien of een robots.txt-bestand bestaat., Door dit te doen maakt het kruipen van het web efficiënter, omdat de robots.txt bestand houdt de bots toegang tot bepaalde pagina ‘ s die niet moeten worden geïndexeerd door de zoekmachines.

    een robot hebben.txt-bestand is een best practice. Zelfs gewoon om de eenvoudige reden dat sommige metrics programma ‘ s de 404 reactie op het verzoek voor een ontbrekende robots zal interpreteren.txt-bestand als een fout, wat kan leiden tot foutieve prestatierapportage. Maar wat er in die robots gaat.txt-bestand? Dat is de kern ervan.

    beide robots.,txt en robots meta tags vertrouwen op de samenwerking van de robots, en zijn geenszins gegarandeerd om te werken voor elke bot. Als u een sterkere bescherming tegen gewetenloze robots en andere agenten nodig hebt, moet u alternatieve methoden gebruiken, zoals wachtwoordbeveiliging. Te vaak heb ik gezien webmasters naïef plaats gevoelige URL ‘ s zoals administratieve gebieden in robots.txt. Geloof maar in robots.txt is een van de hackers eerste havens van call-om te zien waar ze moeten inbreken.

    Robots.,txt werkt goed voor:

    • crawlers uitsluiten van niet-openbare delen van uw website
    • voorkomen dat zoekmachines scripts, hulpprogramma ‘ s of andere soorten code proberen te indexeren
    • vermijden van de indexatie van dubbele inhoud op een website, zoals “print”-versies van html-pagina ‘ s
    • Auto-discovery van XML-Sitemaps

    met het risico dat ze Captain evident zijn, de robots.txt-bestand moet zich bevinden in de root van het domein en moet de naam “robots.txt” (alle kleine letters). Robot.,txt-bestand in een submap is niet geldig, omdat bots alleen controleren op dit bestand in de root van het domein.

    een robots maken.txt-bestand is eenvoudig. Je kunt robots maken.txt-bestand in een tekstverwerker. Het moet een ASCII-gecodeerd tekstbestand zijn, geen HTML-bestand.

    Robots.txt syntaxis

    • User-Agent: De robot de volgende regel is van toepassing op (bijvoorbeeld “Googlebot,” etc.)
    • Disallow: de pagina ’s die u de bots wilt blokkeren (zoveel regels als nodig)
    • Noindex: de pagina’ s die een zoekmachine moet blokkeren en niet indexeren (of de-indexeren indien eerder geïndexeerd)., Onofficieel ondersteund door Google; niet ondersteund door Yahoo en Live Search.
    • elke User-Agent / Disallow groep moet gescheiden worden door een lege regel; er mogen echter geen lege regels bestaan binnen een groep (tussen de User-agent regel en de laatste Disallow).
    • het hash-symbool ( # ) kan worden gebruikt voor opmerkingen binnen een robot.txt-bestand, waar alles na # op die regel zal worden genegeerd. Kan worden gebruikt voor hele lijnen of voor het einde van lijnen.
    • mappen en bestandsnamen zijn hoofdlettergevoelig: “private”, “Private” en “PRIVATE” zijn allemaal uniek verschillend van zoekmachines.,

    laten we eens kijken naar een voorbeeld robots.txt-bestand. Het voorbeeld hieronder bevat:

    • De robot genaamd ” Googlebot “heeft niets niet toegestaan en kan overal naartoe gaan
    • de hele site is afgesloten voor de robot genaamd”msnbot”;
    • alle robots (behalve Googlebot) mogen de /tmp/ directory of directory ‘ s of bestanden genaamd /logs niet bezoeken, zoals uitgelegd met opmerkingen, bijvoorbeeld tmp.htm, / logs of logs.php.

    User-agent: Googlebot
    Disallow:

    User-agent: msnbot
    Disallow: /

    # Block all robots from tmp and logs directories
    User-agent: *
    Disallow: /tmp/
    Disallow: /logs # for directories and files called logs

    Wat moet er op de User-Agent-regel worden vermeld?, Een user-agent is de naam van een specifieke zoekmachinerobot. U kunt een item instellen om toe te passen op een specifieke bot (door de naam op te geven) of u kunt het instellen om toe te passen op alle bots (door een sterretje op te nemen, dat fungeert als een jokerteken). Een regel die van toepassing is op alle bots ziet er als volgt uit:

    User-Agent: *

    belangrijke robots omvatten: Googlebot( Google), Slurp (Yahoo!), msnbot (MSN), en TEOMA (Ask).,

    Houd er rekening mee dat een blok van richtlijnen die zijn gespecificeerd voor de user-agent van Googlebot zal worden opgevolgd door Googlebot; maar Googlebot zal ook niet voldoen aan de richtlijnen voor de user-agent van * (alle bots).

    Wat moet er op de Disallow-regel worden vermeld? De niet toestaan geeft een lijst van de pagina ‘ s die u wilt blokkeren. U kunt een specifieke URL of een patroon weergeven. De vermelding moet beginnen met een schuine streep (/).,

    Voorbeelden:

    • Voor het blokkeren van de hele site: Disallow: /
    • om een directory Te blokkeren en er van alles in: Disallow: /private_directory/
    • blokkeren van een pagina: Disallow: /private_file.html
    • blokkeren van een pagina en/of een eigen map met de naam: Disallow: /private

    Als u inhoud via http en https, je hebt een aparte robots.txt-bestand voor elk van deze protocollen. Als robots bijvoorbeeld alle http-pagina ’s maar geen https-pagina’ s kunnen indexeren, zou je de robots gebruiken.,txt-bestanden als volgt, voor uw http-protocol:

    User-agent: *
    Disallow:

    en voor het HTTPS-protocol:

    User-agent: *
    Disallow: /

    Bots controleren op de robots.txt-bestand elke keer dat ze naar een website komen. De regels in de robots.txt-bestand zal onmiddellijk van kracht zodra het is geüpload naar de site root en de bot komt naar de site. Hoe vaak het wordt benaderd varieert op basis van hoe vaak de bots spider de site op basis van populariteit, autoriteit, en hoe vaak inhoud wordt bijgewerkt., Sommige sites kunnen meerdere keren per dag worden gekropen, terwijl andere slechts een paar keer per week kunnen worden gekropen. Google Webmaster Central biedt een manier om te zien wanneer Googlebot voor het laatst toegang tot de robots.txt-bestand.

    Ik raad het gebruik van de robots aan.txt-analysetool in Google Webmaster Central om specifieke URL ‘ s te controleren om te zien of uw robots.txt-bestand maakt of blokkeert ze, zien of Googlebot had problemen met het ontleden van lijnen in uw robots.txt-bestand, en test wijzigingen aan uw robots.txt-bestand.,

    enkele geavanceerde technieken

    de belangrijkste zoekmachines zijn begonnen samen te werken om de functionaliteit van de robots te verbeteren.txt-bestand. Zoals hierboven vermeld, zijn er een aantal functies die zijn overgenomen door de grote zoekmachines, en niet noodzakelijkerwijs alle van de grote motoren, die zorgen voor fijnere controle over kruipen. Aangezien deze echter beperkt kunnen zijn, moet u voorzichtig zijn met het gebruik ervan.

    Crawl delay: sommige websites kunnen veel verkeer ervaren en willen de spiders van zoekmachines vertragen om meer serverbronnen toe te staan om aan de eisen van normaal verkeer te voldoen., Crawl delay is een speciale instructie die wordt herkend door Yahoo, Live Search, en Ask die een crawler instrueert over het aantal seconden dat moet worden gewacht tussen Crawl pages:

    User-agent: msnbot
    Crawl-delay: 5

    patroonafstemming: op dit moment lijkt patroonafstemming bruikbaar voor de drie majors: Google, Yahoo en Live Search. De waarde van pattern matching is aanzienlijk. Laten we eerst kijken naar de meest elementaire van patroon matching, met behulp van de asterisk jokerteken., Om toegang te blokkeren tot alle submappen die beginnen met”private”:

    User-agent: Googlebot
    Disallow: /private*/

    kunt u het einde van de tekenreeks overeenkomen met behulp van het dollarteken ($). Bijvoorbeeld, om URL ‘ s die eindigen met te blokkeren .asp:

    User-agent: Googlebot
    Disallow: /*.asp$

    In tegenstelling tot de meer geavanceerde pattern matching gevonden in reguliere expressies in Perl en elders, heeft het vraagteken geen speciale bevoegdheden. Dus, om de toegang tot alle URL ‘ s die een vraagteken bevatten blokkeren (?,), gebruik gewoon het vraagteken (het hoeft niet te” ontsnappen ” of vooraf te gaan met een backslash):

    User-agent: *
    Disallow: /*?*

    om te voorkomen dat robots alle bestanden van een specifiek bestandstype crawlen (bijvoorbeeld.gif):

    User-agent: *
    Disallow: /*.gif$

    Hier is een ingewikkelder voorbeeld. Laten we zeggen dat uw site gebruikt de query string deel van de URL ‘ s (wat volgt de “?”) uitsluitend voor sessie-id ‘s, en u wilt alle URL’ s die de dynamische parameter bevatten uitsluiten om ervoor te zorgen dat de bots geen dubbele pagina ‘ s crawlen. Maar u kunt ook URL ‘ s die eindigen met een “?”., Hier is hoe je dat zou bereiken:

    User-agent: Slurp
    Disallow: /*? # block any URL that includes a ?
    Allow: /*?$ # allow any URL that ends in a ?

    Allow directive: op dit moment lijkt de Allow directive alleen ondersteund te worden door Google, Yahoo en Ask. Net zoals het klinkt, het werkt het tegenovergestelde van de Disallow richtlijn en biedt de mogelijkheid om specifiek roepen directory ’s of pagina’ s die kunnen worden gekropen. Dit kan gunstig zijn na grote delen of de hele site is niet toegestaan.,

    om Googlebot alleen in de “google” directory toe te staan:

    User-agent: Googlebot
    Disallow: /
    Allow: /google/

    Noindex directive: zoals hierboven vermeld, biedt deze directive voordelen bij het elimineren van titelloze vermeldingen zonder snipperfragmenten uit de zoekresultaten, maar het is beperkt tot Google. De syntaxis precies spiegels verbieden. In de woorden van Matt Cutts:

    “Google staat een noindex richtlijn in robots.txt en het zal volledig verwijderen van alle bijpassende Site URL ‘ s van Google., (Dat gedrag kan veranderen op basis van deze beleidsdiscussie, natuurlijk, daarom hebben we er niet veel over gesproken.) “

    Sitemap: een XML sitemap bestand kan zoekmachines vertellen over alle pagina ’s op uw site, en optioneel, om informatie te geven over die pagina’ s, zoals welke het belangrijkst zijn en hoe vaak ze veranderen. Het fungeert als een auto-discovery mechanisme voor de spider om de XML sitemap bestand te vinden. U kunt Google en andere zoekmachines over uw Sitemap vertellen door de volgende regel aan uw robots toe te voegen.,txt-bestand:

    Sitemap: sitemap_location

    De sitemap_locatie moet de volledige URL naar de Sitemap zijn, zoals: http://www.example.com/sitemap.xml. Deze instructie is onafhankelijk van de user-agent regel, dus het maakt niet uit waar je het in je bestand plaatst. Alle grote zoekmachines ondersteunen het Auto-Discovery Sitemap-protocol, waaronder Google, Yahoo, Live Search en Ask.

    terwijl auto-discovery een manier biedt om zoekmachines te informeren over de sitemap.,xml-bestand, het is ook de moeite waard te controleren en het indienen van sitemaps rechtstreeks naar de zoekmachines via elk van hun webmaster consoles (Google Webmaster Central, Yahoo Site Explorer, Live Search Webmaster Center).

    meer over Google ‘ s bots

    Google gebruikt verschillende bots (user-agents). De bot voor web search is Googlebot. Google ‘ s andere bots volgen de regels die u hebt ingesteld voor Googlebot, maar u kunt ook aanvullende regels instellen voor deze specifieke bots. Het blokkeren van Googlebot blokkeert alle bots die beginnen met”Googlebot”.,li>Googlebot-Mobile: crawls pages for mobile index

  • Googlebot-Image: crawls pages for image index
  • Mediapartners-Google: crawls pages to determinate AdSense content, only crawls sites if show AdSense ads
  • Adsbot-Google: crawls to measure AdWords landing page quality, only crawls sites that use Google AdWords to advertising
  • U kunt Googlebot volledig blokkeren met behulp van:

    User-agent: Googlebot
    Disallow: /

    u kunt Googlebot toestaan, maar Toegang tot alle andere Bots blokkeren:

    User-agent: *
    Disallow: /

    User-agent: Googlebot
    Disallow:

    problemen met robots.,txt

    pagina ‘ s die u blokkeert met robots.txt verbiedt kan nog steeds in Google ‘ s index en worden weergegeven in de zoekresultaten-vooral als andere sites link naar hen. Toegegeven, een hoge ranking is vrij onwaarschijnlijk omdat Google niet kan “zien” de pagina-inhoud; het heeft heel weinig te gaan op andere dan de ankertekst van inkomende en interne links, en de URL (en de ODP titel en beschrijving als in ODP/DMOZ. Als gevolg hiervan kan de URL van de pagina en, mogelijk, andere openbaar beschikbare informatie worden weergegeven in de zoekresultaten. Echter, geen inhoud van uw pagina ‘ s zal worden gekropen, geïndexeerd of weergegeven.,

    om te voorkomen dat een pagina wordt toegevoegd aan de index van een zoekmachine, zelfs als er andere sites naar linken, gebruik dan een “noindex” robots meta tag en zorg ervoor dat de pagina niet wordt verboden in robots.txt. Wanneer spiders de pagina crawlen, zal het de “noindex” meta tag herkennen en de URL uit de index laten vallen.

    Robots.txt en robots meta tag conflicten

    als de robots.txt bestand en robots meta tag instructies voor een pagina conflict, bots volgen de meest restrictieve. Meer specifiek:

    • Als u een pagina met robots blokkeert.,txt, bots zal nooit kruipen de pagina en zal nooit lezen robots meta tags op de pagina.
    • Als u een pagina met robots toestaat.txt maar blokkeren wordt geïndexeerd met behulp van een robots meta tag, Googlebot zal toegang krijgen tot de pagina, lees de meta tag, en vervolgens niet indexeren.

    terwijl robots.txt-bestanden zijn om de inhoud op een site te beschermen tegen wordt geïndexeerd, met inbegrip van een robots.txt-bestand ongeacht wordt aanbevolen als veel robotprocessen zoeken naar hen en het aanbieden van men kan alleen versnellen hun procedures. Samen, robots.,meta-tags van TXT en robots geven u de flexibiliteit om complex toegangsbeleid relatief eenvoudig uit te drukken:

    • het verwijderen van een hele website of een deel van een website.
    • vermijden van indexering van afbeeldingen in Google Image Search en andere image engines.
    • vermijden van indexering van dubbele inhoud op een site.
    • het verwijderen van afzonderlijke pagina ‘ s op een site met behulp van een robots meta tag.
    • het verwijderen van kopieën en knipsels in de cache met behulp van een robots meta-tag.

    beide robots.txt en robots meta tag vertrouwen op de samenwerking van de robots, en zijn geenszins gegarandeerd om te werken voor elke robot., Als u een sterkere bescherming tegen robots en andere agenten nodig hebt, moet u alternatieve methoden gebruiken, zoals wachtwoordbeveiliging.

    Meld u aan voor onze dagelijkse samenvattingen van het steeds veranderende search marketing landschap.

    opmerking: door dit formulier in te dienen, gaat u akkoord met de voorwaarden van Third Door Media. Wij respecteren uw privacy.,

    over de auteur

    Stephan Spencer

    Stephan Spencer is de maker van het 3-daagse meeslepende SEO-seminar Traffic Control; een auteur van de O ‘ Reilly-boeken The Art of SEO, Google Power Search, and Social eCommerce; oprichter van het SEO-Agentschap Netconcepts (verworven in 2010); uitvinder van de SEO proxy technologie gravitystream; en de gastheer van twee podcast shows get yourself geoptimaliseerd en marketing spreken.


    Geef een reactie

    Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *