En djupare titt på robotar.Txt

0 Comments

registrera dig för våra dagliga återblickar av det ständigt föränderliga sökmarknadsföringslandskapet.

Obs! Genom att skicka in detta formulär godkänner Du tredje dörr Media villkor. Vi respekterar din integritet.

Stephan Spencer April 16, 2009 vid 8:00 am

  • kategorier:allt SEO kolumn, kanal: SEO, hur: SEO, SEO: genomsökning och robotar
  • Robots Exclusion Protocol (REP) är inte precis en komplicerad protokoll och dess användningsområden är ganska begränsad, och därför är det oftast ges kort shrift av SEOs., Men det är mycket mer än du tror. Robot.txt har varit med oss i över 14 år, men hur många av oss visste att förutom det otillåtna direktivet finns det ett noindex-direktiv som Googlebot lyder? Att noindexed-sidor inte hamnar i indexet men otillåtna sidor gör det, och det senare kan dyka upp i sökresultaten (om än med mindre information eftersom spindlarna inte kan se sidinnehållet)? Att otillåtna sidor fortfarande ackumuleras PageRank? Robotarna.txt kan acceptera en begränsad form av mönstermatchning?, Det, på grund av den senaste funktionen, Du kan selektivt inte bara kataloger utan även särskilda filtyper (väl, filtillägg vara mer exakt)? Det är en robot.txt disallowed page kan inte nås av spindlarna, så de kan inte läsa och lyda en meta robots-tagg som finns på sidan?

    a robotar.txt-filen ger kritisk information för sökmotorspindlar som genomsöker webben. Innan dessa robotar (säger någon hela ordet ”robotar” längre?) åtkomstsidor på en Webbplats kontrollerar de för att se om en robotar.txt-filen finns., Att göra det gör att krypa webben effektivare, eftersom robotarna.txt-filen håller bots från att komma åt vissa sidor som inte bör indexeras av sökmotorerna.

    med robotar.txt-filen är en bästa praxis. Även bara av den enkla anledningen att vissa mätvärden program kommer att tolka 404 svar på begäran om en saknad robotar.txt-fil som ett fel, vilket kan leda till felaktig resultatrapportering. Men vad som händer i robotarna.txt-filen? Det är kärnan i det.

    båda robotarna.,txt och robotar metataggar är beroende av samarbete från robotarna, och är ingalunda garanterat att fungera för varje bot. Om du behöver starkare skydd mot skrupelfria robotar och andra agenter, bör du använda alternativa metoder som lösenordsskydd. Alltför många gånger har jag sett webmasters naivt placera känsliga webbadresser såsom administrativa områden i robotar.txt. Bäst att du tror på robotar.txt är en av hackarens första anropshamnar—för att se var de ska bryta sig in.

    robotar.,txt fungerar bra för:

    • spärra sökrobotar från icke-offentliga delar av din webbplats
    • spärra sökmotorer från att försöka indexera skript, verktyg eller andra typer av kod
    • undvika indexering av dubbletter på en webbplats, till exempel ”Skriv ut” versioner av html-sidor
    • automatisk upptäckt av XML-webbplatskartor

    med risk för att vara kapten uppenbar, robotarna.txt-filen måste finnas i domänens rot och måste namnges ”robotar.txt ” (alla små bokstäver). Robot.,txt-fil som finns i en underkatalog är inte giltig, eftersom bots bara kontrollerar den här filen i domänens rot.

    skapa en robot.txt-filen är lätt. Du kan skapa en robotar.txt-fil i någon textredigerare. Det ska vara en ASCII-kodad textfil, inte en HTML-fil.

    robotar.txt syntax

    • användaragent: roboten följande regel gäller för (t.ex. ”Googlebot” etc.)
    • Tillåt: sidorna du vill blockera bots från att komma åt (så många tillåter inte rader som behövs)
    • Noindex: sidorna du vill att en sökmotor ska blockera och inte indexera (eller de-index om det tidigare indexerats)., Inofficiellt stöds av Google; stöds inte av Yahoo och Live Search.
    • varje User-Agent / Disallow-grupp ska separeras med en tom rad; men inga tomma rader ska finnas inom en grupp (mellan User-agent-linjen och den sista otillåtna).
    • hash-symbolen (#) kan användas för kommentarer inom en robot.txt-fil, där allt efter # på den raden kommer att ignoreras. Kan användas antingen för hela linjer eller slutet av linjer.
    • kataloger och filnamn är skiftlägeskänsliga: ”privat”, ”privat” och ”privat” skiljer sig alla Unikt från sökmotorer.,

    låt oss titta på ett exempel robotar.txt-filen. Exemplet nedan innehåller:

    • roboten som heter ”Googlebot” har inget otillåtet och kan gå någonstans
    • hela webbplatsen är stängd för roboten som heter ”msnbot”;
    • alla robotar (andra än Googlebot) bör inte besöka/ tmp /katalogen eller kataloger eller filer som heter / loggar, vilket förklaras med kommentarer, t.ex. tmp.htm, /loggar eller loggar.php.

    User-agent: Googlebot
    Disallow:

    User-agent: msnbot
    Disallow: /

    # Block all robots from tmp and logs directories
    User-agent: *
    Disallow: /tmp/
    Disallow: /logs # for directories and files called logs

    vad ska listas på User-Agent-linjen?, En användaragent är namnet på en specifik sökmotorrobot. Du kan ställa in en post att gälla för en specifik bot (genom att ange namnet) eller så kan du ställa in den att gälla för alla bots (genom att lista en asterisk, som fungerar som ett jokertecken). En post som gäller för alla robotar ser ut så här:

    User-Agent: *

    stora robotar inkluderar: Googlebot (Google), Slurp (Yahoo!), msnbot (MSN), och TEOMA (Be).,

    tänk på att ett block av direktiv som specificeras för Googlebots användaragent kommer att lydas av Googlebot; men Googlebot kommer inte heller att följa direktiven för användaragenten för * (alla bots).

    vad ska listas på den otillåtna linjen? Disallow listar de sidor du vill blockera. Du kan lista en specifik URL eller ett mönster. Posten bör börja med en framåt snedstreck ( / ).,

    exempel:

    • för att blockera hela webbplatsen: Disallow: /
    • för att blockera en katalog och allt i det: Disallow: /private_directory/
    • för att blockera en sida: Disallow: /private_file.html
    • för att blockera en sida och/eller en katalog som heter Privat: Disallow: /private

    om du serverar innehåll via både HTTP och HTTPS behöver du en separat robotar.txt-fil för vart och ett av dessa protokoll. Till exempel, för att tillåta robotar att indexera alla http-sidor men inga https-sidor, skulle du använda robotarna.,txt-filer enligt följande, för ditt http-protokoll:

    User-agent: *
    Disallow:

    och för https-protokollet:

    User-agent: *
    Disallow: /

    Bots kontrollerar robotarna.txt-filen varje gång de kommer till en webbplats. Reglerna i robotarna.txt-filen kommer att träda i kraft omedelbart när den laddas upp till webbplatsens rot och bot kommer till webbplatsen. Hur ofta det nås varierar på hur ofta bots spindeln webbplatsen baserat på popularitet, auktoritet, och hur ofta innehållet uppdateras., Vissa webbplatser kan genomsökas flera gånger om dagen medan andra bara kan genomsökas några gånger i veckan. Google Webmaster Central ger ett sätt att se när Googlebot senast kom åt robotarna.txt-filen.

    Jag rekommenderar att du använder robotarna.txt analysverktyg i Google Webmaster Central för att kontrollera specifika webbadresser för att se om dina robotar.txt-fil tillåter eller blockerar dem, se om Googlebot hade problem med att analysera några rader i dina robotar.txt-fil, och testa ändringar i dina robotar.txt-filen.,

    vissa avancerade tekniker

    de stora sökmotorerna har börjat arbeta tillsammans för att främja robotarnas funktionalitet.txt-filen. Som nämnts ovan finns det vissa funktioner som har antagits av de stora sökmotorerna, och inte nödvändigtvis alla de stora motorerna, som ger finare kontroll över krypning. Eftersom dessa kan vara begränsade, var försiktig vid användningen.

    Genomsökningsfördröjning: vissa webbplatser kan uppleva stora mängder trafik och vill sakta ner sökmotorspindlarna för att möjliggöra fler serverresurser för att möta kraven från vanlig trafik., Genomsökningsfördröjning är ett specialdirektiv som erkänts av Yahoo, Live Search och som instruerar en sökrobot om antalet sekunder att vänta mellan genomsökningssidor:

    User-agent: msnbot
    Crawl-delay: 5

    mönstermatchning: vid denna tidpunkt verkar mönstermatchning vara användbar av de tre majors: Google, Yahoo och Live Search. Värdet av mönstermatchning är betydande. Låt oss först titta på den mest grundläggande av mönstermatchning, med hjälp av asterisk jokertecken., För att blockera åtkomst till alla underkataloger som börjar med ”private”:

    User-agent: Googlebot
    Disallow: /private*/

    Du kan matcha slutet av strängen med dollartecknet ($). Till exempel, för att blockera webbadresser som slutar med .asp:

    User-agent: Googlebot
    Disallow: /*.asp$

    till skillnad från den mer avancerade mönstermatchningen som finns i reguljära uttryck i Perl och på andra ställen har frågetecknet inga särskilda befogenheter. Så, för att blockera åtkomst till alla webbadresser som innehåller ett frågetecken (?,), använd helt enkelt frågetecknet (du behöver inte ”fly” det eller föregå det med ett bakslag):

    User-agent: *
    Disallow: /*?*

    för att blockera robotar från att genomsöka alla filer av en viss filtyp (till exempel .gif):

    User-agent: *
    Disallow: /*.gif$

    här är ett mer komplicerat exempel. Låt oss säga att din webbplats använder frågesträngen del av webbadresserna (vad följer ”?”) enbart för sessions-ID och du vill utesluta alla webbadresser som innehåller den dynamiska parametern för att säkerställa att bots inte genomsöker dubbletter av sidor. Men du kanske vill inkludera några webbadresser som slutar med en”?”., Så här skulle du uppnå det:

    User-agent: Slurp
    Disallow: /*? # block any URL that includes a ?
    Allow: /*?$ # allow any URL that ends in a ?

    Tillåt direktiv: vid denna tidpunkt verkar Tillåt direktivet endast stödjas av Google, Yahoo och fråga. Precis som det låter fungerar det motsatsen till det otillåtna direktivet och ger möjlighet att specifikt ringa ut kataloger eller sidor som kan genomsökas. Detta kan vara fördelaktigt efter stora sektioner eller hela webbplatsen har blivit otillåtet.,

    För att tillåta Googlebot i endast” google ”- katalogen:

    User-agent: Googlebot
    Disallow: /
    Allow: /google/

    noindex-direktivet: som nämnts ovan erbjuder detta direktiv fördelar med att eliminera titellösa listor från sökresultaten, men det är begränsat till Google. Dess syntax speglar exakt inte tillåta. För att citera Matt Cutts:

    ”Google tillåter ett noindex-direktiv i robotar.txt och det kommer helt ta bort alla matchande webbplats webbadresser från Google., (Det beteendet kan förändras baserat på denna policydiskussion, det är därför vi inte har pratat om det mycket.)”

    webbplatskarta: en XML-webbplatskarta kan berätta sökmotorer om alla sidor på din webbplats, och eventuellt, för att ge information om dessa sidor, till exempel vilka är viktigast och hur ofta de ändras. Det fungerar som en automatisk upptäckt mekanism för spindeln att hitta XML sitemap-filen. Du kan berätta för Google och andra sökmotorer om din webbplatskarta genom att lägga till följande rad i dina robotar.,txt-fil:

    Sitemap: sitemap_location

    webbplatskartan ska vara den fullständiga webbadressen till webbplatskartan, till exempel: http://www.example.com/sitemap.xml. Detta direktiv är oberoende av user-agent-linjen, så det spelar ingen roll var du placerar den i din fil. Alla större sökmotorer stöder auto-Discovery Sitemap-protokollet, inklusive Google, Yahoo, Live Search och Ask.

    medan auto-discovery ger ett sätt att informera sökmotorer om webbplatskartan.,xml-fil, det är också värt att verifiera och skicka webbplatskartor direkt till sökmotorerna via var och en av deras webmaster-konsoler (Google Webmaster Central, Yahoo Site Explorer, Live Search Webmaster Center).

    mer om Googles bots

    Google använder flera olika bots (användaragenter). Bot för webbsökning är Googlebot. Googles andra bots följer regler Du ställer in för Googlebot, men du kan också ställa in ytterligare regler för dessa specifika bots. Blockering Googlebot blockerar alla bots som börjar med ”Googlebot”.,li>Googlebot-Mobile: genomsöker sidor för mobilindex

  • Googlebot-Image: genomsöker sidor för bildindex
  • Mediapartners-Google: genomsöker sidor för att bestämma AdSense-innehåll, bara genomsöker webbplatser om Visa AdSense-annonser
  • Adsbot-Google: genomsöker för att mäta AdWords-målsidans kvalitet, endast genomsöker webbplatser som använder Google AdWords för att annonsera
  • Du kan blockera Googlebot helt genom att använda:

    User-agent: Googlebot
    Disallow: /

    Du kan tillåta Googlebot, men blockera åtkomst till alla andra Bots:

    User-agent: *
    Disallow: /

    User-agent: Googlebot
    Disallow:

    problem med robotar.,txt

    sidor du blockerar med hjälp av robotar.txt disallows kan fortfarande vara i Googles index och visas i sökresultaten-särskilt om andra webbplatser länkar till dem. Beviljas, en hög ranking är ganska osannolikt eftersom Google inte kan ” se ” sidinnehållet; det har mycket lite att gå på annat än ankartexten för inkommande och interna länkar, och webbadressen (och ODP-titeln och beskrivningen om i ODP/DMOZ.) Som ett resultat kan webbadressen till sidan och eventuellt annan offentligt tillgänglig information visas i sökresultaten. Inget innehåll från dina sidor kommer dock att genomsökas, indexeras eller visas.,

    för att helt förhindra att en sida läggs till i en sökmotors index även om andra webbplatser länkar till den, använd en ”noindex” robots metatagg och se till att sidan inte är otillåten i robotar.txt. När spindlar genomsöker sidan kommer den att känna igen metataggen ”noindex” och släppa webbadressen från indexet.

    robotar.txt och robotar metatagg konflikter

    om robotarna.txt-fil och robotar metatagg instruktioner för en sidkonflikt, bots följer de mest restriktiva. Mer specifikt:

    • Om du blockerar en sida med robotar.,txt, bots kommer aldrig att krypa på sidan och kommer aldrig att läsa några robotar metataggar på sidan.
    • Om du tillåter en sida med robotar.txt men blockera den från att indexeras med en robots metatagg, Googlebot kommer att komma åt sidan, läsa metataggen, och därefter inte indexera den.

    medan robotar.txt-filer är att skydda innehåll på en webbplats från att indexeras, inklusive en robotar.txt-fil oavsett rekommenderas så många Robot processer leta efter dem och erbjuder man kan bara påskynda sina förfaranden. Tillsammans robotar.,txt och robots metataggar ger dig flexibilitet att uttrycka komplexa Åtkomstpolicyer relativt enkelt:

    • ta bort en hel webbplats eller en del av en webbplats.
    • undvika indexering av bilder i Google Bildsökning och andra bildmotorer.
    • undvika indexering av dubbletter på en webbplats.
    • ta bort enskilda sidor på en webbplats med en robots metatagg.
    • ta bort cachade kopior och utdrag med en robots metatagg.

    båda robotarna.txt och robotar meta tag är beroende av samarbete från robotarna, och är ingalunda garanterat att fungera för varje robot., Om du behöver starkare skydd mot robotar och andra agenter, bör du använda alternativa metoder som lösenordsskydd.

    registrera dig för våra dagliga återblickar av det ständigt föränderliga sökmarknadsföringslandskapet.

    Obs! Genom att skicka in detta formulär godkänner Du tredje dörr Media villkor. Vi respekterar din integritet.,

    om författaren

    Stephan Spencer

    Stephan Spencer är skaparen av 3-dagars uppslukande SEO seminarium trafikkontroll; en författare till O ’ Reilly böcker konsten att SEO, Google Power Search, och Social e-handel; grundare av SEO byrån Netconcepts (förvärvad 2010); uppfinnare av SEO proxy technology GravityStream; och värd för två podcast visar få dig optimerad och marknadsföring tala.


    Lämna ett svar

    Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *