et dybere kig på robotter.t Signt

0 Comments

Tilmeld dig vores daglige resumeer af det stadigt skiftende søgemarkedsføringslandskab.Bemærk: ved at indsende denne formular, accepterer du Third Door Media ” s vilkår. Vi respekterer dit privatliv.

Stephan Spencer on April 16, 2009 at 8:00 am

  • Kategorier:Alt andet SEO Kolonne, Kanal: SEO, Hvordan man: SEO, SEO: Gennemgang og Robotter
  • Robots Exclusion Protocol (REP) er ikke ligefrem en kompliceret protokol og dens anvendelser er forholdsvis begrænset, og dermed er det normalt gives kort proces af Firmaer., Men der er meget mere ved det, end du måske tror. Robot.txt har været med os i over 14 år, men hvor mange af os vidste, at ud over at annullere direktivet, der er et noindex-direktiv, som Googlebot adlyder? At noinde ?ed sider ikke ender i indekset, men ikke tilladte sider gør, og sidstnævnte kan dukke op i søgeresultaterne (omend med mindre information, da edderkopperne ikke kan se sidens indhold)? At tilladte sider stadig akkumulere PageRank? Robotterne.t ?t kan acceptere en begrænset form for mønster matching?, At du på grund af den sidste funktion selektivt kan afvise ikke kun mapper, men også bestemte filtyper (godt, filtypenavne for at være mere præcise)? Det er robotter.t ?t ikke tilladt side kan ikke tilgås af edderkopper, så de kan ikke læse og adlyde en meta robotter tag indeholdt i siden?

    a robotter.t .t-fil indeholder kritiske oplysninger for søgemaskine edderkopper, der kravler på nettet. Før disse bots (siger nogen det fulde ord” robotter ” længere?) adgang sider af et siteebsted, de kontrollere, om en robotter.t .t-fil findes., Dermed gør kravle på nettet mere effektiv, fordi robotterne.t .t-fil holder bots fra at få adgang til bestemte sider, der ikke bør indekseres af søgemaskinerne.

    at have en robotter.t .t-fil er en bedste praksis. Selv bare af den simple grund, at nogle målinger programmer vil fortolke 404 svar på anmodningen om en manglende robotter.t .t-fil som en fejl, hvilket kan resultere i fejlagtig præstationsrapportering. Men hvad går der i de robotter.t filet-fil? Det er kernen i det.

    begge robotter.,t .t og robotter meta tags er afhængige af samarbejde fra robotterne, og er på ingen måde garanteret at arbejde for hver bot. Hvis du har brug for stærkere beskyttelse mod skrupelløse robotter og andre agenter, skal du bruge alternative metoder såsom adgangskodebeskyttelse. For mange gange har jeg set sensitiveebmastere naivt placere følsomme Urebadresser såsom administrative områder i robotter.t .t. Du må hellere tro på robotter.t .t er en af hackerens første anløbshavne—for at se, hvor de skal bryde ind.

    robotter.,txt fungerer godt for:

    • Spærring af crawlers fra ikke-offentlige dele af din hjemmeside
    • Spærring af søgemaskiner fra at forsøge at indekset scripts, værktøjer eller andre typer af kode
    • Undgå indeksering af duplicate content på et website, som “print” – versioner af html-sider
    • Auto-discovery af XML Sitemaps

    På risikoen for at blive Kaptajn Indlysende, at robotter.t .t-fil skal opholde sig i roden af domænet og skal hedde “robotter.t “t” (alle små bogstaver). Robot.,t .t-fil placeret i en undermappe er ikke gyldig, da bots kun tjekker for denne fil i roden af domænet.

    oprettelse af robotter.t .t-fil er let. Du kan oprette en robotter.t .t-fil i enhver teksteditor. Det skal være en ASCII-kodet tekstfil, ikke en html-fil.

    robotter.t .t syntaks

    • User-Agent: robotten følgende regel gælder for (f.eks. “Googlebot” osv.)
    • Disallo.: de sider, du vil blokere bots fra adgang (så mange disallo. linjer som nødvendigt)
    • Noinde.: de sider, du vil have en søgemaskine til at blokere og ikke indeks (eller de-indeks, hvis tidligere indekseret)., Uofficielt understøttet af Google; understøttes ikke af Yahoo og Live Search.
    • hver User-Agent/Disallo.-gruppe skal adskilles med en tom linje; der bør dog ikke findes tomme linjer inden for en gruppe (mellem User-agent-linjen og den sidste Disallo.).
    • hash-symbolet ( # ) kan bruges til kommentarer i en robot.t .t-fil, hvor alt efter # på denne linje vil blive ignoreret. Kan anvendes enten for hele linjer eller slutningen af linjer.
    • mapper og filnavne er store og små bogstaver: “privat”, “privat” og “privat” er alle entydigt forskellige fra søgemaskiner.,

    lad os se på et eksempel robotter.t filet-fil. Eksemplet nedenfor indeholder:

    • robotten kaldet “Googlebot” har intet ikke tilladt, og kan gå hvor som helst
    • hele området er lukket for robot kaldet “msnbot”;
    • Alle robotter (andre end Googlebot) bør ikke besøge /tmp/ bibliotek eller mapper eller filer, der kaldes /logs, som forklares med kommentarer, fx, tmp.htm, / logs eller logs.php.

    User-agent: Googlebot
    Disallow:

    User-agent: msnbot
    Disallow: /

    # Block all robots from tmp and logs directories
    User-agent: *
    Disallow: /tmp/
    Disallow: /logs # for directories and files called logs

    Hvad skal være opført på User-Agent linje?, En bruger-agent er navnet på en bestemt søgemaskine robot. Du kan indstille en post, der skal gælde for en bestemt bot (ved at angive navnet), eller du kan indstille den til at gælde for alle bots (ved at angive en stjerne, der fungerer som et wildildcard). En post, der gælder for alle bots, ser sådan ud:

    User-Agent: *

    større robotter inkluderer: Googlebot (Google), Slurp (Yahoo!), msnbot (MSN) og TEOMA (spørg).,

    Husk, at en blok af direktiver, der er specificeret for brugeragenten af Googlebot, vil blive overholdt af Googlebot; men Googlebot vil ikke også overholde direktiverne for brugeragenten af * (alle bots).

    Hvad skal der vises på Disallo? – linjen? Disallo.viser de sider, du vil blokere. Du kan angive en bestemt URL eller et mønster. Indgangen skal begynde med en skråstreg (/).,

    Eksempler:

    • til At blokere for hele ejendommen: Disallow: /
    • for At blokere en mappe og alt i det: Disallow: /private_directory/
    • til At blokere en side: Disallow: /private_file.html
    • til At blokere en side, og/eller en mappe med navnet private: Disallow: /private

    Hvis du levere indhold via både http og https, vil du behøver en separat robotter.t .t-fil for hver af disse protokoller. For at tillade robotter at indeksere alle http-sider, men ingen HTTPS-sider, ville du bruge robotterne.,txt-filer som følger, for din http-protokol:

    User-agent: *
    Disallow:

    Og for https-protokollen:

    User-agent: *
    Disallow: /

    Bots ind for robotter.t .t-fil hver gang de kommer til et websiteebsted. Reglerne i robotterne.t .t-filen træder i kraft straks, når den er uploadet til siteebstedets rod, og botten kommer til theebstedet. Hvor ofte det er adgang varierer på, hvor ofte bots spider theebstedet baseret på popularitet, autoritet, og hvor ofte indhold opdateres., Nogle steder kan gennemsøges flere gange om dagen, mens andre kun gennemsøges et par gange om ugen. Google Centralebmaster Central giver en måde at se, hvornår Googlebot sidst fik adgang til robotterne.t filet-fil.

    Jeg vil anbefale at bruge robotterne.t .t analyseværktøj i Google Centralebmaster Central til at kontrollere bestemte Urebadresser for at se, om dine robotter.t .t-fil tillader eller blokerer dem, se om Googlebot havde problemer med at analysere nogen linjer i dine robotter.t .t-fil, og test ændringer på dine robotter.t filet-fil.,

    nogle avancerede teknikker

    de store søgemaskiner er begyndt at arbejde sammen for at fremme robotternes funktionalitet.t filet-fil. Som nævnt ovenfor er der nogle funktioner, der er blevet vedtaget af de store søgemaskiner, og ikke nødvendigvis alle de store motorer, der giver finere kontrol over gennemsøgning. Da disse kan være begrænset selv, skal udvise forsigtighed i deres brug.Krybningsforsinkelse: nogle websebsteder kan opleve store mængder trafik og vil gerne bremse søgemaskinespiders ned for at give flere serverressourcer mulighed for at imødekomme kravene fra regelmæssig trafik., Crawl-delay er et særligt direktiv, der er anerkendt af Yahoo, Live Search, og Bede om at få pålægger en crawler på antallet af sekunder mellem at gennemgå sider:

    User-agent: msnbot
    Crawl-delay: 5

    Mønster matcher: På dette tidspunkt, pattern matching ser ud til at være anvendelige som de tre store selskaber: Google, Yahoo og Live Search. Værdien af mønster matching er betydelig. Lad os se først på de mest grundlæggende af mønster matching, ved hjælp af asterisk wildildcard karakter., For at blokere adgangen til alle undermapper, der begynder med “privat”:

    User-agent: Googlebot
    Disallow: /private*/

    Du kan matche slutningen af strengen ved hjælp af dollartegnet ($). For eksempel for at blokere Urebadresser, der slutter med .asp:

    User-agent: Googlebot
    Disallow: /*.asp$

    i modsætning til den mere avancerede mønstertilpasning, der findes i regulære udtryk i Perl og andre steder, har spørgsmålstegnet ikke særlige beføjelser. Så for at blokere adgangen til alle Urebadresser, der indeholder et spørgsmålstegn (?,”undslippe” det eller gå forud for det med et tilbageslag):

    User-agent: *
    Disallow: /*?*

    for at blokere robotter fra at gennemgå alle filer af en bestemt filtype (for eksempel .gif):

    User-agent: *
    Disallow: /*.gif$

    Her er et mere kompliceret eksempel. Lad os sige, at dit siteebsted bruger forespørgselsstrengdelen af URL ‘erne (hvad følger “?”) udelukkende til sessions-id ‘ er, og du vil ekskludere alle Urebadresser, der indeholder den dynamiske parameter for at sikre, at bots ikke gennemgår duplikatsider. Men du ønsker måske at inkludere eventuelle Urebadresser, der slutter med en “?”., Sådan opnår du det:

    User-agent: Slurp
    Disallow: /*? # block any URL that includes a ?
    Allow: /*?$ # allow any URL that ends in a ?

    Tillad direktiv: på dette tidspunkt synes Tilladelsesdirektivet kun at blive understøttet af Google, Yahoo og Ask. Ligesom det lyder, fungerer det modsat af Disallo. – direktivet og giver mulighed for specifikt at kalde mapper eller sider, der kan gennemsøges. Dette kan være gavnligt efter store sektioner eller hele siteebstedet er blevet afvist.,

    for At tillade, at Googlebot kun at “google” directory:

    User-agent: Googlebot
    Disallow: /
    Allow: /google/

    Noindex-direktiv: Som nævnt ovenfor, er dette direktiv, giver fordele i at fjerne snippetless titel-mindre lister fra søgeresultaterne, men det er begrænset til Google. Dens syntaks præcis spejle afvise. Med ordene fra Matt Cutts:

    “Google tillader et NOINDEX-direktiv i robotter.t andt og det vil helt fjerne alle matchende Urebsted URL ‘ er fra Google., (Denne adfærd kan ændre sig baseret på denne politiske diskussion, selvfølgelig, hvorfor vi ikke har talt meget om det.) “

    Sitemap: en sitml-sitemap-fil kan fortælle søgemaskiner om alle siderne på dit siteebsted og eventuelt give oplysninger om disse sider, som f.eks. hvilke der er vigtigst, og hvor ofte de ændres. Det fungerer som en auto-opdagelse mekanisme for edderkoppen at finde fileml sitemap-fil. Du kan fortælle Google og andre søgemaskiner om dit Sitemap ved at tilføje følgende linje til dine robotter.,txt-fil:

    Sitemap: sitemap_location

    sitemap_location skal være komplet URL til Sitemap, som for eksempel: http://www.example.com/sitemap.xml. Dette direktiv er uafhængigt af User-agent-linjen, så det betyder ikke noget, hvor du placerer det i din fil. Alle større søgemaskiner understøtter sitemap-protokollen til automatisk opdagelse, herunder Google, Yahoo, Live Search og Ask.

    mens auto-discovery giver en måde at informere søgemaskiner om sitemap.,xml-fil, er det også umagen værd, kontrol og indsendelse af sitemaps direkte til søgemaskinerne gennem hver af deres webmaster konsoller (Google Webmaster Central, Yahoo Site Explorer, Live Search Webmaster Center).

    mere om Googles bots

    Google bruger flere forskellige bots (user-agents). Bot til webebsøgning er Googlebot. Googles andre bots følger regler, du opretter for Googlebot, men du kan også oprette yderligere regler for disse specifikke bots. Blokering af Googlebot blokerer alle bots, der begynder med “Googlebot”.,li>Googlebot-Mobile: gennemgår sider til mobile index

  • Googlebot-Image: gennemgår sider for billede-indekset
  • Mediapartners-Google: gennemgår sider til at bestemme AdSense til indhold, kun kravler steder, hvis det viser AdSense-annoncer
  • Adsbot-Google: kravler at måle AdWords landing page kvalitet, blot gennemgår websteder, der bruger Google AdWords til at reklamere
  • Du kan blokere Googlebot fuldstændigt ved hjælp af:

    User-agent: Googlebot
    Disallow: /

    Du kan tillade, at Googlebot, men kan blokere adgang til alle andre bots:

    User-agent: *
    Disallow: /

    User-agent: Googlebot
    Disallow:

    Problemer med robotter.,t Pagest

    sider, du blokerer ved hjælp af robotter.txt lukker helt af, kan stadig være i Googles indeks og vises i søgeresultaterne — især hvis andre websites linker til dem. Indrømmet, en høj placering, er temmelig usandsynligt, da Google ikke kan “se” sidens indhold; det har meget lidt at gå på andet end selve teksten af indgående og interne links og URL ‘ en (og ODP titel og beskrivelse hvis du er i ODP/DMOZ.) Som et resultat kan URLEBADRESSEN på siden og potentielt andre offentligt tilgængelige oplysninger vises i søgeresultaterne. Intet indhold fra dine sider vil dog blive gennemgået, indekseret eller vist.,

    for helt at forhindre, at en side føjes til en søgemaskins indeks, selvom andre sitesebsteder linker til det, skal du bruge et “noinde.” robots metatag og sikre, at siden ikke er tilladt i robotter.t .t. Når edderkopper gennemsøger siden, genkender den metatagget “noinde.” og slipper URL ‘ en fra indekset.

    robotter.t andt og robotter meta tag konflikter

    hvis robotterne.t .t-fil og robotter metatag instruktioner til en side konflikt, bots følge den mest restriktive. Mere specifikt:

    • hvis du blokerer en side med robotter.,t .t, bots vil aldrig gennemgå siden og vil aldrig læse nogen robotter meta tags på siden.
    • hvis du tillader en side med robotter.t butt men blokere det fra at blive indekseret ved hjælp af en robotter meta tag, Googlebot vil få adgang til siden, læse meta tag, og efterfølgende ikke indeksere det.

    mens robotter.t .t-filer er at beskytte indhold på et siteebsted fra at blive indekseret, herunder en robotter.t .t-fil uanset anbefales så mange robot processer kigge efter dem og tilbyder man kan kun fremskynde deres procedurer. Sammen, robotter.,t andt og robots meta tags giver dig fleksibilitet til at udtrykke komplekse adgangspolitikker relativt let:

    • fjernelse af et helt websiteebsted eller en del af et websiteebsted.
    • undgå indeksering af billeder i Google billedsøgning og andre billedmotorer.
    • undgå indeksering af duplikatindhold på et siteebsted.
    • fjernelse af individuelle sider på et siteebsted ved hjælp af et robots metatag.
    • fjernelse af cachelagrede kopier og uddrag ved hjælp af et robots metatag.

    begge robotter.t andt og robots meta tag stole på samarbejde fra robotterne, og er på ingen måde garanteret at arbejde for hver robot., Hvis du har brug for stærkere beskyttelse mod robotter og andre agenter, skal du bruge alternative metoder såsom adgangskodebeskyttelse.

    Tilmeld dig vores daglige resum .er af det stadigt skiftende søgemarkedsføringslandskab.Bemærk: ved at indsende denne formular, accepterer du Third Door Media ” s vilkår. Vi respekterer dit privatliv.,

    Om Forfatteren

    Stephan Spencer

    Stephan Spencer er skaberen af den 3-dages fordybende SEO seminar Trafik Kontrol; en forfatter af O ‘ Reilly bøger Art of SEO, Google Power Search og Social e-handel; grundlægger af SEO agentur Netconcepts (købt i 2010); opfinder af SEO proxy-teknologi GravityStream; og vært for to podcast-shows Få Dig Optimeret og Marketing Tale.


    Skriv et svar

    Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *