a Deeper Look At Robots.txt
Rekisteröidy päivittäisiin kertauksiimme alati muuttuvasta hakumarkkinointimaisemasta.
huomaa: lähettämällä tämän lomakkeen hyväksyt kolmannen oven Median ehdot. Kunnioitamme yksityisyyttäsi.
Robots Exclusion Protocol (REP) ei ole aivan monimutkainen protokolla ja sen käyttö on melko vähäistä, ja siten se on yleensä annetaan lyhyt ripitys, jonka Hakukoneoptimoijat., Silti siinä on paljon enemmän kuin voisi luulla. Robotti.txt on ollut mukana jo yli 14 vuotta, mutta kuinka moni meistä tiesi, että lisäksi estää direktiivi on noindex direktiivi, että Googlebot tottelee? Että noindexed sivut älä päätyä indeksi, mutta kieltänyt sivua, ja jälkimmäinen voi näkyä hakutuloksissa (vaikkakin vähemmän tietoa, koska robotit eivät voi nähdä sivun sisältöä)? – Keräätkö yhä PageRankia? Ne robotit.txt voi hyväksyä rajoitetun kaavan yhteensopivuuden?, Että koska se viimeinen ominaisuus, voit valikoivasti estää ei vain hakemistoja, mutta myös erityisesti tiedostotyypit (no, tiedostopäätteet tarkemmin)? Tuo on robotti.txt kieltänyt sivua ei voi käyttää hämähäkkejä, joten ne voi lukea ja totella meta robots tag sisällä sivun?
a robotit.txt-tiedosto tarjoaa kriittistä tietoa hakukonehämähäkeille, jotka ryömivät verkkoa. Ennen näitä botteja (sanooko kukaan enää koko sanaa ”robotit”?) käyttää sivuja sivuston, he tarkistaa onko robotteja.txt-tiedosto on olemassa., Tämä tekee Webin ryömimisestä tehokkaampaa, koska robotit.txt-tiedosto estää botteja pääsemästä tietyille sivuille, joita hakukoneet eivät saisi indeksoida.
Having a robots.txt-tiedosto on paras käytäntö. Jopa siitä yksinkertaisesta syystä, että jotkut mittarit ohjelmat tulkitsevat 404-vastauksen puuttuvan robotin pyyntöön.txt-tiedosto virheenä, mikä voi johtaa virheelliseen suoritusraportointiin. Mutta mitä siinä robotissa on.txt-tiedosto? Se on asian ydin.
molemmat robotit.,TXT ja robotit metatunnisteet luottavat robottien yhteistyöhön, eivätkä ne suinkaan taatusti toimi jokaiselle botille. Jos tarvitset vahvempaa suojaa häikäilemättömiltä roboteilta ja muilta agenteilta, kannattaa käyttää vaihtoehtoisia menetelmiä, kuten salasanasuojausta. Liian monta kertaa olen nähnyt webmastersin naiivisti sijoittavan herkkiä URL-osoitteita, kuten hallinnollisia alueita robotteihin.txt. Parempi uskoa robotteja.TXT on yksi hakkerin ensimmäisistä puhelinporteista—nähdäkseen, mihin heidän pitäisi murtautua.
robotit.,txt toimii hyvin:
- Esto indeksoijat ei-julkisia osia verkkosivuilla
- Esto hakukoneita yrittää indeksi skriptejä, utilities, tai muita code
- Vältetään indeksointi päällekkäistä sisältöä verkkosivuilla, kuten ”print” – versiot html-sivuja
- Auto-löytö XML Sitemaps
riski on Kapteeni Ilmeinen, robotteja.TXT-tiedoston on sijaittava verkkotunnuksen juuressa ja se on nimettävä ” roboteiksi.txt” (all lowercase). Robotti.,txt-tiedosto, joka sijaitsee alihakemistossa, ei ole voimassa, koska botit vain tarkistavat tämän tiedoston verkkotunnuksen juuresta.
robottien luominen.txt-tiedosto on helppo. Voit luoda robotit.txt-tiedosto missä tahansa tekstieditorissa. Sen pitäisi olla ASCII-koodattu tekstitiedosto, Ei HTML-tiedosto.
robotit.txt syntaksi
- käyttäjäagentti: robotti seuraava sääntö pätee (esim. ”Googlebot”, jne.)
- Disallow: sivut haluat estää botit pääsemästä (niin monta estää rivejä tarpeen mukaan)
- Noindex: sivut, hakukone, estää JA ei-indeksi (tai de-indeksi jos aiemmin indeksoitu)., Epävirallisesti tukee Google; tukematta Yahoo ja Live Search.
- Jokainen Käyttäjä-Agentti/Estää ryhmän tulisi erottaa tyhjä rivi; kuitenkin ei ole tyhjiä rivejä pitäisi olla ryhmän sisällä (välillä User-agent rivi ja viimeinen Estää).
- hash-symbolia (#) voidaan käyttää kommenteissa robotin sisällä.txt tiedosto, jossa kaikki jälkeen # että linja jätetään huomiotta. Voidaan käyttää joko kokonaisina viivoina tai rivien pääteinä.
- hakemistot ja tiedostonimet ovat tapausherkkiä: ”private”, ”Private” ja ”PRIVATE” eroavat kaikki yksikäsitteisesti hakukoneista.,
Let ’ s look at an example robots.txt-tiedosto. Alla oleva esimerkki sisältää:
- robotti nimeltään ”Googlebot” ei ole mitään kieltänyt, ja se voi mennä minne tahansa
- koko sivusto on suljettu pois robotti nimeltään ”msnbot”;
- Kaikki robotit (muut kuin Googlebot) ei pitäisi käydä /tmp/ – hakemisto tai hakemistoja tai tiedostoja kutsutaan /lokit, kuten kommentteja, esim. tmp.htm, / lokit tai lokit.php.
User-agent: Googlebot
Disallow:
User-agent: msnbot
Disallow: /
# Block all robots from tmp and logs directories
User-agent: *
Disallow: /tmp/
Disallow: /logs # for directories and files called logs
Mitä pitäisi olla listattu User-Agent rivi?, Käyttäjäagentti on tietyn hakukonerobotin nimi. Voit asettaa merkinnän soveltaa tiettyyn bot (luettelemalla nimi) tai voit asettaa sen sovelleta kaikki botit (luettelemalla tähdellä, joka toimii jokerina). Merkintä, joka koskee kaikkia botit näyttää tältä:
User-Agent: *
Suuret robotit ovat: Googlebot (Google), Slurp (Yahoo!), msnbot (MSN) ja TEOMA (Ask).,
muista, että lohkon direktiivien määritetty user-agent Googlebot tulee noudattaa Googlebot, mutta Googlebot EI MYÖS noudattaa direktiivejä user-agent * (kaikki botit).
Mitä pitäisi listata kielletyllä linjalla? Kieltolista listaa sivut, jotka haluaa blokata. Voit luetella tietyn URL-osoitteen tai kuvion. Kirjauksen pitäisi alkaa etuviivalla ( / ).,
Esimerkkejä:
- estää koko sivuston:
Disallow: /
- estää hakemiston ja kaikki sen:
Disallow: /private_directory/
- block sivu:
Disallow: /private_file.html
- estää sivu-ja/tai hakemiston nimeltä yksityinen:
Disallow: /private
Jos voit palvella sisältöä kautta sekä http ja https, tarvitset erillisen robotteja.txt-tiedosto jokaiselle näistä protokollista. Esimerkiksi, jotta robotit voivat indeksoida kaikki http-sivut, mutta ei https-sivuja, käyttäisit robotteja.,txt-tiedostoja seuraavasti, http-protokolla:
User-agent: *
Disallow:
Ja https-protokolla:
User-agent: *
Disallow: /
Botit tarkistaa robotteja.txt-tiedosto joka kerta, kun he tulevat verkkosivustolle. Säännöt roboteissa.txt-tiedosto tulee voimaan heti, kun se ladataan sivuston juureen ja botti tulee sivustolle. Kuinka usein sitä käytetään vaihtelee siitä, kuinka usein botit hämähäkki sivuston perustuu suosio, auktoriteetti, ja kuinka usein sisältöä päivitetään., Jotkut sivustot voidaan ryömiä useita kertoja päivässä, kun taas toiset voidaan ryömiä vain muutaman kerran viikossa. Google Webmaster Central tarjoaa tavan nähdä, milloin Googlebot viimeksi käytti robotteja.txt-tiedosto.
suosittelen käyttämään robotteja.txt analyysi työkalu Google Webmaster Central tarkistaa tiettyjä URL nähdä, jos robotit.txt tiedosto sallii tai estää niitä, katso jos Googlebot oli vaikeuksia jäsentää mitään linjat robotteja.txt tiedosto, ja testata muutoksia robotteja.txt-tiedosto.,
jotkut edistyneet tekniikat
suuret hakukoneet ovat alkaneet tehdä yhteistyötä robottien toimivuuden edistämiseksi.txt-tiedosto. Kuten edellä on vihjattu, on olemassa joitakin toimintoja, jotka on hyväksytty suuret hakukoneet, ja ei välttämättä kaikki suuret moottorit, jotka tarjoavat hienompaa valvoa indeksoinnin. Koska ne voivat kuitenkin olla rajallisia, niiden käytössä on noudatettava varovaisuutta.
Ryömiä viive: Jotkut sivustot voivat kokea suuria määriä liikennettä ja haluaisin hidas hakukone hämähäkkejä alas mahdollistaa enemmän palvelimen resursseja vaatimuksiin säännöllistä liikennettä., Ryömiä viive on erityinen direktiivi tunnustettu Yahoo, Live Search, ja Pyytää, että kehottaa tela, kuinka monta sekuntia odottamaan välillä indeksointi sivuja:
User-agent: msnbot
Crawl-delay: 5
Pattern matching: tällä hetkellä, pattern matching näyttää olevan käyttökelpoinen kolme suurta yhtiötä: Google, Yahoo ja Live Search. Kuviosovituksen arvo on huomattava. Katsotaanpa ensin perus kuvio matching, käyttämällä asterisk wildcard merkki., Estää pääsyn kaikki alihakemistot, jotka alkavat ”yksityinen”:
User-agent: Googlebot
Disallow: /private*/
ottelun lopussa merkkijono käytät dollarin merkki ($). Esimerkiksi estää URL, joka päättyy .asp:
User-agent: Googlebot
Disallow: /*.asp$
toisin Kuin kehittyneempiä kaavoja löydy säännöllisiä lausekkeita Perl ja muualla, kysymysmerkki ei ole erityisiä voimia. Niin, estää pääsy kaikkiin URL, jotka sisältävät kysymysmerkki (?,), voit käyttää kysymysmerkkiä (ei tarvitse ”paeta” tai edeltää kenoviiva):
User-agent: *
Disallow: /*?*
estää robotit indeksoida kaikki tiedostot tietyn tiedoston tyyppi (esim .gif):
User-agent: *
Disallow: /*.gif$
Tässä on hieman monimutkaisempi esimerkki. Sanotaan, että Sivustosi käyttää kyselyn merkkijono osa URL (mitä seuraa ”?”) ainoastaan istuntotunnuksia varten, ja haluat sulkea pois kaikki URL-osoitteet, jotka sisältävät dynaamisen parametrin, jotta botit eivät ryömi päällekkäisiä sivuja. Mutta haluat ehkä sisällyttää kaikki URL-osoitteet, jotka päättyvät a”?”., Tässä on, miten haluat saavuttaa, että:
User-agent: Slurp
Disallow: /*? # block any URL that includes a ?
Allow: /*?$ # allow any URL that ends in a ?
Salli direktiivin: tällä hetkellä, Salli direktiivin näyttää vain tue Google, Yahoo ja Kysy. Aivan kuten se kuulostaa, se toimii päinvastainen Kieltää direktiivin ja tarjoaa mahdollisuuden nimenomaan soittaa kansioita tai sivuja, jotka voidaan indeksoida. Tämä voi olla hyödyllistä, kun suuret osat tai Koko sivusto on hylätty.,
Jotta Googlebot vain ”google” – hakemisto:
User-agent: Googlebot
Disallow: /
Allow: /google/
Noindex-direktiivi: Kuten edellä on mainittu, tämän direktiivin tarjoaa etuja, poistaa snippetless otsikko-vähemmän listat hakutuloksista, mutta se on rajoitettu Google. Sen syntaksi on täysin epäsopiva. Sanat Matt Cutts:
”Google mahdollistaa NOINDEX direktiivin robotteja.txt ja se poistaa kaikki vastaavat sivuston URL Google., (Se käytös voi muuttua tämän periaatekeskustelun perusteella, tietenkin, siksi emme ole puhuneet siitä paljon.)”
Sitemap: XML-tiedoston, voit kertoa hakukoneille kaikki sivuston sivut, ja voit myös antaa tietoa niille sivuille, kuten mitkä ovat tärkeimpiä ja kuinka usein ne muuttuvat. Se toimii hämähäkin automaattisena löytömekanismina XML sitemap-tiedoston löytämiseksi. Sivustokarttasi voit kertoa Googlelle ja muille hakukoneille lisäämällä seuraavan rivin robotteihisi.,txt-tiedosto:
Sitemap: sitemap_location
sitemap_location pitäisi olla täydellinen URL Sivukartta, kuten: http://www.example.com/sitemap.xml. Tämä direktiivi on riippumaton käyttäjäagenttilinjasta, joten sillä ei ole väliä, minne laitat sen tiedostoosi. Kaikki suuret hakukoneet tukevat Auto-Discovery Sitemap-protokollaa, mukaan lukien Google, Yahoo, Live Search ja Ask.
kun taas auto-discovery tarjoaa keinon informoida hakukoneita tilannekuvasta.,xml-tiedosto, se on myös syytä tarkastaa ja toimittaa sitemaps suoraan hakukoneiden kautta jokainen heidän webmaster konsolit (Google Webmaster Central, Yahoo Site Explorer, Live Search Webmaster Center).
Lisää Googlen boteista
Google käyttää useita eri botteja (käyttäjäagentteja). Verkkohaun botti on Googlebot. Googlen muut botit noudattavat Googlebotille asettamiasi sääntöjä, mutta voit myös asettaa lisäsääntöjä näille botteille. Blokkaus Googlebot estää kaikki botit, jotka alkavat ”Googlebot”.,li>Googlebot-Mobile: indeksoi sivut mobiili-indeksi
Voit estää Googlebotin kokonaan käyttämällä:
User-agent: Googlebot
Disallow: /
Voit sallia Googlebot, mutta estää pääsyn kaikki muut botit:
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
Ongelmia robotteja.,txt
sivut, jotka estät robottien avulla.txt hyväksytä voi silti olla Google indeksi ja näkyvät hakutuloksissa — varsinkin jos muut sivustot linkittää niihin. Myönnetään, korkea ranking on melko epätodennäköistä, koska Google ei voi ”nähdä” sivun sisältöä; se on hyvin vähän mennä muut kuin ankkuri tekstiä saapuvat ja sisäiset linkit ja URL-osoite (ja ODP: n otsikko ja kuvaus jos ODP/DMOZ.) Seurauksena, sivun URL-osoite ja mahdollisesti muut julkisesti saatavilla olevat tiedot voivat näkyä hakutuloksissa. Mitään sisältöä sivuilta ei kuitenkaan indeksoida, indeksoida tai näyttää.,
täysin estää sivun, joka lisätään hakukoneen indeksi, vaikka muut sivustot linkin, käytä ”noindex” robotit meta tag ja varmistaa, että sivu ei ole kieltänyt robotit.txt. Kun hämähäkit ryömivät sivua, se tunnistaa” noindex ” – metatunnisteen ja pudottaa URL-osoitteen indeksistä.
robotit.TXT ja robotit meta tag konfliktit
Jos robotit.txt-tiedosto ja robotit meta tag ohjeet sivun konfliktiin, botit noudattavat rajoittavimpia. Tarkemmin:
- Jos estät sivun roboteilla.,txt, botit eivät koskaan ryömi sivun eikä koskaan lue mitään robottien metatunnisteita sivulla.
- Jos sallit sivun robottien kanssa.txt mutta estää sen indeksoidaan käyttäen robotit meta tag, Googlebot pääsee sivulle, lukea meta tag, ja myöhemmin ei indeksoida sitä.
kun taas robotit.txt-Tiedostojen on tarkoitus suojata sivuston sisältöä indeksoinnilta, mukaan lukien robotit.txt tiedosto riippumatta on suositeltavaa, koska monet robotic prosessit etsivät niitä ja tarjoaa yksi voi vain nopeuttaa niiden menettelyjä. Yhdessä, robotit.,TXT ja robotit metatunnisteet antavat sinulle joustavuuden ilmaista monimutkaisia käyttöoikeuskäytäntöjä suhteellisen helposti:
- poistamalla kokonaisen verkkosivuston tai osan verkkosivustosta.
- kuvien indeksoinnin välttäminen Googlen kuvahaussa ja muissa kuvamoottoreissa.
- päällekkäisen sisällön indeksoinnin välttäminen sivustolla.
- poistaa yksittäisiä sivuja sivustolta robotin Meta-tunnisteella.
- poistaa välimuistiin tallennetut kopiot ja pätkät robotin Meta-tunnisteella.
molemmat robotit.TXT ja robotit meta tag luottavat robottien yhteistyöhön, eivätkä ne suinkaan taatusti toimi jokaiselle robotille., Jos tarvitset vahvempaa suojaa roboteilta ja muilta agenteilta, kannattaa käyttää vaihtoehtoisia menetelmiä, kuten salasanasuojausta.
Rekisteröidy päivittäisiin kertauksiimme alati muuttuvasta hakumarkkinointimaisemasta.
huomaa: lähettämällä tämän lomakkeen hyväksyt kolmannen oven Median ehdot. Kunnioitamme yksityisyyttäsi.,
Author
Stephan Spencer on luoja 3-päivän kuulijan SEO-seminaari Liikenteen Ohjaus; kirjailija O ’ reillyn kirjaa The Art of SEO, Google Power Search, ja Sosiaalisen verkkokaupan; perustaja SEO virasto Netconcepts (hankittu vuonna 2010); keksijä SEO proxy teknologia GravityStream; ja isäntä kaksi podcast osoittaa, Hanki Itsellesi Optimoitu ja Markkinoinnin Puhua.