a Deeper Look At Robots.txt

lokakuu 4, 2020 admin 0 Comments

Rekisteröidy päivittäisiin kertauksiimme alati muuttuvasta hakumarkkinointimaisemasta.

huomaa: lähettämällä tämän lomakkeen hyväksyt kolmannen oven Median ehdot. Kunnioitamme yksityisyyttäsi.

Stephan Spencer 16. huhtikuuta, 2009 klo 8:00 am

Luokat:Kaikki Asiat SEO-Sarakkeessa Kanava: SEO, Miten: SEO, SEO: Indeksoinnin ja Robots

Robots Exclusion Protocol (REP) ei ole aivan monimutkainen protokolla ja sen käyttö on melko vähäistä, ja siten se on yleensä annetaan lyhyt ripitys, jonka Hakukoneoptimoijat., Silti siinä on paljon enemmän kuin voisi luulla. Robotti.txt on ollut mukana jo yli 14 vuotta, mutta kuinka moni meistä tiesi, että lisäksi estää direktiivi on noindex direktiivi, että Googlebot tottelee? Että noindexed sivut älä päätyä indeksi, mutta kieltänyt sivua, ja jälkimmäinen voi näkyä hakutuloksissa (vaikkakin vähemmän tietoa, koska robotit eivät voi nähdä sivun sisältöä)? – Keräätkö yhä PageRankia? Ne robotit.txt voi hyväksyä rajoitetun kaavan yhteensopivuuden?, Että koska se viimeinen ominaisuus, voit valikoivasti estää ei vain hakemistoja, mutta myös erityisesti tiedostotyypit (no, tiedostopäätteet tarkemmin)? Tuo on robotti.txt kieltänyt sivua ei voi käyttää hämähäkkejä, joten ne voi lukea ja totella meta robots tag sisällä sivun?

a robotit.txt-tiedosto tarjoaa kriittistä tietoa hakukonehämähäkeille, jotka ryömivät verkkoa. Ennen näitä botteja (sanooko kukaan enää koko sanaa ”robotit”?) käyttää sivuja sivuston, he tarkistaa onko robotteja.txt-tiedosto on olemassa., Tämä tekee Webin ryömimisestä tehokkaampaa, koska robotit.txt-tiedosto estää botteja pääsemästä tietyille sivuille, joita hakukoneet eivät saisi indeksoida.

Having a robots.txt-tiedosto on paras käytäntö. Jopa siitä yksinkertaisesta syystä, että jotkut mittarit ohjelmat tulkitsevat 404-vastauksen puuttuvan robotin pyyntöön.txt-tiedosto virheenä, mikä voi johtaa virheelliseen suoritusraportointiin. Mutta mitä siinä robotissa on.txt-tiedosto? Se on asian ydin.

molemmat robotit.,TXT ja robotit metatunnisteet luottavat robottien yhteistyöhön, eivätkä ne suinkaan taatusti toimi jokaiselle botille. Jos tarvitset vahvempaa suojaa häikäilemättömiltä roboteilta ja muilta agenteilta, kannattaa käyttää vaihtoehtoisia menetelmiä, kuten salasanasuojausta. Liian monta kertaa olen nähnyt webmastersin naiivisti sijoittavan herkkiä URL-osoitteita, kuten hallinnollisia alueita robotteihin.txt. Parempi uskoa robotteja.TXT on yksi hakkerin ensimmäisistä puhelinporteista—nähdäkseen, mihin heidän pitäisi murtautua.

robotit.,txt toimii hyvin:

Esto indeksoijat ei-julkisia osia verkkosivuilla
Esto hakukoneita yrittää indeksi skriptejä, utilities, tai muita code
Vältetään indeksointi päällekkäistä sisältöä verkkosivuilla, kuten ”print” – versiot html-sivuja
Auto-löytö XML Sitemaps

riski on Kapteeni Ilmeinen, robotteja.TXT-tiedoston on sijaittava verkkotunnuksen juuressa ja se on nimettävä ” roboteiksi.txt” (all lowercase). Robotti.,txt-tiedosto, joka sijaitsee alihakemistossa, ei ole voimassa, koska botit vain tarkistavat tämän tiedoston verkkotunnuksen juuresta.

robottien luominen.txt-tiedosto on helppo. Voit luoda robotit.txt-tiedosto missä tahansa tekstieditorissa. Sen pitäisi olla ASCII-koodattu tekstitiedosto, Ei HTML-tiedosto.

robotit.txt syntaksi

käyttäjäagentti: robotti seuraava sääntö pätee (esim. ”Googlebot”, jne.)
Disallow: sivut haluat estää botit pääsemästä (niin monta estää rivejä tarpeen mukaan)
Noindex: sivut, hakukone, estää JA ei-indeksi (tai de-indeksi jos aiemmin indeksoitu)., Epävirallisesti tukee Google; tukematta Yahoo ja Live Search.
Jokainen Käyttäjä-Agentti/Estää ryhmän tulisi erottaa tyhjä rivi; kuitenkin ei ole tyhjiä rivejä pitäisi olla ryhmän sisällä (välillä User-agent rivi ja viimeinen Estää).
hash-symbolia (#) voidaan käyttää kommenteissa robotin sisällä.txt tiedosto, jossa kaikki jälkeen # että linja jätetään huomiotta. Voidaan käyttää joko kokonaisina viivoina tai rivien pääteinä.
hakemistot ja tiedostonimet ovat tapausherkkiä: ”private”, ”Private” ja ”PRIVATE” eroavat kaikki yksikäsitteisesti hakukoneista.,

Let ’ s look at an example robots.txt-tiedosto. Alla oleva esimerkki sisältää:

robotti nimeltään ”Googlebot” ei ole mitään kieltänyt, ja se voi mennä minne tahansa
koko sivusto on suljettu pois robotti nimeltään ”msnbot”;
Kaikki robotit (muut kuin Googlebot) ei pitäisi käydä /tmp/ – hakemisto tai hakemistoja tai tiedostoja kutsutaan /lokit, kuten kommentteja, esim. tmp.htm, / lokit tai lokit.php.

User-agent: Googlebot Disallow:

User-agent: msnbot Disallow: /

# Block all robots from tmp and logs directories User-agent: * Disallow: /tmp/ Disallow: /logs # for directories and files called logs

Mitä pitäisi olla listattu User-Agent rivi?, Käyttäjäagentti on tietyn hakukonerobotin nimi. Voit asettaa merkinnän soveltaa tiettyyn bot (luettelemalla nimi) tai voit asettaa sen sovelleta kaikki botit (luettelemalla tähdellä, joka toimii jokerina). Merkintä, joka koskee kaikkia botit näyttää tältä:

User-Agent: *

Suuret robotit ovat: Googlebot (Google), Slurp (Yahoo!), msnbot (MSN) ja TEOMA (Ask).,

muista, että lohkon direktiivien määritetty user-agent Googlebot tulee noudattaa Googlebot, mutta Googlebot EI MYÖS noudattaa direktiivejä user-agent * (kaikki botit).

Mitä pitäisi listata kielletyllä linjalla? Kieltolista listaa sivut, jotka haluaa blokata. Voit luetella tietyn URL-osoitteen tai kuvion. Kirjauksen pitäisi alkaa etuviivalla ( / ).,

Esimerkkejä:

estää koko sivuston: Disallow: /
estää hakemiston ja kaikki sen: Disallow: /private_directory/
block sivu: Disallow: /private_file.html
estää sivu-ja/tai hakemiston nimeltä yksityinen: Disallow: /private

Jos voit palvella sisältöä kautta sekä http ja https, tarvitset erillisen robotteja.txt-tiedosto jokaiselle näistä protokollista. Esimerkiksi, jotta robotit voivat indeksoida kaikki http-sivut, mutta ei https-sivuja, käyttäisit robotteja.,txt-tiedostoja seuraavasti, http-protokolla:

User-agent: * Disallow:

Ja https-protokolla:

User-agent: * Disallow: /

Botit tarkistaa robotteja.txt-tiedosto joka kerta, kun he tulevat verkkosivustolle. Säännöt roboteissa.txt-tiedosto tulee voimaan heti, kun se ladataan sivuston juureen ja botti tulee sivustolle. Kuinka usein sitä käytetään vaihtelee siitä, kuinka usein botit hämähäkki sivuston perustuu suosio, auktoriteetti, ja kuinka usein sisältöä päivitetään., Jotkut sivustot voidaan ryömiä useita kertoja päivässä, kun taas toiset voidaan ryömiä vain muutaman kerran viikossa. Google Webmaster Central tarjoaa tavan nähdä, milloin Googlebot viimeksi käytti robotteja.txt-tiedosto.

suosittelen käyttämään robotteja.txt analyysi työkalu Google Webmaster Central tarkistaa tiettyjä URL nähdä, jos robotit.txt tiedosto sallii tai estää niitä, katso jos Googlebot oli vaikeuksia jäsentää mitään linjat robotteja.txt tiedosto, ja testata muutoksia robotteja.txt-tiedosto.,

jotkut edistyneet tekniikat

suuret hakukoneet ovat alkaneet tehdä yhteistyötä robottien toimivuuden edistämiseksi.txt-tiedosto. Kuten edellä on vihjattu, on olemassa joitakin toimintoja, jotka on hyväksytty suuret hakukoneet, ja ei välttämättä kaikki suuret moottorit, jotka tarjoavat hienompaa valvoa indeksoinnin. Koska ne voivat kuitenkin olla rajallisia, niiden käytössä on noudatettava varovaisuutta.

Ryömiä viive: Jotkut sivustot voivat kokea suuria määriä liikennettä ja haluaisin hidas hakukone hämähäkkejä alas mahdollistaa enemmän palvelimen resursseja vaatimuksiin säännöllistä liikennettä., Ryömiä viive on erityinen direktiivi tunnustettu Yahoo, Live Search, ja Pyytää, että kehottaa tela, kuinka monta sekuntia odottamaan välillä indeksointi sivuja:

User-agent: msnbot Crawl-delay: 5

Pattern matching: tällä hetkellä, pattern matching näyttää olevan käyttökelpoinen kolme suurta yhtiötä: Google, Yahoo ja Live Search. Kuviosovituksen arvo on huomattava. Katsotaanpa ensin perus kuvio matching, käyttämällä asterisk wildcard merkki., Estää pääsyn kaikki alihakemistot, jotka alkavat ”yksityinen”:

User-agent: Googlebot Disallow: /private*/

ottelun lopussa merkkijono käytät dollarin merkki ($). Esimerkiksi estää URL, joka päättyy .asp:

User-agent: Googlebot Disallow: /*.asp$

toisin Kuin kehittyneempiä kaavoja löydy säännöllisiä lausekkeita Perl ja muualla, kysymysmerkki ei ole erityisiä voimia. Niin, estää pääsy kaikkiin URL, jotka sisältävät kysymysmerkki (?,), voit käyttää kysymysmerkkiä (ei tarvitse ”paeta” tai edeltää kenoviiva):

User-agent: * Disallow: /*?*

estää robotit indeksoida kaikki tiedostot tietyn tiedoston tyyppi (esim .gif):

User-agent: * Disallow: /*.gif$

Tässä on hieman monimutkaisempi esimerkki. Sanotaan, että Sivustosi käyttää kyselyn merkkijono osa URL (mitä seuraa ”?”) ainoastaan istuntotunnuksia varten, ja haluat sulkea pois kaikki URL-osoitteet, jotka sisältävät dynaamisen parametrin, jotta botit eivät ryömi päällekkäisiä sivuja. Mutta haluat ehkä sisällyttää kaikki URL-osoitteet, jotka päättyvät a”?”., Tässä on, miten haluat saavuttaa, että:

User-agent: Slurp Disallow: /*? # block any URL that includes a ? Allow: /*?$ # allow any URL that ends in a ?

Salli direktiivin: tällä hetkellä, Salli direktiivin näyttää vain tue Google, Yahoo ja Kysy. Aivan kuten se kuulostaa, se toimii päinvastainen Kieltää direktiivin ja tarjoaa mahdollisuuden nimenomaan soittaa kansioita tai sivuja, jotka voidaan indeksoida. Tämä voi olla hyödyllistä, kun suuret osat tai Koko sivusto on hylätty.,

Jotta Googlebot vain ”google” – hakemisto:

User-agent: Googlebot Disallow: / Allow: /google/

Noindex-direktiivi: Kuten edellä on mainittu, tämän direktiivin tarjoaa etuja, poistaa snippetless otsikko-vähemmän listat hakutuloksista, mutta se on rajoitettu Google. Sen syntaksi on täysin epäsopiva. Sanat Matt Cutts:

”Google mahdollistaa NOINDEX direktiivin robotteja.txt ja se poistaa kaikki vastaavat sivuston URL Google., (Se käytös voi muuttua tämän periaatekeskustelun perusteella, tietenkin, siksi emme ole puhuneet siitä paljon.)”

Sitemap: XML-tiedoston, voit kertoa hakukoneille kaikki sivuston sivut, ja voit myös antaa tietoa niille sivuille, kuten mitkä ovat tärkeimpiä ja kuinka usein ne muuttuvat. Se toimii hämähäkin automaattisena löytömekanismina XML sitemap-tiedoston löytämiseksi. Sivustokarttasi voit kertoa Googlelle ja muille hakukoneille lisäämällä seuraavan rivin robotteihisi.,txt-tiedosto:

Sitemap: sitemap_location

sitemap_location pitäisi olla täydellinen URL Sivukartta, kuten: http://www.example.com/sitemap.xml. Tämä direktiivi on riippumaton käyttäjäagenttilinjasta, joten sillä ei ole väliä, minne laitat sen tiedostoosi. Kaikki suuret hakukoneet tukevat Auto-Discovery Sitemap-protokollaa, mukaan lukien Google, Yahoo, Live Search ja Ask.

kun taas auto-discovery tarjoaa keinon informoida hakukoneita tilannekuvasta.,xml-tiedosto, se on myös syytä tarkastaa ja toimittaa sitemaps suoraan hakukoneiden kautta jokainen heidän webmaster konsolit (Google Webmaster Central, Yahoo Site Explorer, Live Search Webmaster Center).

Lisää Googlen boteista

Google käyttää useita eri botteja (käyttäjäagentteja). Verkkohaun botti on Googlebot. Googlen muut botit noudattavat Googlebotille asettamiasi sääntöjä, mutta voit myös asettaa lisäsääntöjä näille botteille. Blokkaus Googlebot estää kaikki botit, jotka alkavat ”Googlebot”.,li>Googlebot-Mobile: indeksoi sivut mobiili-indeksi

Googlebot-Image: indeksoi sivuja kuva-indeksi

Mediapartners-Google: indeksoi sivuja määrittää AdSense-sisältöä, vain indeksoi sivustoja jos näyttää AdSense-mainoksia

Adsbot-Googlen: ryömii mitata AdWords-aloitussivun laatu, vain indeksoi sivustoja, jotka käyttävät Google AdWords mainostaa

Voit estää Googlebotin kokonaan käyttämällä:

User-agent: Googlebot Disallow: /

Voit sallia Googlebot, mutta estää pääsyn kaikki muut botit:

User-agent: * Disallow: /

User-agent: Googlebot Disallow:

Ongelmia robotteja.,txt

sivut, jotka estät robottien avulla.txt hyväksytä voi silti olla Google indeksi ja näkyvät hakutuloksissa — varsinkin jos muut sivustot linkittää niihin. Myönnetään, korkea ranking on melko epätodennäköistä, koska Google ei voi ”nähdä” sivun sisältöä; se on hyvin vähän mennä muut kuin ankkuri tekstiä saapuvat ja sisäiset linkit ja URL-osoite (ja ODP: n otsikko ja kuvaus jos ODP/DMOZ.) Seurauksena, sivun URL-osoite ja mahdollisesti muut julkisesti saatavilla olevat tiedot voivat näkyä hakutuloksissa. Mitään sisältöä sivuilta ei kuitenkaan indeksoida, indeksoida tai näyttää.,

täysin estää sivun, joka lisätään hakukoneen indeksi, vaikka muut sivustot linkin, käytä ”noindex” robotit meta tag ja varmistaa, että sivu ei ole kieltänyt robotit.txt. Kun hämähäkit ryömivät sivua, se tunnistaa” noindex ” – metatunnisteen ja pudottaa URL-osoitteen indeksistä.

robotit.TXT ja robotit meta tag konfliktit

Jos robotit.txt-tiedosto ja robotit meta tag ohjeet sivun konfliktiin, botit noudattavat rajoittavimpia. Tarkemmin:

Jos estät sivun roboteilla.,txt, botit eivät koskaan ryömi sivun eikä koskaan lue mitään robottien metatunnisteita sivulla.
Jos sallit sivun robottien kanssa.txt mutta estää sen indeksoidaan käyttäen robotit meta tag, Googlebot pääsee sivulle, lukea meta tag, ja myöhemmin ei indeksoida sitä.

kun taas robotit.txt-Tiedostojen on tarkoitus suojata sivuston sisältöä indeksoinnilta, mukaan lukien robotit.txt tiedosto riippumatta on suositeltavaa, koska monet robotic prosessit etsivät niitä ja tarjoaa yksi voi vain nopeuttaa niiden menettelyjä. Yhdessä, robotit.,TXT ja robotit metatunnisteet antavat sinulle joustavuuden ilmaista monimutkaisia käyttöoikeuskäytäntöjä suhteellisen helposti:

poistamalla kokonaisen verkkosivuston tai osan verkkosivustosta.
kuvien indeksoinnin välttäminen Googlen kuvahaussa ja muissa kuvamoottoreissa.
päällekkäisen sisällön indeksoinnin välttäminen sivustolla.
poistaa yksittäisiä sivuja sivustolta robotin Meta-tunnisteella.
poistaa välimuistiin tallennetut kopiot ja pätkät robotin Meta-tunnisteella.

molemmat robotit.TXT ja robotit meta tag luottavat robottien yhteistyöhön, eivätkä ne suinkaan taatusti toimi jokaiselle robotille., Jos tarvitset vahvempaa suojaa roboteilta ja muilta agenteilta, kannattaa käyttää vaihtoehtoisia menetelmiä, kuten salasanasuojausta.

Rekisteröidy päivittäisiin kertauksiimme alati muuttuvasta hakumarkkinointimaisemasta.

huomaa: lähettämällä tämän lomakkeen hyväksyt kolmannen oven Median ehdot. Kunnioitamme yksityisyyttäsi.,

Author

Stephan Spencer

Stephan Spencer on luoja 3-päivän kuulijan SEO-seminaari Liikenteen Ohjaus; kirjailija O ’ reillyn kirjaa The Art of SEO, Google Power Search, ja Sosiaalisen verkkokaupan; perustaja SEO virasto Netconcepts (hankittu vuonna 2010); keksijä SEO proxy teknologia GravityStream; ja isäntä kaksi podcast osoittaa, Hanki Itsellesi Optimoitu ja Markkinoinnin Puhua.

a Deeper Look At Robots.txt

Author

Vastaa Peruuta vastaus

Viimeisimmät artikkelit

Arkistot

Meta