En Dypere Titt På Roboter.txt
meld deg på vårt daglige oppsummeringer av de stadig skiftende søk markedsføring landskapet.
Merk: Ved å sende inn dette skjemaet, godtar du til Tredje Døren Media»s-form. Vi respekterer ditt privatliv.
The Robots Exclusion Protocol (REP) er ikke akkurat en komplisert protokollen og dens anvendelser er ganske begrenset, og dermed er det vanligvis gitt kort prosess med Seo., Men det er mye mer til det enn du kanskje tror. Robot.txt har blitt med oss i over 14 år, men hvor mange av oss visste at i tillegg til disallow-direktivet det er en noindex-direktiv som Googlebot følger? Som noindexed sider som ikke ender opp i indeksen, men forbudt sider, og sistnevnte kan dukke opp i søkeresultatene (om enn med mindre ny informasjon siden edderkopper kan ikke se innholdet på siden)? At det ikke er tillatt sider som fortsatt samle PageRank? Som roboter.txt kan akseptere en begrenset form for pattern matching?, Som, på grunn av at siste funksjonen, kan du velge å ikke tillate ikke bare kataloger, men også bestemte filtyper (vel, filtyper for å være mer nøyaktig)? Som en roboter.txt forbudt side kan ikke nås av edderkopper, så de kan ikke lese og adlyde en robots meta tag som finnes på siden?
En roboter.txt-filen inneholder viktig informasjon for search engine edderkopper som gjennomsøker nettet. Før disse roboter (har noen si hele ordet «roboter» lenger?) tilgang til sider på et nettsted, de sjekker for å se om en roboter.txt-filen eksisterer., Ved å gjøre dette er å gjennomsøke internett mer effektivt, fordi roboter.txt-fil holder roboter fra å få tilgang til visse sider som ikke skal indekseres av søkemotorene.
å Ha en roboter.txt-fil er en beste praksis. Selv bare for den enkle grunn at noen beregninger programmer vil tolke 404 svar på forespørsel om manglende roboter.txt-fil som en feil, som kan føre til feilaktige resultater rapportering. Men det som går inn som roboter.txt-fil? Det er crux av det.
Både roboter.,txt og robots meta tags stole på samarbeid fra robotene, og er på ingen måte garantert å fungere for hver bot. Hvis du trenger sterkere beskyttelse mot skruppelløse roboter og andre agenter, bør du bruke alternative metoder, for eksempel passordbeskyttelse. For mange ganger har jeg sett at webmastere naivt sted sensitive Nettadresser, for eksempel administrative områder i roboter.txt. Du bedre tro roboter.txt er en av de hacker første portene samtale—for å se hvor de skal bryte seg inn.
Roboter.,txt fungerer godt for:
- Sperring av søkeroboter fra ikke-offentlige delene av ditt nettsted
- Sperring søkemotorer fra å prøve å indeksere skript, verktøy, eller andre typer av koden
- Unngå indeksregulering av duplikat innhold på et nettsted, for eksempel «skriv ut» – versjoner av html-sider
- Automatisk oppdagelse av XML Sitemaps
i fare for å bli Kaptein Åpenbare, roboter.txt-filen må ligge i roten av domenet, og må bli kalt «roboter.txt» (små). Robot.,txt-fil som ligger i en undermappe er ikke gyldig, så bots bare sjekk for denne filen på roten av domenet.
Opprette en roboter.txt-filen er enkelt. Du kan opprette en roboter.txt-filen i et tekstredigeringsprogram. Det bør være en ASCII-kodet tekst-fil, ikke en HTML-fil.
Roboter.txt-syntaks for
- User-Agent: roboten følgende regel gjelder (f.eks «Googlebot», osv.)
- Disallow: hvilke sider du ønsker å blokkere roboter fra å få tilgang til (så mange du vil nekte linjer etter behov)
- Noindex: de sidene du vil ha en søkemotor for å blokkere OG ikke-indeksen (eller de-indeksen hvis det tidligere er indeksert)., Uoffisielt støttes av Google, som ikke støttes av Yahoo og Live Search.
- Hver User-Agent/Disallow gruppen bør være atskilt med en blank linje, men ingen tomme linjer bør eksistere innenfor en gruppe (mellom User-agent-linjen og den siste Disallow).
- hash-symbolet (#) kan brukes for kommentarer innen en roboter.txt-fil, hvor alt etter # på at linjen vil bli ignorert. Kan brukes enten for hele linjer eller slutten av linjer.
- Kataloger og filnavn mellom store og små bokstaver: «privat», «Privat», og «PRIVAT» er alle unikt ulike søkemotorer.,
La oss se på et eksempel roboter.txt-fil. Eksemplet nedenfor inkluderer:
- robot kalt «Googlebot» har ingenting forbudt og kan gå hvor som helst
- hele området er stengt for robot kalt «msnbot»;
- Alle roboter (andre enn Googlebot) bør ikke gå til /tmp/ directory eller kataloger eller filer som kalles /logger, som forklart med kommentarer, f.eks., tmp.htm, /logger eller logger.php.
User-agent: Googlebot
Disallow:
User-agent: msnbot
Disallow: /
# Block all robots from tmp and logs directories
User-agent: *
Disallow: /tmp/
Disallow: /logs # for directories and files called logs
Hva skal være oppført på User-Agent-linjen?, En user-agent-er navnet på en bestemt søkemotor robot. Du kan angi at en oppføring skal gjelde for en bestemt bot (ved å liste opp navn) eller du kan sette den til å gjelde alle roboter (ved å liste opp en stjerne, som fungerer som et jokertegn). En oppføring som gjelder for alle roboter ser ut som dette:
User-Agent: *
de Store roboter inkluderer: Googlebot (Google), Slurp (Yahoo!), msnbot (MSN), og TEOMA (Be).,
husk at en blokk av direktivene som er angitt for user-agent av Googlebot vil bli fulgt av Googlebot, men Googlebot vil IKKE OGSÅ følge retningslinjer for user-agent av * (alle roboter).
Hva skal være oppført på Disallow linje? Den disallow viser sidene du ønsker å blokkere. Du kan vise en bestemt NETTADRESSE eller et mønster. Bidraget skal begynne med en skråstrek (/).,
Eksempel:
- for Å blokkere hele nettstedet:
Disallow: /
- for Å blokkere en katalog og alt som er i det:
Disallow: /private_directory/
- for Å blokkere en side:
Disallow: /private_file.html
- for Å blokkere en side, og/eller en katalog som heter privat:
Disallow: /private
Hvis du levere innhold via både http og https, trenger du en egen roboter.txt-fil for hver av disse protokollene. For eksempel, for å tillate roboter for å indeksere alle http sider, men ingen https-sider, vil du bruke roboter.,txt-filer som følger, for http-protokollen:
User-agent: *
Disallow:
Og for https-protokollen:
User-agent: *
Disallow: /
Roboter sjekk for roboter.txt-fil hver gang de kommer til et nettsted. Reglene i roboter.txt-fil, vil tre i kraft umiddelbart etter at den er lastet opp til nettstedet ditt er rot og boten kommer til nettstedet. Hvor ofte det er tilgjengelig varierer etter hvor ofte de bots spider området basert på popularitet, autoritet til, og hvor ofte innholdet er oppdatert., Noen nettsteder kan bli gjennomsøkt flere ganger om dagen, mens andre kan bare bli gjennomsøkt et par ganger i uken. Google Webmaster Central tilbyr en måte å se når Googlebot siste tilgjengelige roboter.txt-fil.
jeg vil anbefale å bruke roboter.txt analyse verktøyet i Google Webmaster Central å sjekke bestemte Nettadresser, for å se om roboter.txt-fil tillater eller blokkerer dem, se om Googlebot hadde problemer med å analysere noen linjer i din roboter.txt-fil, og teste endringer i roboter.txt-fil.,
Noen avanserte teknikker
De store søkemotorene har begynt å arbeide sammen for å fremme funksjonalitet av roboter.txt-fil. Som antydet ovenfor, er det noen funksjoner som har blitt vedtatt av de store søkemotorene, og ikke nødvendigvis alle de store motorer, som gir bedre kontroll over gjennomgang. Som disse kan være begrenset skjønt, vær forsiktig i sin bruk.
Krype forsinkelse: Enkelte nettsteder kan oppleve store mengder trafikk, og ønsker å bremse søkemotor edderkopper ned for å gi rom for mer server ressurser til å møte kravene i vanlig trafikk., Gjennomgå forsinkelsen er en spesiell direktiv anerkjent av Yahoo, Live-Søk, og Ber om at instruerer en søkerobot på antall sekunder å vente mellom krypende sider:
User-agent: msnbot
Crawl-delay: 5
Pattern matching: På denne tiden, pattern matching ser ut til å være brukbart av de tre fagretninger: Google, Yahoo og Live Search. Verdien av pattern matching er betydelig. La oss først se på det mest grunnleggende av pattern matching, med stjerne jokertegn., For å blokkere tilgang til alle undermapper som begynner med «privat»:
User-agent: Googlebot
Disallow: /private*/
Du kan matche slutten av strengen med dollartegn ($). For eksempel, for å blokkere url-adresser som ender med .asp:
User-agent: Googlebot
Disallow: /*.asp$
i Motsetning til de mer avanserte mønster matchende funnet i vanlige uttrykk i Perl og andre steder, og spørsmålstegnet ikke har spesielle krefter. Så, for å blokkere tilgang til alle Nettadresser som inneholder et spørsmålstegn (?,), bruk et spørsmålstegn (ingen behov for å «unnslippe» det eller skriv en skråstrek):
User-agent: *
Disallow: /*?*
for Å blokkere roboter fra å gjennomsøke alle filer som har en bestemt filtype (for eksempel .gif):
User-agent: *
Disallow: /*.gif$
Her er en mer komplisert eksempel. La oss si at nettstedet ditt bruker søkestrengen en del av Nettadresser (hva følger «?») kun for økt-Id-er, og du vil ekskludere alle Nettadresser som inneholder dynamisk parameter for å sikre at roboter ikke gjennomsøker dupliserte sider. Men det kan være lurt å inkludere alle adresser som slutter med et «?»., Her er hvordan du vil oppnå at:
User-agent: Slurp
Disallow: /*? # block any URL that includes a ?
Allow: /*?$ # allow any URL that ends in a ?
Tillat directive): På denne tiden Tillater direktivet ser ut til å bare være støttes av Google, Yahoo, og Be. Akkurat som det høres ut, det fungerer motsatt av Disallow direktivet, og gir deg muligheten til å spesifikt ringe ut kataloger eller sider som kan bli gjennomsøkt. Dette kan være nyttig når store deler eller hele nettstedet har blitt avvist.,
for Å tillate Googlebot inn bare «google» katalog:
User-agent: Googlebot
Disallow: /
Allow: /google/
Noindex-direktiv: Som nevnt ovenfor, er dette direktivet gir fordeler i å eliminere snippetless tittel-mindre oppføringer i søkeresultatene, men det er begrenset til Google. Dens syntaks nøyaktig speil Disallow. I ordene i Matt Cutts:
«Google tillater en NOINDEX-direktivet i roboter.txt og det vil fjerne alle matchende nettsted Webadresser fra Google., (At atferd kan endre seg basert på denne politikken diskusjon, selvfølgelig, det er derfor vi har ikke snakket om det mye.)»
Sitemap: En XML-sitemap-filen kan fortelle søkemotorene om alle sider på nettstedet, og eventuelt til å gi informasjon om disse sidene, for eksempel som er viktigst, og hvor ofte de vil endre. Det fungerer som en auto-discovery mekanisme for spider å finne XML-sitemap-fil. Du kan fortelle Google og andre søkemotorer om Nettkartet ved å legge til følgende linje i roboter.,txt-fil:
Sitemap: sitemap_location
sitemap_location bør være den fullstendige URL-adressen til Sitemap, for eksempel: http://www.example.com/sitemap.xml. Dette direktivet er uavhengig av user-agent-linjen, så det har ikke noe å si hvor du plasserer den i filen. Alle de store søkemotorene støtter Auto-Discovery Sitemap-protokollen, inkludert Google, Yahoo, Live-Søk, og Be.
Mens auto-discovery gir en måte å informere søkemotorene om områdekartet.,xml-fil, er det også verdt å bekrefte og innsending av sitemaps direkte til søkemotorene gjennom hver av sine webmaster konsoller (Google Webmaster Central, Yahoo Site Explorer, Live Søk Webmaster Center).
Mer om Google ‘ s boter
Google bruker flere forskjellige roboter (user-agenter). Bot for web-søk er Googlebot. Googles andre roboter følge reglene du setter opp for Googlebot, men du kan sette opp flere regler for disse spesifikke roboter i tillegg. Blokkerer Googlebot, blokkerer alle roboter som begynner med «Googlebot».,li>Googlebot-Mobile: gjennomsøker for mobil indeks
Du kan blokkerer Googlebot kan unngåes ved å bruke:
User-agent: Googlebot
Disallow: /
Du kan la Googlebot, men blokkere tilgang til alle andre boter:
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow:
Problemer med roboter.,txt
Sider du har blokkert ved hjelp av roboter.txt forbyr kan fortsatt bli med i Googles indeks og vises i søkeresultater — spesielt hvis andre nettsteder lenke til dem. Gitt, er en høy rangering er ganske usannsynlig siden Google ikke kan «se» på side innhold; det har svært lite å gå på andre enn den som anker tekst av innkommende og interne lenker, og URL-en (og ODP tittel og en beskrivelse om i ODP/DMOZ. Som et resultat, NETTADRESSEN til siden og eventuelt annen offentlig tilgjengelig informasjon kan vises i søkeresultater. Imidlertid, ingen av innhold fra dine sider vil bli gjennomsøkt, indeksert eller vises.,
for Å fullstendig hindre at en side blir lagt til i søkemotorens indeks selv om andre nettsteder linke til det, og bruk en «noindex» robots meta tag og sørge for at siden er ikke tillatt i roboter.txt. Når edderkopper gjennomsøker siden, det vil gjenkjenne «noindex» meta tag og slippe URL fra indeksen.
Roboter.txt og metakode konflikter
Hvis roboter.txt-fil, og en metakode instruksjoner for en side konflikt, roboter følg de mest restriktive. Mer spesifikt:
- Hvis du blokkerer en side med roboter.,txt, roboter vil aldri gjennomsøker siden, og vil aldri lest noen robots meta tags på siden.
- Hvis du lar en side med roboter.txt men blokkere det fra å bli indeksert ved hjelp av en metakode, Googlebot vil ha tilgang til siden, les meta tag, og senere ikke indeksere den.
Mens roboter.txt-filer er å beskytte innholdet på nettstedet blir indeksert, inkludert en roboter.txt-fil, uavhengig anbefales så mange robot prosesser se etter dem og tilbyr en kan bare fremskynde sine prosedyrer. Sammen roboter.,txt og robots meta tags gir deg fleksibilitet til å uttrykke komplekse tilgang retningslinjer relativt enkelt:
- Ta ut et helt nettsted eller del av et nettsted.
- Unngå indeksregulering av bildene i Google bildesøk og andre image-motorer.
- Unngå indeksregulering av duplikat innhold på et nettsted.
- å Fjerne individuelle sider på et nettsted ved hjelp av en robots Meta tag.
- Ta mellomlagrede kopier og tekstutdrag ved hjelp av en robots Meta tag.
Både roboter.txt og metakode stole på samarbeid fra robotene, og er på ingen måte garantert å fungere for hver robot., Hvis du trenger sterkere beskyttelse fra roboter og andre agenter, bør du bruke alternative metoder, for eksempel passordbeskyttelse.
meld deg på vårt daglige oppsummeringer av de stadig skiftende søk markedsføring landskapet.
Merk: Ved å sende inn dette skjemaet, godtar du til Tredje Døren Media»s-form. Vi respekterer ditt privatliv.,
Om Forfatteren
Stephan Spencer er skaperen av den 3-dagers oppslukende SEO seminar Trafikk-Kontroll, en forfatter av the O ‘ Reilly bøkene The Art of SEO Google Power Search, og Sosiale netthandel; grunnlegger av SEO agency Netconcepts (kjøpt i 2010); oppfinneren av SEO proxy-teknologi GravityStream, og vert av to podcast viser Få Deg Optimalisert og Markedsføring Snakke.