o privire mai profundă asupra roboților.Txt

0 Comments

Înscrieți-vă pentru recapitulările noastre zilnice ale peisajului de marketing de căutare în continuă schimbare.Notă: Prin trimiterea acestui formular, sunteți de acord cu Termenii Third Door Media. Vă respectăm confidențialitatea.Stephan Spencer pe 16 aprilie 2009 la 8:00 am

  • Categorii:toate lucrurile coloana SEO, canal: SEO, Cum să: SEO, SEO: Crawling și roboți
  • Protocolul de excludere roboți (REP) nu este tocmai un protocol complicat, iar utilizările sale sunt destul de limitate, și astfel, de obicei, este dat shrift scurt de SEO., Cu toate acestea, există mult mai mult decât ai putea crede. Roboți.txt este cu noi de peste 14 ani, dar câți dintre noi știau că pe lângă Directiva de interzicere există o directivă noindex pe care Googlebot o respectă? Că paginile noindexed nu ajung în index, dar paginile nepermise o fac, iar acestea din urmă pot apărea în rezultatele căutării (deși cu mai puține informații, deoarece păianjenii nu pot vedea conținutul paginii)? Că paginile nepermise încă acumulează PageRank? Roboții ăia.txt poate accepta o formă limitată de potrivire model?, Asta, din cauza acestei ultime caracteristici, puteți refuza selectiv nu doar directoarele, ci și anumite tipuri de Fișiere (bine, extensiile de fișiere pentru a fi mai exacte)? Asta e un robot.pagina txt nepermisă nu poate fi accesată de păianjeni, deci nu pot citi și asculta o etichetă meta robots conținută în pagină?

    Un robot.fișier txt oferă informații critice pentru păianjeni motor de căutare care se târască pe web. Înainte de acești roboți (mai spune cineva Cuvântul complet „roboți”?) paginile de acces ale unui site, Ei verifica pentru a vedea dacă un roboți.fișierul txt există., Acest lucru face crawling web mai eficient, deoarece roboți.fișierul txt împiedică roboții să acceseze anumite pagini care nu ar trebui indexate de motoarele de căutare.

    având un roboți.fișierul txt este o bună practică. Chiar și doar pentru simplul motiv că unele programe de valori vor interpreta răspunsul 404 la cererea de roboți lipsă.fișier txt ca o eroare, care ar putea duce la raportarea eronată a performanței. Dar ce se întâmplă în roboți.fișier txt? Asta e esența.

    ambii roboți.,etichetele meta txt și roboți se bazează pe cooperarea roboților și nu sunt în niciun caz garantate să funcționeze pentru fiecare bot. Dacă aveți nevoie de o protecție mai puternică împotriva roboților fără scrupule și a altor agenți, ar trebui să utilizați metode alternative, cum ar fi protecția prin parolă. De prea multe ori am văzut că webmasterii plasează naiv URL-uri sensibile, cum ar fi zonele administrative în roboți.txt. Ai face bine să crezi roboți.txt este unul dintre primele porturi de apel ale hackerului-pentru a vedea unde ar trebui să intre.

    roboți.,txt funcționează bine pentru:

    • Restricționare crawlerele de la non-publice părți ale site-ul dvs.
    • Restricționare motoarele de căutare încearcă să index script-uri, utilitati, sau alte tipuri de cod
    • Evitarea indexarea de conținut duplicat pe un site, cum ar fi „print” versiuni de pagini html
    • Auto-descoperire de Sitemap-uri XML

    cu riscul de a fi Căpitanul Evident, roboți.fișierul txt trebuie să se afle în rădăcina domeniului și trebuie să fie numit „roboți.txt ” (toate minuscule). Un robot.,fișierul txt situat într-un subdirector nu este valid, deoarece roboții verifică doar acest fișier în rădăcina domeniului.

    crearea unui roboți.fișierul txt este ușor. Puteți crea un roboți.fișier txt în orice editor de text. Ar trebui să fie un fișier text codificat ASCII, nu un fișier HTML.

    roboți.txt sintaxa

    • User-Agent: robotul următoarea regulă se aplică (de exemplu, „Googlebot,” etc.)
    • Disallow: paginile pe care doriți să blocați roboții de la accesarea (cât mai multe linii de interzicere după cum este necesar)
    • Noindex: paginile pe care doriți un motor de căutare pentru a bloca și nu index (sau de-index dacă anterior indexate)., Neoficial susținută de Google; neacceptat de Yahoo și Live Search.
    • fiecare grup User-Agent / Disallow ar trebui să fie separat printr-o linie goală; cu toate acestea, nu ar trebui să existe linii goale într-un grup (între linia User-agent și ultima Disallow).
    • simbolul hash ( # ) poate fi folosit pentru comentarii în cadrul unui robot.fișier txt, unde totul după # pe acea linie va fi ignorat. Poate fi utilizat fie pentru linii întregi, fie pentru sfârșitul liniilor.
    • directoarele și numele fișierelor sunt sensibile la litere mari și mici: „private”, „Private” și „PRIVATE” sunt diferite în mod unic de motoarele de căutare.,

    să ne uităm la un exemplu roboți.fișier txt. Exemplul de mai jos include:

    • robotul numit „Googlebot” nu are nimic nepermis și poate merge oriunde
    • tot site-ul este închis la robot numit „msnbot”;
    • Toate roboți (altele decât Googlebot) nu ar trebui să viziteze /tmp/ director sau directoare sau fișiere numite /busteni, după cum a explicat cu comentarii, de ex., tmp.htm, / busteni sau Busteni.php.

    User-agent: Googlebot
    Disallow:

    User-agent: msnbot
    Disallow: /

    # Block all robots from tmp and logs directories
    User-agent: *
    Disallow: /tmp/
    Disallow: /logs # for directories and files called logs

    Ce ar trebui să fie listate pe linia User-Agent?, Un agent utilizator este numele unui anumit robot de motor de căutare. Puteți seta o intrare să se aplice unui anumit bot (prin listarea numelui) sau o puteți seta să se aplice tuturor roboților (prin listarea unui asterisc, care acționează ca un wildcard). O intrare care se aplică tuturor roboților arată astfel:

    User-Agent: *

    roboții majori includ: Googlebot (Google), Slurp (Yahoo!), msnbot (MSN) și TEOMA (Ask).,rețineți că un bloc de directive specificat pentru agentul utilizator al Googlebot va fi respectat de Googlebot; dar Googlebot nu va respecta, de asemenea, directivele pentru agentul utilizator al * (toți roboții).

    ce ar trebui să fie listat pe linia de interzicere? Disallow listează paginile pe care doriți să le blocați. Puteți lista o anumită adresă URL sau un model. Intrarea ar trebui să înceapă cu un slash înainte (/).,

    Exemple:

    • Pentru a bloca întregul site-ul: Disallow: /
    • Pentru a bloca un director și totul în ea: Disallow: /private_directory/
    • Pentru a bloca o pagină: Disallow: /private_file.html
    • Pentru a bloca o pagină și/sau un director numit privat: Disallow: /private

    Dacă vă servi conținut prin intermediul atât http și https, veți avea nevoie de un separată roboți.fișier txt pentru fiecare dintre aceste protocoale. De exemplu, pentru a permite roboților să indexeze toate paginile http, dar fără pagini https, ați folosi roboții.,http:

    User-agent: *
    Disallow:

    și pentru protocolul https:

    User-agent: *
    Disallow: /

    Bots verifică roboții.fișier txt de fiecare dată când vin la un site web. Regulile în roboți.fișierul txt va fi în vigoare imediat după ce este încărcat în rădăcina site-ului și botul vine pe site. Cât de des este accesat variază în funcție de cât de frecvent păianjenul bots site-ul în funcție de popularitate, autoritate și cât de frecvent este actualizat conținutul., Unele site-uri pot fi accesate cu crawlere de mai multe ori pe zi, în timp ce altele pot fi accesate cu crawlere doar de câteva ori pe săptămână. Google Webmaster Central oferă o modalitate de a vedea când Googlebot a accesat ultima dată roboții.fișier txt.

    aș recomanda utilizarea roboților.instrument de analiză txt în Google Webmaster Central pentru a verifica anumite adrese URL pentru a vedea dacă roboții.fișier txt permite sau le blochează, a se vedea dacă Googlebot a avut probleme cu parsarea orice linii în roboți.fișier txt, și modificările de testare pentru roboți.fișier txt.,unele tehnici avansate motoarele de căutare majore au început să lucreze împreună pentru a avansa funcționalitatea roboților.fișier txt. După cum sa menționat mai sus, există unele funcții care au fost adoptate de motoarele de căutare majore, și nu neapărat toate motoarele majore, care asigură un control mai fin asupra crawling. Deoarece acestea pot fi limitate, deși, exercita prudență în utilizarea lor.

    întârziere cu crawlere: unele site-uri web pot experimenta cantități mari de trafic și ar dori să încetinească păianjenii motoarelor de căutare pentru a permite mai multe resurse de server pentru a satisface cerințele traficului obișnuit., Crawl-delay este o directivă specială recunoscut de către Yahoo, Live Search, și Întrebați care instruiește un crawler pe numărul de secunde de așteptare între crawling pagini:

    User-agent: msnbot
    Crawl-delay: 5

    Model de potrivire: În acest moment, de potrivire de model pare să fie utilizabil de către cele trei specializări: Google, Yahoo, și Live Search. Valoarea potrivirii modelului este considerabilă. Să ne uităm mai întâi la cele mai de bază de potrivire model, folosind caracterul Asterisk wildcard., Pentru a bloca accesul la toate subdirectoarele care încep cu”privat”:

    User-agent: Googlebot
    Disallow: /private*/

    puteți potrivi sfârșitul șirului folosind semnul dolar ($). De exemplu, pentru a bloca adresele URL care se termină cu .asp:

    User-agent: Googlebot
    Disallow: /*.asp$

    spre Deosebire de cel mai avansat model de potrivire găsit în expresii regulate in Perl și în altă parte, semnul de întrebare nu are puteri speciale. Deci, pentru a bloca accesul la toate adresele URL care includ un semn de întrebare (?,), pur și simplu utilizați semnul de întrebare (nu este nevoie să „scape” sau preceadă cu un backslash):

    User-agent: *
    Disallow: /*?*

    Pentru a bloca roboți din plin toate fișierele de un anumit tip de fișier (de exemplu, .gif):

    User-agent: *
    Disallow: /*.gif$

    Iată un exemplu mai complicat. Să presupunem că site-ul dvs. utilizează partea șir de interogare a adreselor URL (ceea ce urmează „?”) exclusiv pentru ID-urile de sesiune și doriți să excludeți toate adresele URL care conțin parametrul dinamic pentru a vă asigura că roboții nu accesează cu crawlere pagini duplicate. Dar poate doriți să includeți orice URL-uri care se termină cu un „?”., Iată cum ați realiza acest lucru:

    User-agent: Slurp
    Disallow: /*? # block any URL that includes a ?
    Allow: /*?$ # allow any URL that ends in a ?

    permite directiva: în acest moment, directiva permite pare să fie acceptată numai de Google, Yahoo și Ask. Așa cum sună, funcționează opusul Directivei de interzicere și oferă posibilitatea de a apela în mod specific directoare sau pagini care pot fi accesate cu crawlere. Acest lucru poate fi benefic după secțiuni mari sau întregul site a fost interzis.,

    Pentru a permite Googlebot în numai „google” director:

    User-agent: Googlebot
    Disallow: /
    Allow: /google/

    Noindex directivă: după Cum sa menționat mai sus, această directivă oferă beneficii în eliminarea snippetless titlul-mai puțin anunturi din rezultatele de căutare, dar este limitat la Google. Sintaxa sa reflectă exact Disallow. În cuvintele lui Matt Cutts:

    „Google permite o directivă NOINDEX în roboți.txt și va elimina complet toate adresele URL ale site-ului potrivite de la Google., (Acest comportament s-ar putea schimba pe baza acestei discuții politice, desigur, motiv pentru care nu am vorbit prea mult despre asta.)”

    Sitemap: Un sitemap XML fișier poate spune motoarele de căutare despre toate paginile de pe site-ul dvs., și, opțional, pentru a furniza informații despre aceste pagini, cum ar fi care sunt cele mai importante și cât de des se schimbă. Acesta acționează ca un mecanism de auto-descoperire pentru păianjen pentru a găsi fișierul sitemap XML. Puteți spune Google și altor motoare de căutare despre Sitemap-ul dvs. adăugând următoarea linie roboților dvs.,txt fișier:

    Sitemap: sitemap_location

    sitemap_location ar trebui să fie completați URL-ul pentru a Sitemap-ului, cum ar fi: http://www.example.com/sitemap.xml. Această directivă este independentă de linia user-agent, deci nu contează unde o plasați în fișierul dvs. Toate motoarele de căutare majore acceptă protocolul Sitemap de descoperire automată, inclusiv Google, Yahoo, Căutare Live și Ask.

    în timp ce auto-discovery oferă o modalitate de a informa motoarele de căutare despre sitemap.,fișier xml, este, de asemenea, merită verificarea și trimiterea sitemap-uri direct la motoarele de căutare prin fiecare dintre consolele lor webmaster (Google Webmaster Central, Yahoo Site Explorer, Live Search Webmaster Center).

    Mai multe despre roboții Google

    Google utilizează mai mulți roboți diferiți (agenți-utilizator). Botul pentru căutarea pe web este Googlebot. Ceilalți roboți Google respectă regulile pe care le-ați configurat pentru Googlebot, dar puteți configura și reguli suplimentare pentru acești roboți specifici. Blocarea Googlebot blochează toți roboții care încep cu „Googlebot”.,li>Googlebot-Mobil: accesează cu crawlere pagini pentru mobil index

  • Googlebot-Image: se târăște pagini de index imagine
  • Mediapartners-Google: accesează cu crawlere pagini pentru a determina AdSense conținut, doar accesează cu crawlere site-uri, dacă afișați anunțuri AdSense
  • Adsbot-Google: se târăște pentru a măsura AdWords calitatea paginii de destinație, doar accesează cu crawlere site-uri care folosesc Google AdWords pentru publicitate
  • puteți bloca Googlebot în întregime prin utilizarea:

    User-agent: Googlebot
    Disallow: /

    puteți permite Googlebot, dar bloca accesul la toate celelalte motoare de cautare:

    User-agent: *
    Disallow: /

    User-agent: Googlebot
    Disallow:

    Probleme cu roboți.,txt

    pagini pe care le blocați folosind roboți.txt disallows poate fi în continuare în indexul Google și să apară în rezultatele căutării — mai ales dacă alte site-uri se leagă de ele. Acordat, un rang înalt este destul de puțin probabil, deoarece Google nu poate „vedea” conținutul paginii; are foarte puțin de continuat, în afară de textul de ancoră al legăturilor interne și interne, și URL-ul (și titlul și descrierea ODP dacă este în ODP/DMOZ.) Drept urmare, URL-ul paginii și, eventual, alte informații disponibile publicului pot apărea în rezultatele căutării. Cu toate acestea, niciun conținut din paginile dvs. nu va fi accesat cu crawlere, indexat sau afișat.,

    pentru a împiedica în întregime adăugarea unei pagini la indexul unui motor de căutare, chiar dacă alte site-uri se leagă de acesta, utilizați o meta-etichetă roboți „noindex” și asigurați-vă că pagina nu este interzisă în roboți.txt. Când păianjenii accesează cu crawlere pagina, aceasta va recunoaște meta tag-ul” noindex ” și va arunca adresa URL din index.

    roboți.txt și roboți meta tag conflicte

    în cazul în care roboții.fișier txt și roboți instrucțiuni meta tag pentru un conflict pagină, roboții urmați cele mai restrictive. Mai exact:

    • dacă blocați o pagină cu roboți.,txt, bots nu va accesa cu crawlere pagina și nu va citi nici un roboți meta tag-uri de pe pagina.
    • dacă permiteți o pagină cu roboți.txt dar blocați-l de a fi indexat folosind o meta tag roboți, Googlebot va accesa pagina, citi meta tag-ul, și, ulterior, nu-l indexeze.

    în timp ce roboți.fișierele txt sunt pentru a proteja conținutul de pe un site de a fi indexate, inclusiv un roboți.fișier txt indiferent este recomandat ca multe procese robotizate uite pentru ei și oferind o poate accelera doar procedurile lor. Împreună, roboți.,etichetele meta txt și roboți vă oferă flexibilitatea de a exprima relativ ușor politicile complexe de acces:

    • eliminarea unui întreg site web sau a unei părți a unui site web.
    • evitarea indexării imaginilor în căutarea de imagini Google și în alte motoare de imagini.
    • evitarea indexării conținutului duplicat pe un site.
    • eliminarea paginilor individuale de pe un site folosind o Meta tag roboți.
    • eliminarea copiilor și fragmentelor memorate în cache utilizând o etichetă meta robots.

    ambii roboți.txt și roboți meta tag se bazează pe cooperarea de roboți, și sunt în nici un caz garantat de a lucra pentru fiecare robot., Dacă aveți nevoie de o protecție mai puternică împotriva roboților și a altor agenți, ar trebui să utilizați metode alternative, cum ar fi protecția prin parolă.Inregistreaza-te pentru recapitulari noastre de zi cu zi a peisajului de căutare de marketing în continuă schimbare.Notă: Prin trimiterea acestui formular, sunteți de acord cu Termenii Third Door Media. Vă respectăm confidențialitatea.,

    Despre Autor

    Ștefan Spencer

    Ștefan Spencer este creatorul a 3-a zi captivantă SEO seminar de Control al Traficului; un autor de O ‘ reilly carti Arta de SEO, Google Puterea de Căutare, Sociale și de e-commerce; fondatorul agenție de SEO Netconcepts (achiziționate în 2010); inventatorul SEO proxy tehnologie GravityStream; și gazda a două spectacole de podcast Te Optimizat și Vorbesc de Marketing.


    Lasă un răspuns

    Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *