hlubší pohled na roboty.txt

0 Comments

přihlaste se k našim každodenním shrnutím neustále se měnícího marketingového prostředí vyhledávání.

Poznámka: odesláním tohoto formuláře souhlasíte s podmínkami třetích dveří Media. Respektujeme vaše soukromí.

Stephan Spencer na 16. dubna 2009 v 8:00

  • Kategorie:Všechny Věci, SEO Sloupec, Kanál: SEO, Jak Na to: SEO, SEO: Procházení a Robotů
  • Robots Exclusion Protocol (REP) není zrovna složitý protokol a jeho využití jsou poměrně omezené, a proto je obvykle uveden krátký proces o Seo., Přesto je toho mnohem víc, než si myslíte. Robot.txt je s námi již více než 14 let, ale kolik z nás vědělo, že kromě směrnice o zákazu existuje směrnice noindex, kterou Googlebot poslouchá? Že noindexed stránky neskončí v indexu, ale nepovolené stránky, a může ukázat ve výsledcích vyhledávání (byť s méně informací, protože pavouci nemůže vidět obsah stránky)? Že nepovolené stránky stále hromadí PageRank? To jsou roboti.txt může přijmout omezenou formu přizpůsobení vzoru?, Že díky této poslední funkci můžete selektivně zakázat nejen adresáře, ale také konkrétní typy souborů (přesněji přípony souborů)? To je robot.txt zakázaná stránka nemůže být přístupná pavouky, takže nemohou číst a poslouchat značku meta robotů obsaženou na stránce?

    roboti.txt soubor poskytuje důležité informace pro vyhledávače pavouky, které procházejí web. Před těmito roboty (už někdo říká plné slovo „roboti“?) přístup na stránky webu, zkontrolují, zda roboti.txt soubor existuje., Díky tomu je procházení webu efektivnější, protože roboti.txt soubor udržuje roboty v přístupu na určité stránky, které by neměly být indexovány vyhledávači.

    mít roboty.txt soubor je nejlepší praxe. Dokonce jen z jednoduchého důvodu, že některé metriky programy budou interpretovat 404 odpověď na žádost o chybějící roboty.txt soubor jako chyba, která by mohla mít za následek chybné hlášení výkonu. Ale co se děje v těch robotech.txt soubor? To je podstata toho.

    oba roboty.,txt a roboti meta tagy spoléhají na spolupráci od robotů,a nejsou v žádném případě zaručeno, že pracovat pro každý bot. Pokud potřebujete silnější ochranu před bezohlednými roboty a jinými agenty, měli byste použít alternativní metody, jako je ochrana heslem. Příliš mnohokrát jsem viděl webmastery naivně umísťovat citlivé adresy URL, jako jsou administrativní oblasti, do robotů.txt. Raději věřte robotům.txt je jedním z prvních portů volání hackera-aby zjistil, kam by se měli vloupat.

    roboti.,txt funguje dobře pro:

    • Blokování roboti z non-veřejné části vašeho webu
    • Blokování vyhledávačů z pokusu index skripty, nástroje, nebo jiné typy kódu
    • Zamezení indexace duplicitní obsah na webových stránkách, jako „print“ verze html stránky
    • Auto-discovery XML Sitemaps

    Na riziko, že Kapitán Zřejmé, roboti.txt soubor musí být umístěn v kořenovém adresáři domény a musí být pojmenován „roboti.txt “ (všechna malá písmena). Robot.,txt soubor umístěný v podadresáři není platný, protože roboty pouze kontrolují tento soubor v kořenovém adresáři domény.

    vytvoření roboty.txt soubor je snadné. Můžete vytvořit roboty.txt soubor v libovolném textovém editoru. Měl by to být textový soubor kódovaný ASCII, nikoli soubor HTML.

    roboti.syntaxe txt

    • User-Agent: robot následující pravidlo platí pro (např. „Googlebot“ atd.)
    • Disallow: stránky, které chcete blokovat roboty přístup (jako mnoho zakázat řádky podle potřeby)
    • Noindex: stránky chcete-vyhledávač blokovat A ne index (nebo de-index, pokud dříve indexovány)., Neoficiálně podporované společností Google; nepodporované společností Yahoo a Live Search.
    • každá skupina User-Agent/Disallow by měla být oddělena prázdným řádkem; ve skupině by však neměly existovat žádné prázdné řádky(mezi řádkem User-agent a posledním zakázáním).
    • symbol hash ( # ) může být použit pro komentáře v rámci robotů.txt soubor, kde bude vše po # na tomto řádku ignorováno. Může být použit buď pro celé linky nebo konec linek.
    • adresáře a názvy souborů jsou citlivé na velká písmena:“ soukromé“,“ soukromé „a“ soukromé “ se liší od vyhledávačů.,

    podívejme se na příklad robotů.txt soubor. Níže uvedený příklad zahrnuje:

    • robot s názvem „Googlebot“ nemá nic zakázáno a může jít kamkoli,
    • celý web je uzavřen robot s názvem „msnbot“;
    • Všechny roboty (jiné než Googlebot) by neměl navštívit adresáři /tmp/ nebo adresáře, nebo soubory /záznamy, jak je vysvětleno s komentáři, např. tmp.htm, / protokoly nebo protokoly.Linux.

    User-agent: Googlebot
    Disallow:

    User-agent: msnbot
    Disallow: /

    # Block all robots from tmp and logs directories
    User-agent: *
    Disallow: /tmp/
    Disallow: /logs # for directories and files called logs

    Co by měly být uvedeny na User-Agent line?, Uživatel-agent je název konkrétního robota vyhledávače. Můžete nastavit položku použít konkrétní bot (výpis jméno), nebo můžete nastavit, aby to platí pro všechny roboty (seznam hvězdičkou, která se chová jako zástupný znak). Položku, která se vztahuje na všechny roboty vypadá takto:

    User-Agent: *

    Hlavní robotů patří: Googlebot (Google), Usrkávat (Yahoo!), msnbot (MSN) a TEOMA (Ask).,

    mějte na paměti, že blok směrnic specifikovaných pro uživatelského agenta Googlebotu bude Googlebot poslouchán; Googlebot však nebude také dodržovat směrnice pro uživatele-agenta * (všechny roboty).

    Co by mělo být uvedeno na řádku zakázat? Zakázat uvádí stránky, které chcete zablokovat. Můžete uvést konkrétní adresu URL nebo vzor. Položka by měla začínat lomítkem vpřed ( / ).,

    Příklady:

    • blokovat celý web: Disallow: /
    • blok, adresář a v něm všechno: Disallow: /private_directory/
    • blokovat stránky: Disallow: /private_file.html
    • blokovat stránky a/nebo adresáři s názvem private: Disallow: /private

    Pokud se vám poskytovat obsah přes http a https, budete potřebovat samostatný roboty.txt soubor pro každý z těchto protokolů. Například, aby roboti mohli indexovat všechny stránky http, ale žádné stránky https, použili byste roboty.,txt soubory takto, pro http protokol:

    User-agent: *
    Disallow:

    A pro https protokol:

    User-agent: *
    Disallow: /

    Roboty podívejte se na roboty.txt soubor pokaždé, když přijdou na webové stránky. Pravidla v robotech.txt soubor bude v platnosti okamžitě, jakmile je nahrán do kořenového adresáře webu a bot přijde na web. Jak často je přístup liší na to, jak často roboty spider web na základě popularity, autority a jak často obsah je aktualizován., Některé weby mohou být lezl několikrát denně, zatímco jiní mohou být pouze lezl několikrát týdně. Google Webmaster Central poskytuje způsob, jak zjistit, kdy Googlebot Naposledy přistupoval k robotům.txt soubor.

    doporučuji používat roboty.nástroj pro analýzu txt v Google Webmaster Central pro kontrolu konkrétních adres URL, abyste zjistili, zda jsou vaši roboti.txt soubor umožňuje nebo blokuje je, uvidíme, jestli Googlebot měl problém analyzovat všechny řádky ve svých robotů.txt soubor a testovací změny vašich robotů.txt soubor.,

    některé pokročilé techniky

    hlavní vyhledávače začaly spolupracovat na vylepšení funkčnosti robotů.txt soubor. Jak bylo uvedeno výše, existují některé funkce, které byly přijaty hlavními vyhledávači, a ne nutně všechny hlavní motory, které zajišťují jemnější kontrolu nad plazením. Vzhledem k tomu, že tyto mohou být omezeny, buďte opatrní při jejich používání.

    prodleva procházení: některé webové stránky mohou mít velké množství provozu a chtěli by zpomalit pavouky vyhledávačů, aby umožnily více serverových zdrojů, aby splňovaly požadavky pravidelného provozu., Procházení zpoždění je zvláštní směrnicí uznána Yahoo, Live Search, a Zeptejte se, že pověřuje crawler na počet sekund čekání mezi procházení stránek:

    User-agent: msnbot
    Crawl-delay: 5

    Pattern matching: V této době, pattern matching se zdá být použitelný pro tři obory: Google, Yahoo a Live Search. Hodnota shody vzorů je značná. Podívejme se nejprve na nejzákladnější přizpůsobení vzoru pomocí zástupného znaku hvězdičky., Chcete-li zablokovat přístup ke všem podadresářům, které začínají „private“:

    User-agent: Googlebot
    Disallow: /private*/

    můžete odpovídat konci řetězce pomocí dollar sign ($). Chcete-li například zablokovat adresy URL, které končí .asp:

    User-agent: Googlebot
    Disallow: /*.asp$

    na Rozdíl od vyspělejších vzorů nalézt v regulární výrazy v Perlu a jinde, otazník nemá speciální schopnosti. Chcete-li zablokovat přístup ke všem adresám URL, které obsahují otazník (?,), jednoduše použijte otazník (není třeba „útěk“ nebo napište před něj zpětné lomítko):

    User-agent: *
    Disallow: /*?*

    blokovat roboty z plazí všechny soubory konkrétního typu souboru (například .gif):

    User-agent: *
    Disallow: /*.gif$

    zde je složitější příklad. Řekněme, že váš web používá část dotazového řetězce adres URL (co následuje „?“) výhradně pro Id relace, a chcete vyloučit všechny adresy Url, které obsahují dynamický parametr, aby zajistily, roboty nemusíte procházet duplicitní stránky. Ale možná budete chtít zahrnout všechny adresy URL, které končí“?”., Zde je návod, jak byste toho dosáhnout:

    User-agent: Slurp
    Disallow: /*? # block any URL that includes a ?
    Allow: /*?$ # allow any URL that ends in a ?

    Povolit směrnice: V této době, aby směrnice se zdá být podporován Google, Yahoo a Ask. Stejně jako to zní, funguje to opakem směrnice Disallow a poskytuje možnost specificky volat adresáře nebo stránky, které mohou být plazeny. To může být prospěšné po velkých sekcích nebo po zakázání celého webu.,

    povolit Googlebot pouze do „google“ adresář:

    User-agent: Googlebot
    Disallow: /
    Allow: /google/

    Noindex směrnice: Jak bylo uvedeno výše, tato směrnice nabízí výhody v odstraňování snippetless název-méně výpisy z výsledků vyhledávání, ale je omezena na Google. Jeho syntaxe přesně zrcadlí zakázat. Ve slovech Matt Cutts:

    “ Google umožňuje směrnici NOINDEX v robotech.txt a zcela odstraní všechny odpovídající adresy URL stránek od společnosti Google., (Toto chování by se samozřejmě mohlo změnit na základě této politické diskuse, proto jsme o tom moc nemluvili.)“

    Mapa stránek: XML soubor sitemap můžete říct vyhledávačům, o všechny stránky na vašem webu, a případně poskytovat informace o těchto stránkách, jako, které jsou nejdůležitější a jak často se mění. Funguje jako mechanismus automatického zjišťování, aby pavouk našel soubor sitemap XML. Google a další vyhledávače o vašem Sitemapu můžete informovat přidáním následujícího řádku k robotům.,txt soubor:

    Sitemap: sitemap_location

    sitemap_location by měl být kompletní URL do souboru Sitemap, například: http://www.example.com/sitemap.xml. Tato směrnice je nezávislá na řádku user-agent, takže nezáleží na tom, kam ji umístíte do souboru. Všechny hlavní vyhledávače podporují protokol Auto-Discovery Sitemap, včetně Google, Yahoo, Live Search a Ask.

    zatímco auto-discovery poskytuje způsob, jak informovat vyhledávače o souboru sitemap.,XML soubor, je to také stojí za ověření a předkládání Sitemap přímo do vyhledávačů prostřednictvím každého z jejich Webmaster konzolí (Google Webmaster Central, Yahoo Site Explorer, Live Search Webmaster Center).

    Více o Google bots

    Google používá několik různých robotů (user-agents). Bot pro vyhledávání na webu je Googlebot. Ostatní roboti společnosti Google dodržují pravidla, která jste nastavili pro Googlebot, ale pro tyto konkrétní roboty můžete také nastavit další pravidla. Blokování Googlebot blokuje všechny roboty, které začínají „Googlebot“.,li>Googlebot-Mobile: prochází stránky pro mobilní index

  • Googlebot-Image: prochází stránky pro index image
  • Mediapartners-Google: prochází stránky, aby zjistil, AdSense obsah, pouze se plazí lokalit-li zobrazovat reklamy AdSense
  • prohledávač Adsbot-Google: prochází měřit AdWords landing page kvality, jen se plazí stránek, které používají Google AdWords propagovat
  • můžete blokovat Googlebot výhradně pomocí:

    User-agent: Googlebot
    Disallow: /

    můžete povolit Googlebot, ale zablokovat přístup na všechny ostatní roboty:

    User-agent: *
    Disallow: /

    User-agent: Googlebot
    Disallow:

    Problémy s roboty.,txt

    stránky, které blokujete pomocí robotů.txt zakáže může být stále v indexu Google a zobrazují se ve výsledcích vyhledávání — zejména pokud na ně odkazují jiné weby. Samozřejmost, vysoké hodnocení je dost nepravděpodobné, protože Google nemůže „vidět“ na obsah stránky; to má velmi málo jít na jiné než kotva text příchozích a interních odkazů a URL (a ODP název a popis, pokud v ODP/DMOZ.) V důsledku toho se ve výsledcích vyhledávání může objevit adresa URL stránky a případně další veřejně dostupné informace. Žádný obsah z vašich stránek však nebude procházen, indexován nebo zobrazen.,

    , Aby se zcela zabránilo stránku z přidávány do vyhledávače index, i když jiné stránky odkaz na něj, použijte „noindex“ robots meta tag a zajistit, že stránka není zakázáno v roboty.txt. Když pavouci procházejí stránku, rozpozná metaznačku „noindex“ a vypustí adresu URL z indexu.

    roboti.txt a roboti meta tag konflikty

    Pokud roboti.txt soubor a roboti meta tag pokyny pro konflikt stránek, roboti následovat nejvíce restriktivní. Konkrétněji:

    • pokud zablokujete stránku pomocí robotů.,txt, roboti nikdy nebudou procházet stránku a nikdy nebudou číst žádné meta tagy robotů na stránce.
    • Pokud povolíte stránku s roboty.txt, ale blokovat jeho indexování pomocí meta tagu robotů, Googlebot bude přistupovat na stránku, číst meta tag, a následně ne indexovat.

    zatímco roboti.txt soubory mají chránit obsah na webu před indexováním, včetně robotů.txt soubor bez ohledu na to se doporučuje, jak mnoho robotické procesy hledat pro ně a nabízí jeden může jen urychlit své postupy. Společně, roboti.,tagy txt a robots meta vám umožňují relativně snadno vyjádřit složité zásady přístupu:

    • odstranění celé webové stránky nebo části webové stránky.
    • Vyhněte se indexaci obrázků ve Vyhledávání obrázků Google a dalších obrazových strojích.
    • vyhnout se indexaci duplicitního obsahu na webu.
    • odstranění jednotlivých stránek na webu pomocí metaznačky robots.
    • odstranění mezipaměti kopie a úryvky pomocí robotů meta tag.

    oba roboty.txt a roboti meta tag spoléhají na spolupráci robotů a v žádném případě nejsou zaručeny, že budou pracovat pro každého robota., Pokud potřebujete silnější ochranu před roboty a jinými agenty, měli byste použít alternativní metody, jako je ochrana heslem.

    Zaregistrujte se pro naše každodenní shrne neustále se měnící vyhledávání marketing krajiny.

    Poznámka: odesláním tohoto formuláře souhlasíte s podmínkami třetích dveří Media. Respektujeme vaše soukromí.,

    O Autorovi

    Stephan Spencer

    Stephan Spencer je tvůrcem 3-denní pohlcující SEO seminář Provozu; autor O ‚ reilly knihy The Art of SEO, Google Power Search a Sociální elektronického obchodu; zakladatel SEO agentury Netconcepts (získal v roce 2010); vynálezce SEO proxy technologie GravityStream; a hostitel dvou podcast ukazuje Si Sami Optimalizované a Marketing Mluvit.


    Napsat komentář

    Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *