głębsze spojrzenie na roboty.txt

0 Comments

Zapisz się na nasze codzienne podsumowania nieustannie zmieniającego się krajobrazu marketingu w wyszukiwarkach.

Uwaga: przesyłając ten formularz, zgadzasz się na warunki Third Door Media. Szanujemy Twoją prywatność.

Stephan Spencer on April 16, 2009 at 8:00 am

  • kategorie:Wszystkie Rzeczy Kolumna SEO, kanał: SEO, jak: SEO, SEO: Crawling i roboty
  • protokół wyłączenia robotów (REP) nie jest dokładnie skomplikowanym protokołem, a jego zastosowania są dość ograniczone, a zatem zwykle jest to krótki shrift przez SEO., Ale jest w tym o wiele więcej, niż mogłoby się wydawać. Roboty.txt jest z nami od ponad 14 lat, ale ilu z nas wiedziało, że oprócz dyrektywy disallow istnieje dyrektywa noindex, której przestrzega Googlebot? Że żadne Strony nie trafiają do indeksu, a te drugie mogą pojawić się w wynikach wyszukiwania (choć z mniejszą ilością informacji, bo pająki nie widzą zawartości strony)? Że niedozwolone strony nadal gromadzą PageRank? To roboty.txt może zaakceptować ograniczoną formę dopasowania wzorca?, Że z powodu tej ostatniej funkcji można selektywnie zablokować nie tylko katalogi, ale także poszczególne typy plików (a dokładniej rozszerzenia plików)? To robota.txt wyłączona strona nie może być dostępna dla pająków, więc nie mogą czytać i przestrzegać tagów Meta robotów zawartych na stronie?

    a roboty.plik txt zapewnia krytyczne informacje dla pająków wyszukiwarek, które pełzają w sieci. Przed tymi botami (czy ktoś już wypowiada pełne słowo „roboty”?) dostęp do stron witryny, sprawdzają, czy roboty.plik txt istnieje., Robi to sprawia, że pełzanie w sieci jest bardziej wydajne, ponieważ roboty.plik txt uniemożliwia botom dostęp do niektórych stron, które nie powinny być indeksowane przez wyszukiwarki.

    o robocie.plik txt jest najlepszą praktyką. Nawet tylko z tego prostego powodu, że niektóre programy metryczne zinterpretują odpowiedź 404 na żądanie brakującego robota.plik txt jako błąd, który może spowodować błędne raportowanie wydajności. Ale co idzie w tych robotach.plik txt? O to chodzi.

    oba roboty.,txt i meta tagi robotów polegają na współpracy robotów i w żadnym wypadku nie gwarantują działania dla każdego bota. Jeśli potrzebujesz silniejszej ochrony przed pozbawionymi skrupułów robotami i innymi agentami, powinieneś użyć alternatywnych metod, takich jak ochrona hasłem. Zbyt wiele razy widziałem webmasterów naiwnie umieszczających wrażliwe adresy URL, takie jak obszary administracyjne w robotach.txt. Lepiej uwierz robotom.txt jest jednym z pierwszych portów wywołania hakera—aby zobaczyć, gdzie powinni się włamać.

    roboty.,txt działa dobrze dla:

    • wykluczenie robotów indeksujących z niepublicznych części witryny
    • wykluczenie wyszukiwarek z prób indeksowania skryptów, narzędzi lub innych rodzajów kodu
    • unikanie indeksowania zduplikowanych treści na stronie internetowej, takich jak „drukowane” wersje stron html
    • Automatyczne wykrywanie map witryn XML

    na ryzyko bycia kapitanem oczywistym, roboty.plik txt musi znajdować się w katalogu głównym domeny i musi mieć nazwę „roboty.txt” (wszystkie małe litery). Robot.,plik txt znajdujący się w podkatalogu nie jest poprawny, ponieważ boty sprawdzają tylko ten plik w katalogu głównym domeny.

    Tworzenie robotów.plik txt jest łatwy. Możesz stworzyć roboty.plik txt w dowolnym edytorze tekstu. Powinien to być plik tekstowy zakodowany w ASCII, a nie plik HTML.

    roboty.składnia txt

    • User-Agent: do robota odnosi się następująca reguła (np. „Googlebot”, itd.)
    • Disallow: strony, do których chcesz zablokować dostęp botów (tyle linii, ile potrzebujesz)
    • Noindex: strony, które chcesz, aby wyszukiwarka zablokowała, a nie indeksowała (lub de-indeksowała, jeśli wcześniej była indeksowana)., Nieoficjalnie obsługiwane przez Google; nieobsługiwane przez Yahoo i Live Search.
    • każda grupa User-agent / Disallow powinna być oddzielona pustą linią; jednak nie powinny istnieć puste linie w grupie (między linią User-agent a ostatnią blokadą).
    • symbol hash ( # ) może być używany do komentarzy w robotach.plik txt, gdzie wszystko po # w tej linii zostanie zignorowane. Może być stosowany zarówno dla całych linii, jak i dla końca linii.
    • katalogi i nazwy plików uwzględniają wielkość liter: „prywatne”, „prywatne” i „prywatne”różnią się od wyszukiwarek.,

    spójrzmy na przykładowe roboty.plik txt. Poniższy przykład obejmuje:

    • robot o nazwie „Googlebot” nie ma nic niedozwolonego i może iść gdziekolwiek
    • cała strona jest zamknięta dla robota o nazwie „msnbot”;
    • wszystkie roboty (inne niż Googlebot) nie powinny odwiedzać katalogu /tmp/ lub katalogów lub plików o nazwie /logs, jak wyjaśniono za pomocą komentarzy, np.htm, / logs lub logs.php.

    User-agent: Googlebot
    Disallow:

    User-agent: msnbot
    Disallow: /

    # Block all robots from tmp and logs directories
    User-agent: *
    Disallow: /tmp/
    Disallow: /logs # for directories and files called logs

    co powinno być wymienione w linii User-Agent?, User-agent to nazwa konkretnego robota Wyszukiwarki. Możesz ustawić wpis, aby zastosować do określonego bota (podając nazwę) lub możesz ustawić go, aby zastosować do wszystkich botów (podając gwiazdkę, która działa jako symbol wieloznaczny). Wpis, który dotyczy wszystkich botów wygląda tak:

    User-Agent: *

    główne roboty to: Googlebot (Google), Slurp (Yahoo!), MSNBOT (MSN) i TEOMA (Ask).,

    należy pamiętać, że blok dyrektyw określony Dla user-agenta Googlebota będzie przestrzegany przez Googlebota; ale Googlebot nie będzie również przestrzegał dyrektyw dla user-agenta * (wszystkich botów).

    co powinno być wymienione w linii Disallow? Blokada wyświetla listę stron, które chcesz zablokować. Możesz podać konkretny adres URL lub wzór. Wpis powinien zaczynać się ukośnikiem (/).,

    przykłady:

    • aby zablokować całą stronę: Disallow: /
    • aby zablokować katalog i wszystko w nim: Disallow: /private_directory/
    • aby zablokować stronę: Disallow: /private_file.html
    • aby zablokować stronę i/lub katalog o nazwie private: Disallow: /private

    jeśli obsługujesz zawartość zarówno przez HTTP, jak i HTTPS, potrzebujesz osobnych robotów.plik txt dla każdego z tych protokołów. Na przykład, aby umożliwić robotom indeksowanie wszystkich stron http, ale bez stron https, należy użyć tych robotów.,pliki txt w następujący sposób, dla Twojego protokołu http:

    User-agent: *
    Disallow:

    i dla protokołu https:

    User-agent: *
    Disallow: /

    boty sprawdzają czy roboty nie są.plik txt za każdym razem, gdy przychodzą na stronę internetową. Zasady w robotach.plik txt będzie obowiązywał natychmiast po przesłaniu go do katalogu głównego witryny i pojawieniu się bota na witrynie. To, jak często jest dostępny, zależy od tego, jak często boty odwiedzają witrynę w oparciu o popularność, autorytet i częstotliwość aktualizacji treści., Niektóre witryny mogą być czołgane kilka razy dziennie, podczas gdy inne mogą być czołgane tylko kilka razy w tygodniu. Google Webmaster Central zapewnia sposób, aby zobaczyć, kiedy Googlebot Ostatni dostęp do robotów.plik txt.

    polecam korzystanie z robotów.narzędzie do analizy txt w Google Webmaster Central, aby sprawdzić konkretne adresy URL, aby sprawdzić, czy Twoje roboty.plik txt pozwala lub blokuje je, sprawdź, czy Googlebot miał problemy z parsowaniem linii w robotach.plik txt i przetestuj zmiany w swoich robotach.plik txt.,

    niektóre zaawansowane techniki

    główne wyszukiwarki zaczęły współpracować, aby zwiększyć funkcjonalność robotów.plik txt. Jak wspomniano powyżej, istnieją pewne funkcje, które zostały przyjęte przez główne wyszukiwarki, a niekoniecznie wszystkie główne silniki, które zapewniają lepszą kontrolę nad indeksowaniem. Ponieważ mogą one być ograniczone, należy zachować ostrożność podczas ich stosowania.

    opóźnienie indeksowania: niektóre strony internetowe mogą doświadczać dużego ruchu i chcieliby spowolnić pająki wyszukiwarek, aby umożliwić więcej zasobów serwera, aby sprostać wymaganiom regularnego ruchu., Crawl delay to specjalna dyrektywa rozpoznawana przez Yahoo, Live Search I Ask, która instruuje robota o liczbie sekund oczekiwania między stronami indeksującymi:

    User-agent: msnbot
    Crawl-delay: 5

    dopasowanie wzorców: w tej chwili dopasowanie wzorców wydaje się być użyteczne przez trzy główne kierunki: Google, Yahoo i Live Search. Wartość dopasowania wzorca jest znaczna. Spójrzmy najpierw na najbardziej podstawowe dopasowanie wzorca, używając znaku gwiazdki wieloznacznego., Aby zablokować dostęp do wszystkich podkatalogów zaczynających się od”private”:

    User-agent: Googlebot
    Disallow: /private*/

    możesz dopasować koniec łańcucha za pomocą znaku dolara ($). Na przykład, aby zablokować adresy URL, które kończą się .asp:

    User-agent: Googlebot
    Disallow: /*.asp$

    w przeciwieństwie do bardziej zaawansowanych dopasowań wzorców występujących w wyrażeniach regularnych w Perlu i w innych miejscach, znak zapytania nie ma specjalnych uprawnień. Aby zablokować dostęp do wszystkich adresów URL zawierających znak zapytania (?,), po prostu użyj znaku zapytania (nie ma potrzeby „ucieczki” go lub poprzedzania go odwrotnym ukośnikiem):

    User-agent: *
    Disallow: /*?*

    aby zablokować roboty przed indeksowaniem wszystkich plików określonego typu (na przykład,.gif):

    User-agent: *
    Disallow: /*.gif$

    oto bardziej skomplikowany przykład. Załóżmy, że Twoja witryna używa Części ciągu zapytań adresów URL(co następuje po”?”) wyłącznie dla identyfikatorów sesji i chcesz wykluczyć wszystkie adresy URL zawierające parametr dynamiczny, aby boty nie indeksowały zduplikowanych stron. Ale możesz chcieć dołączyć adresy URL, które kończą się „?”., Oto jak możesz to osiągnąć:

    User-agent: Slurp
    Disallow: /*? # block any URL that includes a ?
    Allow: /*?$ # allow any URL that ends in a ?

    Zezwalaj na dyrektywę: w tej chwili wydaje się, że dyrektywa Zezwalaj jest obsługiwana tylko przez Google, Yahoo I Ask. Tak jak to brzmi, działa odwrotnie niż dyrektywa Disallow i zapewnia możliwość specyficznego wywoływania katalogów lub stron, które mogą być indeksowane. Może to być korzystne po dużych sekcjach lub całej stronie został wyłączony.,

    aby umożliwić Googlebotowi dostęp tylko do katalogu „google”:

    User-agent: Googlebot
    Disallow: /
    Allow: /google/

    Dyrektywa Noindex: jak wspomniano powyżej, dyrektywa ta oferuje korzyści w eliminowaniu bezszpikowych list Bez tytułu z wyników wyszukiwania, ale jest ograniczona do Google. Jego składnia dokładnie odzwierciedla Disallow. W słowach Matt Cutts:

    „Google zezwala na dyrektywę NOINDEX w robotach.txt i całkowicie usunie wszystkie pasujące adresy URL witryny z Google., (To zachowanie może się zmienić w oparciu o tę dyskusję o polityce, oczywiście, dlatego nie rozmawialiśmy o tym zbyt wiele.) „

    Mapa strony: plik mapy strony XML może informować Wyszukiwarki o wszystkich stronach w Twojej witrynie i opcjonalnie dostarczać informacji o tych stronach, na przykład o tym, które są najważniejsze i jak często się zmieniają. Działa jako mechanizm automatycznego wykrywania dla pająka, aby znaleźć plik mapy witryny XML. Możesz powiedzieć Google i innym wyszukiwarkom o swojej mapie witryny, dodając następującą linię do swoich robotów.,plik txt:

    Sitemap: sitemap_location

    Mapa witryny powinna być kompletnym adresem URL mapy witryny, takim jak:http://www.example.com/sitemap.xml. Ta dyrektywa jest niezależna od linii user-agent, więc nie ma znaczenia, gdzie umieścisz ją w pliku. Wszystkie główne wyszukiwarki obsługują protokół Auto-Discovery Sitemap, w tym Google, Yahoo, Live Search I Ask.

    podczas gdy auto-discovery zapewnia sposób informowania wyszukiwarek o mapie witryny.,plik xml, warto również zweryfikować i przesłać mapy witryn bezpośrednio do wyszukiwarek za pośrednictwem każdej z ich konsol webmasterów (Google Webmaster Central, Yahoo Site Explorer, Live Search Webmaster Center).

    Więcej o botach Google

    Google używa kilku różnych botów (user-agentów). Bot do wyszukiwania w Internecie to Googlebot. Inne boty Google postępują zgodnie z zasadami ustawionymi dla Googlebota, ale możesz również ustawić dodatkowe reguły dla tych konkretnych botów. Blokowanie Googlebot blokuje wszystkie boty zaczynające się od „Googlebot”.,li > Googlebot-Mobile: indeksuje strony dla indeksu telefonów

  • Googlebot-Image: indeksuje strony dla indeksu obrazów
  • Mediapartners-Google: indeksuje strony, aby określić zawartość AdSense, tylko indeksuje strony, jeśli Pokaż reklamy AdSense
  • Adsbot-Google: indeksuje, aby zmierzyć jakość strony docelowej AdWords, tylko indeksuje strony, które używają Google AdWords do reklamowania
  • Możesz zablokować Googlebot całkowicie za pomocą:p

    User-agent: Googlebot
    Disallow: /

    możesz zezwolić Googlebotowi, ale zablokować dostęp do wszystkich innych botów:

    User-agent: *
    Disallow: /

    User-agent: Googlebot
    Disallow:

    problemy z robotami.,txt

    strony, które blokujesz za pomocą robotów.txt disallows może nadal znajdować się w indeksie Google i pojawiać się w wynikach wyszukiwania-zwłaszcza jeśli inne witryny linkują do nich. Przyznam, że wysoka pozycja jest dość mało prawdopodobna, ponieważ Google nie może „zobaczyć” treści strony; ma bardzo niewiele do zrobienia poza tekstem kotwicy linków przychodzących i wewnętrznych oraz adresem URL (i tytułem ODP i opisem, jeśli w ODP/DMOZ.) W rezultacie w wynikach wyszukiwania może pojawić się adres URL strony i potencjalnie inne publicznie dostępne informacje. Jednak żadna zawartość z twoich Stron nie będzie indeksowana, indeksowana ani wyświetlana.,

    aby całkowicie uniemożliwić dodawanie strony do indeksu wyszukiwarki, nawet jeśli inne witryny do niej prowadzą, użyj meta tagu robotów „noindex” i upewnij się, że strona nie jest niedozwolona w robotach.txt. Gdy pająki indeksują stronę, rozpoznaje meta tag „noindex” i upuszcza adres URL z indeksu.

    roboty.TXT i roboty meta tag konflikty

    Jeśli roboty.txt file and robots meta tag instructions w przypadku konfliktu stron boty postępują zgodnie z najbardziej restrykcyjnymi. Dokładniej:

    • Jeśli blokujesz stronę za pomocą robotów.,txt, boty nigdy nie będą indeksować strony i nigdy nie będą czytać żadnych metatagów robotów na stronie.
    • Jeśli zezwalasz na stronę z robotami.txt ale zablokuj go przed indeksowaniem za pomocą metatagów robotów, Googlebot uzyska dostęp do strony, odczyta metatag, a następnie nie indeksuje go.

    podczas gdy roboty.pliki txt mają chronić zawartość witryny przed indeksowaniem, w tym roboty.plik txt niezależnie od tego jest zalecany, ponieważ wiele procesów robotycznych szuka ich i oferując można tylko przyspieszyć ich procedury. Razem, roboty.,meta tagi TXT i robotów umożliwiają stosunkowo łatwe wyrażanie złożonych zasad dostępu:

    • usuwanie całej witryny lub części witryny.
    • unikanie indeksacji obrazów w wyszukiwarce obrazów Google i innych silnikach obrazu.
    • unikanie indeksacji zduplikowanych treści na stronie.
    • usuwanie pojedynczych stron w witrynie za pomocą meta tagów robotów.
    • usuwanie buforowanych kopii i urywków za pomocą znacznika meta roboty.

    oba roboty.txt i roboty meta tag polegają na współpracy z robotami i nie gwarantują, że będą działać dla każdego robota., Jeśli potrzebujesz silniejszej ochrony przed robotami i innymi agentami, powinieneś użyć alternatywnych metod, takich jak ochrona hasłem.

    Zapisz się na nasze codzienne podsumowania nieustannie zmieniającego się krajobrazu marketingu w wyszukiwarkach.

    Uwaga: przesyłając ten formularz, zgadzasz się na warunki Third Door Media. Szanujemy Twoją prywatność.,

    o autorze

    Stephan Spencer

    Stephan Spencer jest twórcą 3-dniowego immersyjnego seminarium SEO Traffic Control; autorem książek O ' Reilly The Art of SEO, Google Power Search i Social eCommerce; założycielem agencji SEO Netconcepts (nabytej w 1999 roku). 2010); wynalazca technologii proxy SEO gravitystream; i gospodarz dwóch programów podcastowych get yourself optimized i marketing speak.


    Dodaj komentarz

    Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *