Einen Tieferen Einblick In die Roboter.txt

Oktober 4, 2020 admin 0 Comments

Melden Sie sich für unsere täglichen Rückblicke auf die sich ständig verändernde Suchmarketing-Landschaft an.

Hinweis: Mit dem Absenden dieses Formulars stimmen Sie den Bedingungen von Third Door Media zu. Wir respektieren Ihre Privatsphäre.

Stephan Spencer April 16, 2009 um 8:00 Uhr

die Kategorien:Alle Dinge SEO Spalte, Channel: SEO, How To: SEO, SEO: Crawling und Roboter

Das Robots Exclusion Protocol (REP) ist nicht gerade ein kompliziertes Protokoll, und Ihre Verwendung sind ziemlich begrenzt, und so ist es in der Regel gegeben kurzer Prozess von SEOs., Doch es gibt viel mehr, als Sie vielleicht denken. Roboter.txt ist seit über 14 Jahren bei uns, aber wie viele von uns wussten, dass es zusätzlich zur Verbotsrichtlinie eine Noindex-Richtlinie gibt, der Googlebot gehorcht? Dass noindexe Seiten nicht im Index landen, sondern nicht zugewiesene Seiten, und letztere können in den Suchergebnissen angezeigt werden (wenn auch mit weniger Informationen, da die Spinnen den Seiteninhalt nicht sehen können)? Dass nicht erlaubte Seiten noch PageRank akkumulieren? Diese Roboter.txt kann eine begrenzte Form des Mustervergleichs akzeptieren?, Dass Sie aufgrund dieser letzten Funktion nicht nur Verzeichnisse, sondern auch bestimmte Dateitypen selektiv verbieten können (genauer gesagt Dateierweiterungen)? Dass ein Roboter.auf die nicht zugelassene Seite können die Spinnen nicht zugreifen, sodass sie ein Meta-Tag auf der Seite nicht lesen und befolgen können?

Ein Roboter.txt-Datei bietet wichtige Informationen für Suchmaschinen-Spinnen, die das Web kriechen. Vor diesen Bots (sagt jemand mehr das vollständige Wort „Roboter“?) zugriff auf Seiten einer Website, überprüfen sie, ob ein Roboter zu sehen.txt-Datei vorhanden ist., Dies macht das Crawlen im Web effizienter, weil die Roboter.txt-Datei verhindert, dass die Bots auf bestimmte Seiten zugreifen, die nicht von den Suchmaschinen indiziert werden sollten.

Mit einem Roboter.txt-Datei ist eine bewährte Methode. Auch nur aus dem einfachen Grund, dass einige Metrikprogramme die 404-Antwort auf die Anfrage nach einem fehlenden Roboter interpretieren.txt-Datei als Fehler, der zu einer fehlerhaften Leistungsberichterstattung führen kann. Aber was geht in diesem Roboter.txt-Datei? Das ist der Kern davon.

Beide Roboter.,txt – und robots-Meta-Tags basieren auf der Zusammenarbeit der Roboter und sind keineswegs garantiert, dass sie für jeden Bot funktionieren. Wenn Sie einen stärkeren Schutz vor skrupellosen Robotern und anderen Agenten benötigen, sollten Sie alternative Methoden wie den Passwortschutz verwenden. Zu oft habe ich gesehen, wie Webmaster naiv sensible URLs wie Verwaltungsbereiche in Robotern platzieren.txt. Du glaubst besser Robotern.txt ist eine der ersten Anlaufstellen des Hackers—um zu sehen, wo sie einbrechen sollten.

Roboter.,txt funktioniert gut für:

Abgesehen von Crawlern aus nicht öffentlichen Teilen Ihrer Website
, die Suchmaschinen daran hindern, Skripte, Dienstprogramme oder andere Codetypen zu indizieren
Vermeiden Sie die Indizierung doppelter Inhalte auf einer Website, z. B. „Druck“-Versionen von HTML-Seiten
Automatische Erkennung von XML-Sitemaps

Auf die Gefahr hin, dass die Roboter offensichtlicher werden.die txt-Datei muss sich im Stammverzeichnis der Domäne befinden und den Namen „robots“ tragen.txt“ (alle Kleinbuchstaben). Roboter.,die txt-Datei in einem Unterverzeichnis ist nicht gültig, da Bots nur im Stammverzeichnis der Domäne nach dieser Datei suchen.

Erstellen eines Roboters.txt-Datei ist einfach. Sie können einen Roboter erstellen.txt-Datei in einem beliebigen Texteditor. Es sollte eine ASCII-codierte Textdatei sein, keine HTML-Datei.

Roboter.txt Syntax

User-Agent: für den Roboter gilt die folgende Regel (z.B. „Googlebot“, etc.)
Disallow: die Seiten, die Sie blockieren möchten, die bots den Zugriff auf (wie viele disallow-Zeilen nach Bedarf)
Noindex: die Seiten, die Sie wollen, eine Suchmaschine zu blockieren UND nicht-index (oder de-index, wenn zuvor indiziert werden)., Inoffiziell unterstützt von Google; nicht unterstützt von Yahoo und Live Search.
Jede User-Agent / Disallow-Gruppe sollte durch eine Leerzeile getrennt werden; Es sollten jedoch keine Leerzeilen innerhalb einer Gruppe vorhanden sein (zwischen der User-Agent-Zeile und der letzten Disallow).
Das Hashsymbol ( # ) kann für Kommentare innerhalb eines Roboters verwendet werden.txt-Datei, in der alles nach # in dieser Zeile ignoriert wird. Kann entweder für ganze Zeilen oder für Zeilenende verwendet werden.
Verzeichnisse und Dateinamen sind Groß-und Kleinschreibung: „privat“, „Privat“ und „PRIVAT“ unterscheiden sich eindeutig von Suchmaschinen.,

schauen wir uns ein Beispiel Roboter.txt-Datei. Das folgende Beispiel enthält:

Der Roboter namens “ Googlebot „hat nichts Unzulässiges und kann überall hingehen
Die gesamte Site ist für den Roboter namens“msnbot“ gesperrt;
Alle Roboter (außer Googlebot) sollten nicht das Verzeichnis /tmp/ oder Verzeichnisse oder Dateien namens /logs besuchen, wie in Kommentaren erläutert, z. B. tmp.htm, /logs oder Protokolle.PHP.

User-agent: Googlebot Disallow:

User-agent: msnbot Disallow: /

# Block all robots from tmp and logs directories User-agent: * Disallow: /tmp/ Disallow: /logs # for directories and files called logs

Was sollte in der Liste auf die Zeile “ User-Agent?, Ein user-agent ist der name einer speziellen Suchmaschine Roboter. Sie können einen Eintrag festlegen, der auf einen bestimmten Bot angewendet wird (indem Sie den Namen auflisten), oder Sie können festlegen, dass er auf alle Bots angewendet wird (indem Sie ein Sternchen auflisten, das als Platzhalter fungiert). Ein Eintrag, der für alle Bots gilt, sieht folgendermaßen aus:

User-Agent: *

Zu den wichtigsten Robotern gehören: Googlebot( Google), Slurp (Yahoo!), msnbot (MSN) und TEOMA (Ask).,

Beachten Sie, dass ein Block von Direktiven, die für den User-Agent von Googlebot angegeben sind, von Googlebot befolgt wird; Googlebot befolgt JEDOCH NICHT AUCH die Direktiven für den User-Agent von * (alle Bots).

Was sollte in der Zeile Disallow aufgeführt werden? Die disallow listet die Seiten auf, die Sie blockieren möchten. Sie können eine bestimmte URL oder ein Muster auflisten. Der Eintrag sollte mit einem Schrägstrich (/) beginnen.,

Beispiele:

Um die gesamte Site zu blockieren: Disallow: /
Um ein Verzeichnis und alles darin zu blockieren: Disallow: /private_directory/
Um eine Seite zu blockieren:
Um eine Seite und/oder ein Verzeichnis mit dem Namen private: Disallow: /private

Wenn Sie Inhalte sowohl über http als auch über https bereitstellen, benötigen Sie einen separaten Roboter.txt-Datei für jedes dieser Protokolle. Damit Roboter beispielsweise alle http-Seiten, aber keine https-Seiten indizieren können, verwenden Sie die Roboter.,txt dateien wie folgt, für ihre http protokoll:

User-agent: * Disallow:

Und für die https protokoll:

User-agent: * Disallow: /

Bots überprüfen für die roboter.txt-Datei jedes Mal, wenn sie auf eine Website kommen. Die Regeln in den Robotern.die TXT-Datei wird sofort wirksam, sobald sie in das Stammverzeichnis der Site hochgeladen wurde und der Bot auf die Site gelangt. Wie oft darauf zugegriffen wird, hängt davon ab, wie häufig die Bots die Website basierend auf Beliebtheit, Autorität und wie häufig Inhalt aktualisiert wird., Einige Websites können mehrmals am Tag gecrawlt werden, während andere nur einige Male pro Woche gecrawlt werden. Google Webmaster Central bietet eine Möglichkeit zu sehen, wann Googlebot zuletzt auf die Roboter zugegriffen hat.txt-Datei.

Ich würde empfehlen, die Roboter zu verwenden.txt-Analyse-Tool in Google Webmaster Central, um bestimmte URLs zu überprüfen, ob Ihre Roboter zu sehen.txt-Datei erlaubt oder blockiert sie, sehen Sie, ob Googlebot Probleme beim Parsen von Zeilen in Ihren Robotern hatte.txt-Datei und Test Änderungen an Ihren Robotern.txt-Datei.,

Einige fortgeschrittene Techniken

Die großen Suchmaschinen haben begonnen, zusammenzuarbeiten, um die Funktionalität der Roboter voranzutreiben.txt-Datei. Wie oben erwähnt, gibt es einige Funktionen, die von den großen Suchmaschinen übernommen wurden, und nicht unbedingt alle großen Suchmaschinen, die eine feinere Kontrolle über das Crawlen bieten. Da diese jedoch begrenzt sein können, seien Sie bei ihrer Verwendung vorsichtig.

Crawl Delay: Auf einigen Websites kann es zu einem hohen Datenverkehr kommen und Sie möchten Suchmaschinen-Spiders verlangsamen, um mehr Serverressourcen zu ermöglichen, um die Anforderungen des regulären Datenverkehrs zu erfüllen., Crawl delay ist eine spezielle Direktive, die von Yahoo, Live Search, und Ask erkannt wird und die einen Crawler anweist, wie viele Sekunden er zwischen den Crawling-Seiten warten soll:

User-agent: msnbot Crawl-delay: 5

Mustervergleich: Zu diesem Zeitpunkt scheint der Mustervergleich von den drei Majors verwendet werden zu können: Google, Yahoo und Live Search. Der Wert des Mustervergleichs ist beträchtlich. Schauen wir uns zuerst die grundlegendsten Musteranpassungen mit dem Sternchen-Platzhalterzeichen an., Um den Zugriff auf alle Unterverzeichnisse zu blockieren, die mit „privat“ beginnen:

User-agent: Googlebot Disallow: /private*/

Sie können das Ende der Zeichenfolge mit dem Dollarzeichen ($) abgleichen. Zum Beispiel, um URLs zu blockieren, die mit enden .asp:

User-agent: Googlebot Disallow: /*.asp$

Im Gegensatz zu den fortgeschritteneren Mustervergleichen in regulären Ausdrücken in Perl und anderswo hat das Fragezeichen keine besonderen Befugnisse. Also, um den Zugriff auf alle URLs zu blockieren, die ein Fragezeichen enthalten (?,), verwenden Sie einfach das Fragezeichen (Sie müssen es nicht“ entkommen“oder mit einem Backslash voranstellen):

User-agent: * Disallow: /*?*

Um zu verhindern, dass Roboter alle Dateien eines bestimmten Dateityps crawlen (z. B. .gif):

User-agent: * Disallow: /*.gif$

Hier ist ein komplizierteres Beispiel. Angenommen, Ihre Site verwendet den Abfragezeichenfolgenteil der URLs (was folgt dem „?“) ausschließlich für Sitzungs-IDs, und Sie möchten alle URLs ausschließen, die den dynamischen Parameter enthalten, um sicherzustellen, dass die Bots keine doppelten Seiten crawlen. Aber vielleicht möchten Sie alle URLs einschließen, die mit einem „enden?”., So würden Sie das erreichen:

User-agent: Slurp Disallow: /*? # block any URL that includes a ? Allow: /*?$ # allow any URL that ends in a ?

Allow Direktive: Zu diesem Zeitpunkt scheint die Allow Direktive nur von Google, Yahoo und Ask unterstützt zu werden. So wie es sich anhört, funktioniert es das Gegenteil der Disallow Direktive und bietet die Möglichkeit, Verzeichnisse oder Seiten, die möglicherweise gecrawlt werden, gezielt aufzurufen. Dies kann von Vorteil sein, nachdem große Abschnitte oder die gesamte Site nicht zugelassen wurden.,

Um Googlebot nur in das Verzeichnis „google“ zu ermöglichen:

User-agent: Googlebot Disallow: / Allow: /google/

Noindex Direktive: Wie oben erwähnt, bietet diese Direktive Vorteile bei der Beseitigung von snippetless titellosen Auflistungen aus den Suchergebnissen, aber es ist auf Google beschränkt. Seine Syntax spiegelt genau Disallow wider. In den Worten von Matt Cutts:

„von Google ermöglicht eine NOINDEX-Direktive in Roboter.txt und es wird vollständig alle passenden Website-URLs von Google entfernen., (Dieses Verhalten könnte sich aufgrund dieser Richtliniendiskussion natürlich ändern, weshalb wir nicht viel darüber gesprochen haben.) „

Sitemap: Eine XML-Sitemap-Datei kann Suchmaschinen über alle Seiten auf Ihrer Website informieren und optional Informationen über diese Seiten bereitstellen, z. B. welche am wichtigsten sind und wie oft sie sich ändern. Es fungiert als Auto-Discovery-Mechanismus für die Spinne, um die XML-Sitemap-Datei zu finden. Sie können Google und andere Suchmaschinen über Ihre Sitemap informieren, indem Sie Ihren Robotern die folgende Zeile hinzufügen.,txt-Datei:

Sitemap: sitemap_location

Die sitemap_location sollte die vollständige URL zur Sitemap sein, z. B.: http://www.example.com/sitemap.xml. Diese Direktive ist unabhängig von der User-Agent-Zeile, daher spielt es keine Rolle, wo Sie sie in Ihrer Datei ablegen. Alle wichtigen Suchmaschinen unterstützen das Sitemap-Protokoll zur automatischen Erkennung, einschließlich Google, Yahoo, Live Search und Ask.

Während die automatische Erkennung eine Möglichkeit bietet, Suchmaschinen über die Sitemap zu informieren.,xml-Datei, es lohnt sich auch, Sitemaps über jede ihrer Webmaster-Konsolen (Google Webmaster Central, Yahoo Site Explorer, Live Search Webmaster Center) direkt an die Suchmaschinen zu überprüfen und einzureichen.

Mehr über Googles Bots

Google verwendet verschiedene Bots (User-Agents). Der Bot für die Websuche ist Googlebot. Die anderen Bots von Google folgen den Regeln, die Sie für Googlebot eingerichtet haben, aber Sie können auch zusätzliche Regeln für diese spezifischen Bots einrichten. Blockieren Googlebot blockiert alle Bots, die mit „Googlebot“ beginnen.,li>Googlebot-Mobile: crawlt Seiten für den mobile index

Googlebot-Image: crawlt Seiten für Bild-index

Mediapartners-Google: crawlt Seiten, um festzustellen, AdSense Inhalt, nur crawlt Seiten, wenn die anzeigen von AdSense-anzeigen

Adsbot-Google: crawlt zu Messen AdWords landing page-Qualität, nur crawls Websites verwenden Google AdWords zu werben

Sie können block, den Googlebot völlig durch den Einsatz von:

User-agent: Googlebot Disallow: /

– ermöglichen Sie es den Googlebot, sondern blockieren Sie den Zugriff auf alle anderen bots:

User-agent: * Disallow: /

User-agent: Googlebot Disallow:

Probleme mit Robotern.,txt

Seiten, die Sie mithilfe von Robotern blockieren.txt-Disallows befinden sich möglicherweise weiterhin im Google-Index und werden in den Suchergebnissen angezeigt — insbesondere, wenn andere Websites darauf verlinken. Zugegeben, ein hohes Ranking ist ziemlich unwahrscheinlich, da Google den Seiteninhalt nicht „sehen“ kann; Es hat sehr wenig zu tun, außer dem Ankertext eingehender und interner Links sowie der URL (und dem ODP-Titel und der Beschreibung, wenn in ODP/DMOZ.) Infolgedessen können die URL der Seite und möglicherweise andere öffentlich verfügbare Informationen in den Suchergebnissen angezeigt werden. Es werden jedoch keine Inhalte von Ihren Seiten gecrawlt, indiziert oder angezeigt.,

Um zu verhindern, dass eine Seite zum Index einer Suchmaschine hinzugefügt wird, auch wenn andere Websites darauf verlinken, verwenden Sie ein „noindex“ – Roboter-Meta-Tag und stellen Sie sicher, dass die Seite in Robotern nicht verboten ist.txt. Wenn Spinnen die Seite crawlen, erkennt sie das Meta-Tag „noindex“ und löscht die URL aus dem Index.

Roboter.txt und Roboter Meta-Tag Konflikte

Wenn die Roboter.txt-Datei und Roboter Meta-Tag Anweisungen für eine Seite Konflikt, folgen Bots die restriktivsten. Genauer gesagt:

Wenn Sie eine Seite mit Robotern blockieren.,txt, Bots werden niemals die Seite crawlen und niemals Roboter-Meta-Tags auf der Seite lesen.
Wenn Sie eine Seite mit Robotern zulassen.wenn Googlebot jedoch verhindert, dass es mit einem Robots-Meta-Tag indiziert wird, greift es auf die Seite zu, liest das Meta-Tag und indiziert es anschließend nicht.

Während der Roboter.txt-Dateien sollen Inhalte auf einer Website vor der Indizierung schützen, einschließlich eines Roboters.txt-Datei unabhängig wird empfohlen, wie viele Roboterprozesse für sie suchen und bietet man nur ihre Verfahren beschleunigen kann. Zusammen, Roboter.,txt-und robots-Meta-Tags geben Ihnen die Flexibilität, komplexe Zugriffsrichtlinien relativ einfach auszudrücken:

Entfernen einer gesamten Website oder eines Teils einer Website.
Vermeiden der Indexierung von Bildern in der Google-Bildsuche und anderen Bildmaschinen.
Vermeidung der Indexierung von doppelten Inhalten auf einer Website.
Entfernen einzelner Seiten auf einer Site mithilfe eines Robots-Meta-Tags.
Entfernen zwischengespeicherter Kopien und Snippets mithilfe eines Robots-Meta-Tags.

Beide Roboter.roboter und Roboter Meta-Tag verlassen sich auf die Zusammenarbeit der Roboter und sind keineswegs garantiert für jeden Roboter zu arbeiten., Wenn Sie einen stärkeren Schutz vor Robotern und anderen Agenten benötigen, sollten Sie alternative Methoden wie den Kennwortschutz verwenden.

Melden Sie sich für unsere täglichen Rückblicke auf die sich ständig verändernde Suchmarketing-Landschaft an.

Hinweis: Mit dem Absenden dieses Formulars stimmen Sie den Bedingungen von Third Door Media zu. Wir respektieren Ihre Privatsphäre.,

Über den Autor

Stephan Spencer

Stephan Spencer ist der Schöpfer des 3-tägigen immersiven SEO-Seminars Traffic Control; ein Autor der O ‚ Reilly-Bücher The Art of SEO, Google Power Search und Social eCommerce; Gründer der SEO-Agentur Netconcepts (im Jahr 2010 erworben); Erfinder der SEO-Proxy-Technologie GravityStream; und der von zwei Podcast-Shows Get Yourself optimiert und Marketing sprechen.

Einen Tieferen Einblick In die Roboter.txt

Über den Autor

Schreibe einen Kommentar Antworten abbrechen

Neueste Beiträge

Archive

Meta