ロボットをより深く見てください。txt

0 Comments

刻々と変化する検索マーケティングの風景の私たちの毎日の要約にサインアップしてください。

注意:このフォームを提出することにより、あなたはThird Door Mediaの規約に同意します。 個人情報の収集について.

Stephan Spencer on April16,2009at8:00am

  • Categories:All Things SEO Column,Channel:SEO,How To:SEO,SEO:Crawling and Robots
  • Robots Exclusion Protocol(REP)は正確に複雑なプロトコルではなく、その用途はかなり限られているため、通常はSeoによって短いshriftが与えられます。, しかし、あなたが考えるよりも多くのことがあります。 ロボットだtxtは14年以上にわたって私たちと一緒にいましたが、どのように私たちの多くは、禁止ディレクティブに加えてGooglebotが従うnoindexディレクティブがあること Noindexedページはインデックスに終わらず、許可されていないページはインデックスになり、後者は検索結果に表示されます(スパイダーがページのコンテンツを見ることができないため、情報が少ないにもかかわらず)。 その許可されていないページはまだPageRankを蓄積しますか? そのロボット。txtを受け付けでき、限られた形式のパターンマッチング?, それは、その最後の機能のために、ディレクトリだけでなく特定のファイルタイプ(よく、より正確にはファイル拡張子)を選択的に禁止することができ それはロボットです。txt禁止ページはスパイダーによってアクセスできないので、ページ内に含まれるメタロボットタグを読んで従うことはできませんか?

    ロボット。txtファイルは網を這うサーチエンジンのくもに重大な情報を提供する。 これらのボットの前に(誰もがもう完全な単語”ロボット”を言うのですか?)サイトのページにアクセスし、彼らはロボットかどうかを確認します。txtファイルが存在します。, そうすることで、ウェブのクロールがより効率的になります。txtファイルは、検索エンジ

    ロボットを持っています。txtファイルはベストプラクティスです いくつかのメトリックプログラムが不足しているロボットの要求に対する404応答を解釈するという単純な理由だけでさえ。誤ったパフォーマンス報告につながる可能性がエラーとしてtxtファイル。 しかし、そのロボットに何が入るか。txtファイル? それはそれの核心です。

    両方のロボット。,txt-ロボットのメタタグに依存からの協力にロボットではありませんでの動作は保証のための各ボット. 悪質なロボットや他のエージェントからのより強力な保護が必要な場合は、パスワード保護などの代替方法を使用する必要があります。 余りにも多くの時私はウェブマスターが素朴にロボットに管理区域のような敏感なUrlを置くのを見た。テキスト ロボットを信じた方がいいtxtは、ハッカーの最初のコールポートの一つです—彼らはに侵入する必要がありますどこを確認します。

    ロボット。,

    • あなたのウェブサイトの非公開部分からのクローラーの禁止
    • 検索エンジンがスクリプト、ユーティリティ、または他のタイプのコードのインデックスを作成しようとしないように
    • htmlページの”印刷”バージョンなどのウェブサイト上の重複したコンテンツのインデックス化を回避
    • XMLサイトマップの自動検出

    明らかに、ロボットであることの危険にさらされている。txtファイルは、ドメインのルートに存在し、”ロボット”という名前が必要です。txt”(すべて小文字)。 ロボットだ,ボットはドメインのルートにあるこのファイルをチェックするだけなので、サブディレクトリにあるtxtファイルは無効です。

    ロボットを作成します。txtファイルは簡単です。 ロボットを作ることができます。任意のテキストエディタでtxtファイル。 のであれば、ASCIIエンコードされたテキストファイル、HTMLファイルです。

    ロボット。txt構文

    • ユーザーエージェント:以下のルールが適用されるロボット(例えば、”Googlebot”など)。)
    • Disallow:ボットのアクセスをブロックしたいページ(必要な数の行を禁止)
    • Noindex:検索エンジンがブロックし、インデックスを付けないようにしたいページ(または、以前にインデックス付けされている場合はインデックスを付けないようにしたいページ)。, 非公式にGoogleによって支えられる;Yahooおよび住んでいる調査によって支え
    • 各User-Agent/Disallowグループは空白行で区切る必要がありますが、グループ内に(User-agent行と最後のDisallowの間に)空白行は存在してはいけません。
    • ハッシュ記号(#)は、ロボット内のコメントに使用できます。その行の#の後のすべてが無視されるtxtファイル。 行全体または行末のいずれかに使用できます。
    • ディレクトリとファイル名は大文字と小文字が区別されます。”private”、”Private”、および”PRIVATE”はすべて検索エンジンとは一意に異なります。,

    ロボットの例を見てみましょう。txtファイル。 以下の例は次のとおりです。

    • “Googlebot”と呼ばれるロボットは何も許可されておらず、どこにでも行くことができます。
    • サイト全体が”msnbot”と呼ばれるロボットに閉じ込められています。
    • すべてのロボット(Googlebot以外)は、tmpなどのコメントで説明されているように、/tmp/ディレクトリまたは/logsと呼ばれるディレクトリまたはファイルを訪問するべきではありません。htm、/ログまたはログ。php。

    User-agent: Googlebot
    Disallow:

    User-agent: msnbot
    Disallow: /

    # Block all robots from tmp and logs directories
    User-agent: *
    Disallow: /tmp/
    Disallow: /logs # for directories and files called logs

    ユーザーエージェント行には何をリストする必要がありますか?, ユーザーエージェントは、特定の検索エンジンロボットの名前です。 特定のボットに適用するエントリを設定することができます(名前をリストすることによって)またはすべてのボットに適用するように設定するこ すべてのボットに適用されるエントリは次のようになります。

    User-Agent: *

    主要なロボットには、Googlebot(Google)、Slurp(Yahoo!MSNBOT(MSN)およびTEOMA(頼みなさい)。,

    Googlebotのuser-agentに指定されたディレクティブのブロックはGooglebotに従いますが、Googlebotは*(すべてのボット)のuser-agentのディレクティブにも従いません。

    Disallow行には何を記載する必要がありますか? Disallowには、ブロックしたいページがリストされます。 特定のURLまたはパターンを一覧表示できます。 エントリはスラッシュ(/)で始まる必要があります。,

    例:

    • サイト全体をブロックするには:Disallow: /
    • ディレクトリとその中のすべてをブロックするには:Disallow: /private_directory/
    • ページをブロックするには:Disallow: /private_file.html
    • ページおよび/またはプライベートという名前のディレクトリをブロックするには:
    • ページおよび/またはプライベートという名前のディレクトリをブロックするには:Disallow: /private
    • httpとhttpsの両方を介してコンテンツを提供する場合は、別のロボットが必要です。これらの各プロトコルのtxtファイル。 例えば、ロボットのインデックスすべてのhttpのページがhttpsページまで使えるロボット。,txtファイルは、httpプロトコルの場合は次のとおりです。

      User-agent: *
      Disallow:

      httpsプロトコルの場合は次のとおりです。

      User-agent: *
      Disallow: /

      ボットはロボットをチェックします。txtファイル彼らはウェブサイトに来るたびに。 ロボットのルール。txtファイルは、サイトのルートにアップロードされ、ボットがサイトに来るとすぐに有効になります。 アクセス頻度は、人気、権限、コンテンツが更新される頻度に基づいて、ボットがサイトをスパイダーする頻度によって異なります。, 一部のサイトの各ページに表示する這一日に数回あるだけ這に数回ます。 Googleウェブマスターセントラルは、Googlebotが最後にロボットにアクセスしたときに確認する方法を提供txtファイル。

      私はロボットを使用することをお勧めします。あなたのロボットかどうかを確認すtxtファイルは、Googlebotがあなたのロボット内の任意の行を解析するのに問題があったかどうかを確認し、それらをtxtファイtxtファイル。,

      いくつかの高度な技術

      主要な検索エンジンは、ロボットの機能を進歩させるために協力し始めています。txtファイル。 上記のように、主要な検索エンジンで採用されているいくつかの機能があり、必ずしもすべての主要なエンジンではなく、クロールをより細かく制御 これらはしかし限られるかもしれないので使用の注意に運動させて下さい。

      這う遅れ:あるウェブサイトは交通の多量を経験するかもしれ、より多くのサーバー資源が規則的な交通の要求に応じることができるようにサーチエンジンのくもを遅らせることを望む。,

      User-agent: msnbot
      Crawl-delay: 5

      パターンマッチング:この時点で、パターンマッチングは、Google、Yahoo、Live Searchの三つのメジャーで使用できるように見えます。 パターンマッチングの価値は相当なものです。 見てみよう初で最も基本的なパターンマッチングを使用し、印ワイルドカード文字です。, “Private”で始まるすべてのサブディレクトリへのアクセスをブロックするには:

      User-agent: Googlebot
      Disallow: /private*/

      ドル記号($)を使用して文字列の末尾を一致させることができます。 たとえば、で終わるUrlをブロックします。asp:

      User-agent: Googlebot
      Disallow: /*.asp$

      Perlなどの正規表現に見られるより高度なパターンマッチングとは異なり、疑問符には特別な力はありません。 したがって、疑問符を含むすべてのUrlへのアクセスをブロックするには(?,

      User-agent: *
      Disallow: /*?*

      ロボットが特定のファイルタイプのすべてのファイルをクロールするのをブロックするには、疑問符を使用します(”エスケープ”したり、バックスラッシュを付けたりする必要はありません)。gif):

      User-agent: *
      Disallow: /*.gif$

      より複雑な例を次に示します。 あなたのサイトがUrlのクエリ文字列部分を使用しているとしましょう(”?動的パラメーターを含むすべてのUrlを除外して、ボットが重複したページをクロールしないようにします。 ただし、”?”で終わるUrlを含めることもできます。”., これを達成する方法は次のとおりです。

      User-agent: Slurp
      Disallow: /*? # block any URL that includes a ?
      Allow: /*?$ # allow any URL that ends in a ?

      許可ディレクティブ:現時点では、許可ディレクティブはGoogle、Yahoo、およびAskでのみサポートされているようです。 聞こえるように、これはDisallowディレクティブの反対に動作し、クロールされる可能性のあるディレクトリまたはページを具体的に呼び出す機能を提供します。 これは、大きなセクションまたはサイト全体が許可されていない場合に有益です。,

      Googlebotを”google”ディレクトリのみに許可するには:

      User-agent: Googlebot
      Disallow: /
      Allow: /google/

      Noindexディレクティブ:上記のように、このディレクティブは、検索結果からスニペットレスのタイトルレスのリストを排除する利点を提供しますが、それはGoogleに限定されています。 その構文はDisallowを正確に反映しています。 Matt Cuttsの言葉で:

      “GoogleはロボットでNOINDEXディレクティブを許可しています。txtとそれは完全にGoogleからすべての一致するサイトのUrlを削除します。, (もちろん、このポリシーの議論に基づいてその行動が変わる可能性があるため、あまり話していません。)”

      サイトマップ:XMLサイトマップファイルは、サイト上のすべてのページについて検索エンジンに伝えることができ、必要に応じて、最も重要なページや変更頻度など、それらのページに関する情報を提供することができます。 これは、スパイダーがXMLサイトマップファイルを検索する自動検出メカニズムとして機能します。 ができるんでGoogleの検索エンジンは約サイトマップ追加により以下の行をロボット。,txtファイル:

      Sitemap: sitemap_location

      sitemap_locationは、http://www.example.com/sitemap.xmlのように、サイトマップへの完全なURLでなければなりません。 このディレクティブはuser-agent行とは独立しているため、ファイル内のどこに配置するかは関係ありません。 すべての主要な調査エンジンはGoogle、Yahoo、生きている調査を含む自動発見のSitemapの議定書を、支え、頼みなさい。

      自動検出は、サイトマップについて検索エンジンに通知する方法を提供しますが。,xmlファイル、それはまた価値があるウェブマスターコンソール(Googleのウェブマスターの中央、Yahooの場所の探検家、生きている調査のウェブマスターの中心)のそれぞ

      Googleのボットについての詳細

      Googleはいくつかの異なるボット(ユーザーエージェント)を使用しています。 ウェブ検索のためのボットはGooglebotです。 Googleの他のボットはGooglebot用に設定したルールに従いますが、これらの特定のボットに対して追加のルールを設定することもできます。 Googlebotをブロックすると、”Googlebot”で始まるすべてのボットがブロックされます。,li>Googlebot-Mobile:モバイルインデックス用のページをクロールします

    • Googlebot-Image:画像インデックス用のページをクロールします
    • Mediapartners-Google:AdSenseのコンテンツを決定するためにページをクロールします
    • Adsbot-Google:AdWordsのランディングページの品質を測定するためにクロールします
    • Google AdWordsを使用して広告を掲載するサイトのみをクロールします。

      User-agent: Googlebot
      Disallow: /

      Googlebotを許可できますが、他のすべてのボットへのアクセスをブロックできます。

      User-agent: *
      Disallow: /

      User-agent: Googlebot
      Disallow:

      ロボットの問題。,txt

      ロボットを使用してブロックするページ。txtの禁止は、まだGoogleのインデックスにあり、検索結果に表示されることがあります—他のサイトがそれらにリンクしている場合は特に。 インバウンドおよび内部リンクのアンカーテキスト、およびURL(ODP/DMOZの場合はODPタイトルと説明)以外にはほとんど進まないので、高いランキングはかなり その結果、ページのURL、および潜在的には他の公開されている情報が検索結果に表示される可能性があります。 但し、あなたのページからの内容は這うか、指示されるか、または表示されない。,

      他のサイトがリンクしていても、ページが検索エンジンのインデックスに追加されないようにするには、”noindex”robotsメタタグを使用し、ページがロボットで許可されていないことを確認してください。テキスト スパイダーがページをクロールすると、”noindex”メタタグが認識され、インデックスからURLがドロップされます。

      ロボット。txtとロボットメタタグの競合

      ロボットの場合。txtファイルとロボットのメタタグの指示ページの競合のために、ボットは最も制限的に従います。 より具体的には:

      • あなたがロボットでページをブロックする場合。,txt、ボットはページをクロールすることはありませんし、ページ上の任意のロボットのメタタグを読み
      • ロボットのあるページを許可する場合。txtがブロックから物価連動用ロボットのmetaタグ、Googlebotにアクセスのページにmetaタグ、および、その後は指します。

      ロボットながら。txtファtxtファイルに関わらずお勧めとして多くのロボットプロセスを探して提供できるだけ早きます。 一緒に、ロボット。,txtおよびrobotsメタタグを使用すると、複雑なアクセスポリシーを比較的簡単に表現できます。

      • webサイト全体またはwebサイトの一部を削除します。
      • Google画像検索やその他の画像エンジンで画像のインデックス化を回避します。
      • サイト上の重複したコンテンツのインデックス化を回避します。
      • robotsメタタグを使用してサイト上の個々のページを削除します。
      • robotsメタタグを使用してキャッシュされたコピーとスニペットを削除します。

      両方のロボット。txt-ロボットのメタタグに依存からの協力にロボットではありませんでの動作は保証のための各ロボットが行います。, が必要な場合は保護を強くからロボットおよびその他の薬剤を使用してみてくださいなど、方法をパスワードを保護します。

      刻々と変化する検索マーケティングの風景の私たちの毎日の要約にサインアップしてください。

      注意:このフォームを提出することにより、あなたはThird Door Mediaの規約に同意します。 個人情報の収集について.,

      著者について

      ステファン-スペンサー

      ステファン-スペンサーは、3日間の没入型SEOセミナーのトラフィックコントロールの作成者である;オライリーブックの著者SEO、Googleパワーサーチ、ソーシャルeコマースの芸術;SEO代理店Netconceptsの創設者(2010年に買収);SEOプロキシ技術の発明者そして、二つのポッドキャストショーのホストは、自分自身が最適化され、マーケティングが話す取得し


    コメントを残す

    メールアドレスが公開されることはありません。 * が付いている欄は必須項目です