로봇을 더 깊이 들여다본다.txt

0 Comments

끊임없이 변화하는 검색 마케팅 풍경의 우리의 매일 요점의 반복에 가입.

참고:이 양식을 제출함으로써 귀하는 Third Door Media 의 약관에 동의합니다. 우리는 귀하의 개인 정보를 존중합니다.

스테판 Spencer on April16,2009 년 8:00

  • 카테고리:모든 것을 SEO 열 채널:SEO,방법:SEO,SEO:크롤링과 로봇
  • 로봇은 제외 프로토콜(REP)가 정확하지 않게 복잡한 프로토콜과 그것의 사용은 상당히 제한하고,따라서 그것은 일반적으로 주어진 짧은 시간에 의해 SEOs., 그러나 당신이 생각하는 것보다 훨씬 더 많은 것이 있습니다. 로봇.txt 되 우리와 함께로 지난 14 년 동안,하지만 어떻게 우리 중 많은 사람들은 알고 있었는 것 외에도 허용하지 않는 지시어가 색인 없음 지시어는 Googlebot 순종? 는 noindexed 페이지 끝나지 않는 인덱스에서만 허용되지 않는 페이지 않고,후자에 표시할 수 있습 검색 결과(이기는 하지만 적은 정보를 때문에 거미할 수 없 페이지를 참조하십시오 콘텐츠)? 허용되지 않는 페이지는 여전히 페이지 랭크를 축적합니까? 그 로봇.txt 는 패턴 매칭의 제한된 형태를 받아 들일 수 있습니까?, 는,그 때문에 마지막 기능을 수 있는 선택적으로 허용하지 않지만 디렉토리지만 또한 특정 파일 형식(잘,파일 확장자를 더 정확한)? 그 로봇.txt 허용되지 않은 페이지는 스파이더에 액세스 할 수 없으므로 페이지에 포함 된 메타 로봇 태그를 읽고 순종 할 수 없습니까?

    a 로봇.txt 파일은 웹을 크롤링하는 검색 엔진 스파이더에 중요한 정보를 제공합니다. 이 봇들 앞에서(더 이상”로봇”이라는 전체 단어를 말하는 사람이 있습니까?)사이트의 액세스 페이지,그들은 로봇이 있는지 확인합니다.txt 파일이 존재합니다., 그렇게하면 로봇이 웹을 크롤링하는 것이 더 효율적입니다.txt 파일은 봇이 검색 엔진에 의해 색인되어서는 안되는 특정 페이지에 액세스하지 못하게합니다.로봇을 가지고 있습니다.txt 파일은 모범 사례입니다. 심지어 일부 메트릭 프로그램이 누락 된 로봇에 대한 요청에 대한 404 응답을 해석 할 것이라는 단순한 이유 때문입니다.잘못된 성능보고를 초래할 수있는 오류로 txt 파일. 그러나 그 로봇에 들어가는 것.txt 파일? 그것이 그것의 핵심입니다.

    두 로봇.,txt 및 로봇 메타 태그는 로봇의 협력에 의존하며 모든 봇에 대해 작동하도록 보장되는 것은 아닙니다. 파렴치한 로봇 및 기타 에이전트로부터보다 강력한 보호가 필요한 경우 암호 보호와 같은 대체 방법을 사용해야합니다. 너무 많은 시간 동안 나는 웹 마스터가 행정 구역과 같은 민감한 Url 을 로봇에 순진하게 배치하는 것을 보았습니다.txt. 당신은 더 나은 로봇을 믿습니다.txt 는 해커의 첫 번째 호출 포트 중 하나입니다—그들이 침입해야하는 위치를 볼 수 있습니다.

    로봇.,txt 잘 작동한다.

    • 제 크롤러에서 비-공공 부분에 귀하의 웹사이트의
    • 제외에서 검색 엔진하려고 스크립트 인덱스,유틸리티,또는 다른 형태의 코드
    • 피 연동의 중복 콘텐츠에 웹 사이트 등의”인쇄”버전의 html 페이지
    • 의 자동 검색 XML 사이트 맵

    에서의 위험을 주장되는 분명한 것으로,로봇입니다.txt 파일은 도메인의 루트에 상주해야하며”robots.txt”(모두 소문자). 로봇.,하위 디렉토리에있는 txt 파일은 봇이 도메인의 루트에서이 파일 만 확인하므로 유효하지 않습니다.

    로봇 만들기.txt 파일은 쉽습니다. 로봇을 만들 수 있습니다.모든 텍스트 편집기의 txt 파일. HTML 파일이 아닌 ASCII 로 인코딩 된 텍스트 파일이어야합니다.

    로봇.txt syntax

    • User-Agent:로봇 다음 규칙이 적용됩니다(예:”Googlebot”등)
    • 허용하지 않:한 페이지를 차단하려면 로봇에 액세스(으로 많은 허용하지 않는 라인으로 필요)
    • 비색:할 페이지 검색 엔진 블록고지수(또는 데 경우에는 인덱스로 이전에 인덱싱)., 비공식적으로 구글에 의해 지원;야후와 라이브 검색에 의해 지원되지 않습니다.
    • 각 User-Agent/Disallow 그룹은 빈 줄로 구분되어야하지만 그룹 내에 빈 줄이 없어야합니다(User-agent 줄과 마지막 Disallow 사이).
    • 해시 기호(#)는 로봇 내의 주석에 사용될 수 있습니다.그 줄에#이후의 모든 것이 무시 될 txt 파일. 전체 줄 또는 줄 끝에 사용할 수 있습니다.
    • 디렉토리와 파일 이름은 대소 문자를 구분합니다.”private”,”Private”및”PRIVATE”는 모두 검색 엔진과 고유하게 다릅니다.,

    예제 로봇을 살펴 보겠습니다.txt 파일. 아래의 예를 포함됩니다:

    • 로봇이라고”Googlebot”는 아무 것도 허용되지 않을 수 있습은 어디든 갈
    • 전체 사이트는 폐쇄하는 로봇이라고”msnbot”;
    • 모든 로봇(다 Googlebot)하지 않아야 방문/tmp/는 디렉토리나라는 파일을/로그 설명된 대로,코멘트,예를 들어,tmp.htm,/로그 또는 로그.php.

    User-agent: Googlebot
    Disallow:

    User-agent: msnbot
    Disallow: /

    # Block all robots from tmp and logs directories
    User-agent: *
    Disallow: /tmp/
    Disallow: /logs # for directories and files called logs

    무엇이 나열되어야에 사용자 에이전트 선?, 사용자 에이전트는 특정 검색 엔진 로봇의 이름입니다. 당신은 설정할 수 있는 항목을 적용하는 특정 로봇(목록을 작성하여 이름)또는 설정할 수 있습니다 그것이 모든 적용 로봇(나열하여 별표로 작동하는 와일드카드). 항목에 적용되는 모든 로봇 다음과 같습니다:

    User-Agent: *

    중요한 로봇을 포함한다:Googlebot(Google),Slurp(Yahoo!(),msnbot(MSN)및 TEOMA(Ask).,

    마음에 곰의 블록을 지시어에 지정한 사용자 에이전트의 Googlebot 것에 순종하여 Googlebot;지만 Googlebot 지 않을 것이다도 순종하는 지시어는 사용자를 위한 에이전트의*(모든 로봇).

    금지 줄에 무엇이 나열되어야합니까? 허용 안 함에는 차단하려는 페이지가 나열됩니다. 특정 URL 또는 패턴을 나열할 수 있습니다. 항목은 앞으로 슬래시(/)로 시작해야합니다.,

    예:

    • 블록 전체 사이트:Disallow: /
    • 블록 디렉토리와 모든 것에는Disallow: /private_directory/
    • 을 차단하는 페이지: Disallow: /private_file.html
    • 을 차단하는 페이지 및/또는 라는 디렉터리 프라이빗:Disallow: /private

    경우 컨텐츠를 제공하는 모두를 통해 http 와 https,해야 합 별도의 로봇입니다.이러한 프로토콜 각각에 대한 txt 파일. 예를 들어 로봇이 모든 http 페이지를 인덱싱하지만 https 페이지가 없도록 허용하려면 로봇을 사용합니다.,txt 파일을 다음과 같이,http 프로토콜:

    User-agent: *
    Disallow:

    과에 대한 https 프로토콜:

    User-agent: *
    Disallow: /

    로봇을 확인에 대한 로봇입니다.그들이 웹 사이트에 올 때마다 txt 파일. 로봇의 규칙.txt 파일은 사이트의 루트에 업로드되고 봇이 사이트에 오면 즉시 적용됩니다. 액세스 빈도는 봇이 인기도,권한 및 콘텐츠 업데이트 빈도에 따라 사이트를 스파이더하는 빈도에 따라 다릅니다., 일부 사이트는 하루에 여러 번 크롤링 될 수 있지만 다른 사이트는 일주일에 몇 번만 크롤링 될 수 있습니다. Google 웹 마스터 센트럴은 Googlebot 이 로봇에 마지막으로 액세스했을 때 볼 수있는 방법을 제공합니다.txt 파일.로봇을 사용하는 것이 좋습니다.Google 웹 마스터 중앙에서 txt 분석 도구는 로봇이 있는지 확인하기 위해 특정 Url 을 확인합니다.Txt 파일을 허용하거나 차단하여 Googlebot 이 로봇의 모든 라인을 파싱하는 데 문제가 있는지 확인하십시오.당신의 로봇에 txt 파일 및 테스트 변경.txt 파일.,

    일부 고급 기법

    중요한 수색 엔진을 시작하기 위해 함께 노력하고 기능의 로봇입니다.txt 파일. 위에 언급한 바와 같이,거기에 몇 가지 기능을 채택된 주요 검색 엔진에 의해,그리고 반드시 모든 중요한 엔진의 것,제공에 대한 더 정밀한 제어를 크롤링. 이러한 제한 될 수 있습니다 하지만,할 운동 주의 그들의 사용에.

    크롤 지연:몇몇 웹사이트할 수 있는 경험 많은 양의 교통하고 싶은 느 검색 엔진 거래를 허용하도록 서버 자원의 요구를 충족시키 정기적으로 트래픽., 크롤 지연은 특별한 지시어는 인식에 의해 야후,Live Search,요청할 것을 지시하는 크롤러에 의한 기간 크롤 페이지:

    User-agent: msnbot
    Crawl-delay: 5

    패턴 매칭에서 이 시간,패턴 매칭을 나타난에 의해 사용할 수 있는 세 가지 전공:구글,야후,Live Search. 패턴 매칭의 가치는 상당합니다. 별표 와일드 카드 문자를 사용하여 패턴 일치의 가장 기본적인 것을 먼저 살펴 보겠습니다., 에 대한 액세스를 차단하는 모든 하위 디렉터리로 시작하는”개인”

    User-agent: Googlebot
    Disallow: /private*/

    할 수 있는 경기의 말을 사용하여 문자열을 달러 표시($). 예를 들어,로 끝나는 Url 을 차단합니다.asp:

    User-agent: Googlebot
    Disallow: /*.asp$

    과는 달리 고급 패턴 매칭에서 발견 regular expressions in Perl,다른 질문에 표시되지 않은 특별한 능력이있다. 따라서 물음표가 포함 된 모든 Url 에 대한 액세스를 차단하려면(?,),단순히 사용하는 질문표(필요가 없”escape”그것은 또 앞에 백슬래시):

    User-agent: *
    Disallow: /*?*

    블록에서 로봇 크롤링에는 모든 파일을 특정 파일의 유형(예를 들어,.gif):

    User-agent: *
    Disallow: /*.gif$

    다음은 더 복잡한 예입니다. 귀하의 사이트가 Url 의 쿼리 문자열 부분을 사용한다고 가정 해 봅시다(“다음”은 무엇입니까?”)세션 Id 에만 해당되며 봇이 중복 페이지를 크롤링하지 않도록 동적 매개 변수가 포함 된 모든 Url 을 제외하려고합니다. 하지만 당신은”로 끝나는 모든 Url 을 포함 할 수 있습니다?”., 여기에 어떻게 당신을 달성하는

    User-agent: Slurp
    Disallow: /*? # block any URL that includes a ?
    Allow: /*?$ # allow any URL that ends in a ?

    허용 지침:이 때,Allow 지시어가 나타납해야만 지원하는 야후,구글 부탁드립니다. 럼,그것은 작품의 반대 허용하지 않는 지침을 제공한 능력을 구체적으로 호출 디렉토리 또는 페이지를 크롤링할 수 있습니다. 이것은 큰 섹션이나 전체 사이트가 허용되지 않은 후에 유익 할 수 있습니다.,

    을 허용하 Googlebot 으로만”google”디렉토리:

    User-agent: Googlebot
    Disallow: /
    Allow: /google/

    색인 지침:위에서 언급한 바와 같이,이 지시어를 제공한 혜택을 제거에 snippetless 제목 적에서 목록을 검색 결과를 얻을 수 있지만,그것은 제한을 Google. 그 구문은 정확히 거울을 허용하지 않습니다. Matt Cutts 의 말:

    “Google 은 로봇에서 NOINDEX 지시문을 허용합니다.txt 그리고 그것은 완전히 구글에서 일치하는 모든 사이트 Url 을 제거합니다., (는 행동에 따라 변경될 수 있습 이 정책 토론은 물론 이유입니다,우리는 우리 하지 않은 그것에 대해 이야기했다.)”

    사이트맵:XML 사이트맵 파일을 알 수 있습 검색 엔진에 대해 모든 페이지,사이트에서 선택적으로,에 대한 정보를 제공하는 페이지와 같이 가장 중요하고 그들은 얼마나 자주 변경합니다. 스파이더가 XML 사이트 맵 파일을 찾는 자동 검색 메커니즘 역할을합니다. 당신은 당신의 로봇에 다음 줄을 추가하여 사이트 맵에 대해 구글과 다른 검색 엔진을 알 수 있습니다.,txt 파일이:

    Sitemap: sitemap_location

    sitemap_location 해야의 완전한 URL 을 사이트 맵에,같은http://www.example.com/sitemap.xml. 이 지시문은 사용자 에이전트 라인과 독립적이므로 파일에 어디에 배치하는지는 중요하지 않습니다. 모든 주요 검색 엔진은 Google,Yahoo,Live Search 및 Ask 를 포함한 자동 검색 사이트 맵 프로토콜을 지원합니다.

    자동 검색은 사이트 맵에 대해 검색 엔진에 알리는 방법을 제공합니다.,xml 파일로,그것은 또한 가치를 확인하고 제출하는 사이트맵으로 직접 검색 엔진을 통해 각각의 자신의 웹마스터를 콘솔(Google 웹마스터 센트럴,Yahoo 사이트 탐색기 Live Search 웹마스터 센터).

    Google 의 봇에 대한 추가 정보

    Google 은 여러 가지 봇(사용자 에이전트)을 사용합니다. 웹 검색을위한 봇은 Googlebot 입니다. Google 의 다른 봇은 Googlebot 에 대해 설정 한 규칙을 따르지만 이러한 특정 봇에도 추가 규칙을 설정할 수 있습니다. Googlebot 차단은”Googlebot”로 시작하는 모든 봇을 차단합니다.,li>Googlebot-모바일:크롤 페이지에 대한 모바일 인덱스가

  • Googlebot-Image:크롤 페이지에 대한 이미지 지수
  • Mediapartners-Google:크롤 페이지를 결정하는 애드센스는 콘텐츠,만 크롤링 사이트는 경우 애드센스 광고를 표시하는
  • Adsbot-Google:크롤링을 측정하는 애드워즈에 방문 페이지품질,만 크롤링 사이트를 사용하는 Google 애드워즈 광고
  • 차단할 수 있습니다 Googlebot 에 의해 완전히 사용:

    User-agent: Googlebot
    Disallow: /

    할 수 있도록 허용할 수 있습 Googlebot 지만,차단 액세스를 다른 모든 로봇:

    User-agent: *
    Disallow: /

    User-agent: Googlebot
    Disallow:

    는 문제의 로봇입니다.,txt

    로봇을 사용하여 차단하는 페이지.txt 의 disallows 는 여전히 구글의 색인에 있고 검색 결과에 표시 할 수 있습니다-다른 사이트가 그들에게 링크 특히. 여 높은 순위는 매우 가능성이 구글 이후 수 있는지”를 참조하십시오”페이지의 콘텐츠;그것은 아주 작은 가 아닌 다른 앵커 텍스트로의 인바운드 및 내부 링크는,그리고 URL 을(및 ODP 제목과 설명은 경우에 ODP/호.)결과적으로 페이지의 URL 과 잠재적으로 공개적으로 사용 가능한 다른 정보가 검색 결과에 나타날 수 있습니다. 그러나 페이지의 콘텐츠는 크롤링,색인 생성 또는 표시되지 않습니다.,

    을 완전히 방지하는 페이지에서 추가되는 검색 엔진의 색인 경우에도 다른 사이트에 대한 링크를 사용하”색인”로봇 메타 태그도록 이 페이지에서 허용하지 않는 로봇입니다.txt. 스파이더가 페이지를 크롤링하면”noindex”메타 태그를 인식하고 색인에서 URL 을 삭제합니다.

    로봇.txt 와 로봇 메타 태그 충돌

    경우 로봇.페이지 충돌에 대한 txt 파일 및 로봇 메타 태그 지침,봇은 가장 제한적인 따릅니다. 보다 구체적으로:

    • 로봇으로 페이지를 차단하는 경우.,txt,봇은 페이지를 크롤링하지 않으며 페이지의 로봇 메타 태그를 읽지 않습니다.
    • 로봇이있는 페이지를 허용하는 경우.txt 하지만 그것을 차단되는 인덱스를 사용하여 로봇 메타 태그 Googlebot 이 페이지에 액세스,메타 태그를 읽어 보시기 바랍고,이후에 인덱싱하지 않습니다.

    동안 로봇.txt 파일은 로봇을 포함하여 사이트의 콘텐츠가 색인되지 않도록 보호하는 것입니다.에 관계없이 txt 파일은 많은 로봇 프로세스가 그들을 찾아 하나를 제공하는 것이 좋습니다 만 자신의 절차를 신속하게 할 수 있습니다. 함께,로봇.,txt 및 로봇 메타 태그는 유연성을 제공 익스프레스는 복잡한 액세스는 정책이 상대적으로 쉽게:

    • 제거하는 전체 웹사이트의 일부 웹사이트입니다.
    • Google 이미지 검색 및 기타 이미지 엔진에서 이미지의 색인을 피합니다.
    • 사이트에서 중복 콘텐츠의 색인 생성을 방지합니다.
    • 로봇 메타 태그를 사용하여 사이트의 개별 페이지 제거.
    • 로봇 메타 태그를 사용하여 캐시 된 사본 및 스 니펫을 제거합니다.

    두 로봇.txt 와 로봇 메타 태그는 로봇의 협력에 의존하고,모든 로봇에 대한 작업을 보장 결코 없습니다., 로봇 및 기타 에이전트로부터보다 강력한 보호가 필요한 경우 암호 보호와 같은 대체 방법을 사용해야합니다.

    끊임없이 변화하는 검색 마케팅 풍경의 우리의 매일 요점의 반복에 가입.

    참고:이 양식을 제출함으로써 귀하는 Third Door Media 의 약관에 동의합니다. 우리는 귀하의 개인 정보를 존중합니다.,

    저자에 관하여

    스테판 Spencer

    스테판 스펜서 창조자의 3 일간의 몰입 SEO 세미나 트래픽 제어,이 저자의 O’reilly 책의 예술 SEO,Google 전 검색,그리고 사회 전자 상거래; 설립자이자 서구의 기관 Netconcepts(에서 획득 2010);발명자의 SEO 프록시 기술 GravityStream;와 호스트의 두 팟캐스트를 얻을 보여줍니다 자신을 최적화 된 마케팅을 말한다.쨈챘짹쨀째쩔징 쨉청쨋처 쨘쨍쨈쨈.


    답글 남기기

    이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다