Uno sguardo più profondo ai robot.txt

0 Comments

Iscriviti ai nostri riassunti giornalieri del panorama di search marketing in continua evoluzione.

Nota: Inviando questo modulo, accetti i termini di Third Door Media. Rispettiamo la tua privacy.

Stephan Spencer su aprile 16, 2009 alle 8:00

  • Categorie:Tutte Cose SEO Colonna, Canale: SEO, Come: SEO, SEO: Indicizzazione e Robot
  • I ” Robots Exclusion Protocol (REP) non è esattamente un complicato protocollo e dei suoi usi sono abbastanza limitate, e quindi è poco visti da Seo., Eppure c’è molto di più di quanto si possa pensare. Robot.txt è stato con noi per oltre 14 anni, ma quanti di noi sapevano che oltre alla direttiva disallow c’è una direttiva noindex che Googlebot obbedisce? Che le pagine non indicizzate non finiscono nell’indice ma le pagine non consentite, e queste ultime possono apparire nei risultati di ricerca (anche se con meno informazioni poiché gli spider non possono vedere il contenuto della pagina)? Che le pagine non consentite accumulano ancora PageRank? Quei robot.txt può accettare una forma limitata di pattern matching?, Che, a causa di quest’ultima caratteristica, puoi disabilitare selettivamente non solo le directory ma anche particolari tipi di file (beh, le estensioni dei file per essere più precisi)? Che un robot.non è possibile accedere alla pagina txt non consentita dagli spider, quindi non possono leggere e obbedire a un tag meta robots contenuto nella pagina?

    Un robot.file txt fornisce informazioni critiche per gli spider dei motori di ricerca che strisciano sul web. Prima di questi robot (qualcuno dice più la parola completa “robot”?) pagine di accesso di un sito, controllano per vedere se un robot.il file txt esiste., In questo modo rende la scansione del web più efficiente, perché i robot.il file txt impedisce ai bot di accedere a determinate pagine che non dovrebbero essere indicizzate dai motori di ricerca.

    Avere un robot.file txt è una best practice. Anche solo per la semplice ragione che alcuni programmi di metriche interpreteranno la risposta 404 alla richiesta di un robot mancante.file txt come un errore, che potrebbe comportare una segnalazione errata delle prestazioni. Ma quello che va in quel robot.file txt? Questo è il nocciolo della questione.

    Entrambi i robot.,txt e robot meta tag si basano sulla cooperazione da parte dei robot, e non sono affatto garantiti per lavorare per ogni bot. Se hai bisogno di una protezione più forte da robot senza scrupoli e altri agenti, dovresti usare metodi alternativi come la protezione con password. Troppe volte ho visto i webmaster ingenuamente inserire URL sensibili come le aree amministrative nei robot.txt. Faresti meglio a credere ai robot.txt è uno dei primi porti di scalo degli hacker-per vedere dove dovrebbero entrare.

    Robot.,txt funziona bene per:

    • Blocco crawler da non pubbliche parti del tuo sito web
    • Blocco motori di ricerca cercando di indice di script, programmi di utilità, o altri tipi di codice
    • Evitare l’indicizzazione di contenuti duplicati su un sito web, come “la stampa” versioni di pagine html
    • Auto-scoperta di XML Sitemap

    con il rischio di essere Capitan Ovvio, i robot.il file txt deve risiedere nella radice del dominio e deve essere denominato ” robot.txt ” (tutto minuscolo). Robot.,il file txt che si trova in una sottodirectory non è valido, poiché i bot controllano questo file solo nella radice del dominio.

    Creazione di un robot.file txt è facile. È possibile creare un robot.file txt in qualsiasi editor di testo. Dovrebbe essere un file di testo con codifica ASCII, non un file HTML.

    Robot.sintassi txt

    • User-Agent: al robot si applica la seguente regola (ad esempio” Googlebot”, ecc.)
    • Disallow: le pagine a cui si desidera bloccare l’accesso dei bot (quante righe non consentono se necessario)
    • Noindex: le pagine che si desidera bloccare da un motore di ricerca E non indicizzare (o deindicare se precedentemente indicizzato)., Ufficiosamente supportato da Google; non supportato da Yahoo e Live Search.
    • Ogni gruppo User-Agent/Disallow deve essere separato da una riga vuota; tuttavia non devono esistere righe vuote all’interno di un gruppo (tra la riga User-agent e l’ultimo Disallow).
    • Il simbolo hash ( # ) può essere utilizzato per i commenti all’interno di un robot.file txt, dove tutto dopo # su quella riga verrà ignorato. Può essere utilizzato sia per linee intere o fine delle linee.
    • Directory e nomi di file sono case-sensitive: “private”, “Private” e “PRIVATE” sono tutti univocamente diversi dai motori di ricerca.,

    Diamo un’occhiata a un esempio robot.file txt. L’esempio seguente include:

    • Il robot chiamato “Googlebot” non ha nulla di non consentito e può andare ovunque
    • L’intero sito è chiuso al robot chiamato “msnbot”;
    • Tutti i robot (diversi da Googlebot) non dovrebbero visitare la directory/ tmp /o le directory o i file chiamati / logs, come spiegato con i commenti, ad esempio, tmp.htm, / registri o registri.PHP.

    User-agent: Googlebot
    Disallow:

    User-agent: msnbot
    Disallow: /

    # Block all robots from tmp and logs directories
    User-agent: *
    Disallow: /tmp/
    Disallow: /logs # for directories and files called logs

    Cosa dovrebbe essere elencato nella riga User-Agent?, Un user-agent è il nome di un robot motore di ricerca specifico. Puoi impostare una voce da applicare a un bot specifico (elencando il nome) oppure puoi impostarla da applicare a tutti i bot (elencando un asterisco, che funge da carattere jolly). Una voce che si applica a tutti i bot è simile a questa:

    User-Agent: *

    I robot principali includono: Googlebot (Google), Slurp (Yahoo!), msnbot (MSN) e TEOMA (Ask).,

    Tieni presente che un blocco di direttive specificate per l’user-agent di Googlebot sarà obbedito da Googlebot; ma Googlebot NON obbedirà ANCHE alle direttive per l’user-agent di * (tutti i bot).

    Cosa dovrebbe essere elencato nella riga Disallow? Il disallow elenca le pagine che si desidera bloccare. È possibile elencare un URL specifico o un modello. La voce dovrebbe iniziare con una barra in avanti (/).,

    Esempi:

    • Per bloccare l’intero sito: Disallow: /
    • Per bloccare una directory e tutto ciò che contiene: Disallow: /private_directory/
    • Per bloccare una pagina: Disallow: /private_file.html
    • Per bloccare una pagina, e/o di una directory denominata privato: Disallow: /private

    Se si servono di contenuti tramite http e https, avrete bisogno di un separato robot.file txt per ciascuno di questi protocolli. Ad esempio, per consentire ai robot di indicizzare tutte le pagine http ma nessuna pagina https, utilizzeresti i robot.,file txt come segue, per il protocollo http:

    User-agent: *
    Disallow:

    E per il protocollo https:

    User-agent: *
    Disallow: /

    I bot controllano i robot.file txt ogni volta che vengono a un sito web. Le regole nei robot.file txt sarà in vigore immediatamente una volta che viene caricato alla radice del sito e il bot arriva al sito. La frequenza con cui si accede varia in base alla frequenza con cui i bot spider il sito in base alla popolarità, all’autorità e alla frequenza con cui il contenuto viene aggiornato., Alcuni siti possono essere strisciato più volte al giorno, mentre altri possono essere strisciato solo un paio di volte a settimana. Google Webmaster Central fornisce un modo per vedere quando Googlebot ultimo accesso ai robot.file txt.

    Consiglierei di usare i robot.strumento di analisi txt in Google Webmaster centrale per controllare gli URL specifici per vedere se i vostri robot.il file txt li consente o li blocca, vedi se Googlebot ha avuto problemi ad analizzare qualsiasi linea nei tuoi robot.file txt, e testare le modifiche ai vostri robot.file txt.,

    Alcune tecniche avanzate

    I principali motori di ricerca hanno iniziato a lavorare insieme per far progredire la funzionalità dei robot.file txt. Come accennato in precedenza, ci sono alcune funzioni che sono state adottate dai principali motori di ricerca, e non necessariamente tutti i principali motori, che prevedono un controllo più fine sulla scansione. Poiché questi possono essere limitati però, fare attenzione nel loro uso.

    Crawl ritardo: Alcuni siti web possono sperimentare elevate quantità di traffico e vorrebbe rallentare spider dei motori di ricerca verso il basso per consentire più risorse del server per soddisfare le esigenze di traffico regolare., Crawl delay è una direttiva speciale riconosciuta da Yahoo, Live Search e Ask che istruisce un crawler sul numero di secondi da attendere tra le pagine di scansione:

    User-agent: msnbot
    Crawl-delay: 5

    Pattern matching: In questo momento, pattern matching sembra essere utilizzabile dalle tre major: Google, Yahoo e Live Search. Il valore di pattern matching è considerevole. Diamo un’occhiata prima al più elementare di pattern matching, utilizzando il carattere jolly asterisco., Per bloccare l’accesso a tutte le sottodirectory che iniziano con”private”:

    User-agent: Googlebot
    Disallow: /private*/

    Puoi abbinare la fine della stringa usando il simbolo del dollaro ($). Ad esempio, per bloccare gli URL che terminano con .asp:

    User-agent: Googlebot
    Disallow: /*.asp$

    A differenza del pattern matching più avanzato trovato nelle espressioni regolari in Perl e altrove, il punto interrogativo non ha poteri speciali. Quindi, per bloccare l’accesso a tutti gli URL che includono un punto interrogativo (?,), usa semplicemente il punto interrogativo (non c’è bisogno di “sfuggirlo” o precederlo con una barra rovesciata):

    User-agent: *
    Disallow: /*?*

    Per bloccare i robot dalla scansione di tutti i file di un tipo di file specifico (ad esempio, .gif):

    User-agent: *
    Disallow: /*.gif$

    Ecco un esempio più complicato. Supponiamo che il tuo sito utilizzi la stringa di query parte degli URL (cosa segue “?”) esclusivamente per gli ID di sessione e si desidera escludere tutti gli URL che contengono il parametro dinamico per garantire che i bot non eseguano la scansione delle pagine duplicate. Ma potresti voler includere qualsiasi URL che termina con un “?”., Ecco come faresti:

    User-agent: Slurp
    Disallow: /*? # block any URL that includes a ?
    Allow: /*?$ # allow any URL that ends in a ?

    Allow directive: In questo momento, la direttiva Allow sembra essere supportata solo da Google, Yahoo e Ask. Proprio come sembra, funziona l’opposto della direttiva Disallow e offre la possibilità di richiamare in modo specifico directory o pagine che possono essere scansionate. Questo può essere utile dopo grandi sezioni o l’intero sito è stato negato.,

    Per consentire a Googlebot solo la directory “google”:

    User-agent: Googlebot
    Disallow: /
    Allow: /google/

    Direttiva Noindex: Come accennato in precedenza, questa direttiva offre vantaggi nell’eliminare elenchi senza titolo senza snippet dai risultati di ricerca, ma è limitata a Google. La sua sintassi rispecchia esattamente Disallow. Nelle parole di Matt Cutts:

    “Google consente una direttiva NOINDEX nei robot.txt e rimuoverà completamente tutti gli URL del sito corrispondenti da Google., (Questo comportamento potrebbe cambiare in base a questa discussione politica, ovviamente, motivo per cui non ne abbiamo parlato molto.) “

    Sitemap: un file sitemap XML può indicare ai motori di ricerca tutte le pagine del tuo sito e, facoltativamente, fornire informazioni su quelle pagine, ad esempio quali sono le più importanti e quanto spesso cambiano. Esso agisce come un meccanismo di auto-scoperta per lo spider per trovare il file sitemap XML. Puoi dire a Google e ad altri motori di ricerca della tua Sitemap aggiungendo la seguente riga ai tuoi robot.,file txt:

    Sitemap: sitemap_location

    La sitemap_location dovrebbe essere l’URL completo della Sitemap, ad esempio: http://www.example.com/sitemap.xml. Questa direttiva è indipendente dalla riga user-agent, quindi non importa dove la si posiziona nel file. Tutti i principali motori di ricerca supportano il protocollo Sitemap Auto-Discovery, tra cui Google, Yahoo, Live Search e Ask.

    Mentre auto-discovery fornisce un modo per informare i motori di ricerca sulla mappa del sito.,file xml, vale anche la pena verificare e inviare sitemap direttamente ai motori di ricerca attraverso ciascuna delle loro console webmaster (Google Webmaster Central, Yahoo Site Explorer, Live Search Webmaster Center).

    Maggiori informazioni sui bot di Google

    Google utilizza diversi bot (user-agent). Il bot per la ricerca web è Googlebot. Gli altri bot di Google seguono le regole impostate per Googlebot, ma puoi anche impostare regole aggiuntive per questi bot specifici. Il blocco di Googlebot blocca tutti i bot che iniziano con”Googlebot”.,li>Googlebot-Mobile: esegue la scansione delle pagine di indice mobile

  • Googlebot-Image: esegue la scansione delle pagine di indice dell’immagine
  • Mediapartners-Google: esegue la scansione delle pagine per determinare contenuti AdSense, solo per indicizzazione di siti se vedi gli annunci AdSense
  • Adsbot-Google: ricerche per indicizzazione per misurare AdWords qualità della pagina di destinazione, solo per indicizzazione di siti che utilizzano Google AdWords per pubblicizzare
  • È possibile Googlebot interamente utilizzando:

    User-agent: Googlebot
    Disallow: /

    È possibile consentire a Googlebot, ma bloccare l’accesso a tutti gli altri bot:

    User-agent: *
    Disallow: /

    User-agent: Googlebot
    Disallow:

    Problemi con i robot.,txt

    Pagine bloccate utilizzando robot.txt non consente può essere ancora in indice di Google e appaiono nei risultati di ricerca — soprattutto se altri siti link ad essi. Certo, un alto ranking è piuttosto improbabile dal momento che Google non può “vedere” il contenuto della pagina; ha molto poco da fare se non il testo di ancoraggio dei collegamenti in entrata e interni, e l’URL (e il titolo e la descrizione ODP se in ODP/DMOZ.) Di conseguenza, l’URL della pagina e, potenzialmente, altre informazioni disponibili pubblicamente possono apparire nei risultati di ricerca. Tuttavia, nessun contenuto delle tue pagine verrà scansionato, indicizzato o visualizzato.,

    Per impedire completamente che una pagina venga aggiunta all’indice di un motore di ricerca anche se altri siti si collegano ad esso, utilizzare un meta tag robot “noindex” e assicurarsi che la pagina non sia disabilitata nei robot.txt. Quando gli spider scansionano la pagina, riconosceranno il meta tag “noindex” e rilasciano l’URL dall’indice.

    Robot.txt e robot meta tag conflitti

    Se i robot.file txt e robot meta tag istruzioni per un conflitto di pagina, bot seguono il più restrittivo. Più specificamente:

    • Se si blocca una pagina con i robot.,txt, i bot non scansioneranno mai la pagina e non leggeranno mai alcun meta tag robot sulla pagina.
    • Se si consente una pagina con i robot.txt ma blocca l’indicizzazione utilizzando un meta tag robot, Googlebot accederà alla pagina, leggerà il meta tag e successivamente non lo indicizzerà.

    Mentre i robot.i file txt servono a proteggere il contenuto di un sito dall’indicizzazione, incluso un robot.file txt indipendentemente è raccomandato come molti processi robotici li cercano e offrendo uno può solo accelerare le loro procedure. Insieme, robot.,txt e robot meta tag ti danno la flessibilità di esprimere politiche di accesso complesse in modo relativamente semplice:

    • Rimozione di un intero sito web o parte di un sito web.
    • Evitare l’indicizzazione delle immagini in Google Image Search e altri motori di immagini.
    • Evitare l’indicizzazione di contenuti duplicati su un sito.
    • Rimozione di singole pagine su un sito utilizzando un robot Meta tag.
    • Rimozione di copie memorizzate nella cache e frammenti utilizzando un robot Meta tag.

    Entrambi i robot.txt e robot meta tag si basano sulla cooperazione da parte dei robot, e non sono affatto garantiti per lavorare per ogni robot., Se hai bisogno di una protezione più forte da robot e altri agenti, dovresti usare metodi alternativi come la protezione con password.

    Iscriviti ai nostri riassunti giornalieri del panorama di search marketing in continua evoluzione.

    Nota: Inviando questo modulo, accetti i termini di Third Door Media. Rispettiamo la tua privacy.,

    Circa L’Autore

    Stephan Spencer

    Stephan Spencer è il creatore di 3 giorni intensivi di SEO seminario di Controllo del Traffico; un autore della O’Reilly libri L’Arte del SEO, il Potere di Google Search e Social e-commerce; fondatore dell’agenzia SEO Netconcepts (acquistato nel 2010); inventore del SEO tecnologia proxy GravityStream; e l’ospite di due podcast mostra farti Ottimizzato e Commercializzazione di Parlare.


    Lascia un commento

    Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *