a robotok mélyebb áttekintése.txt

október 4, 2020 admin 0 Comments

iratkozzon fel a folyamatosan változó keresési marketing táj napi összefoglalóira.

Megjegyzés: Az űrlap elküldésével elfogadja a Third Door Media feltételeit. Tiszteletben tartjuk a magánéletét.

Stephan Spencer április 16, 2009 at 8:00

Kategóriák:Minden SEO Oszlop, Csatorna: SEO, Hogy a SEO, a keresőoptimalizálás: Mászik, majd Robotok

A Robotok Kizárás Jegyzőkönyv (REP) nem éppen egy bonyolult jegyzőkönyv, illetve annak felhasználása meglehetősen korlátozott, így általában adott rövid volnék által Seo., Mégis sokkal több van benne, mint gondolnád. Robotok.a txt már több mint 14 éve velünk van, de hányan tudtuk, hogy a tiltó irányelv mellett van egy noindex irányelv, amelyet a Googlebot engedelmeskedik? Hogy a noindexelt oldalak nem az indexbe kerülnek, hanem a letiltott oldalak, az utóbbi pedig megjelenhet a keresési eredményekben (bár kevesebb információval, mivel a pókok nem látják az oldal tartalmát)? Hogy a letiltott oldalak még mindig felhalmozódnak PageRank? Azok a robotok.a TXT elfogadhatja a minta illesztésének korlátozott formáját?, Hogy az utolsó funkció miatt szelektíven letilthatja nemcsak a könyvtárakat, hanem az adott fájltípusokat is (nos, A fájlkiterjesztések pontosabbak)? Ez egy robot.a TXT letiltott oldal nem érhető el a pókok által, így nem tudnak olvasni és engedelmeskedni az oldalon található meta robot címkének?

a robot.a TXT fájl kritikus információkat nyújt az internetet feltérképező keresőmotor-pókok számára. Mielőtt ezek a botok (valaki azt mondja, a teljes szó “robotok” többé?) egy webhely oldalainak elérése után ellenőrzik, hogy van-e Robot.TXT fájl létezik., Ezzel teszi feltérképezi a web hatékonyabb, mert a robotok.a TXT fájl megakadályozza, hogy a botok hozzáférjenek bizonyos oldalakhoz, amelyeket a keresőmotoroknak nem szabad indexelniük.

miután a robotok.a txt fájl a legjobb gyakorlat. Még csak azért is, mert néhány metrika program értelmezi a 404-es választ a hiányzó robotok kérésére.TXT fájl hibaként, ami hibás teljesítményjelentést eredményezhet. De mi megy abban a robotban.txt fájl? Ez a lényege.

mindkét robot.,a TXT és a robotok metacímkéi a robotok együttműködésére támaszkodnak, és semmiképpen sem garantálják, hogy minden bot számára működnek. Ha erősebb védelemre van szüksége a gátlástalan robotok és más ügynökök ellen, használjon alternatív módszereket, például a jelszóvédelmet. Túl sokszor láttam, hogy a webmesterek naiv módon helyezik el az érzékeny URL-eket, például a robotok adminisztratív területeit.txt. Jobb, ha hiszel a robotoknak.a TXT a hacker egyik első hívási portja-hogy megnézze, hová kell betörniük.

robotok.,txt jól működik:

Korlátozó robotjai a nem nyilvános részét a weboldal
Korlátozó keresőmotorok próbál index szkriptek, segédprogramok, vagy más típusú kód
Elkerülve az indexálás a duplikált tartalom a honlapon, például a “nyomtatás” változata a html oldalak
Automatikus felfedezés XML Sitemaps

a kockázata annak, hogy Nyilvánvaló Kapitány, a robotok.a TXT fájlnak a domain gyökerében kell lennie, amelyet “robotok” – nek kell nevezni.txt” (minden kisbetűs). Egy robot.,az alkönyvtárban található txt fájl nem érvényes, mivel a botok csak a tartomány gyökerében ellenőrzik ezt a fájlt.

robotok létrehozása.a TXT fájl egyszerű. Akkor hozzon létre egy robotot.txt fájl bármely szövegszerkesztőben. ASCII kódolású szöveges fájlnak kell lennie, nem HTML fájlnak.

robotok.txt szintaxis

User-Agent: a robotra a következő szabály vonatkozik (pl.” Googlebot ” stb.)
Disallow: az oldalak blokkolása a botok hozzáférését (mint sok letiltja a sorok szükség szerint)
Noindex: az oldalak akarsz egy keresőmotor, hogy blokkolja a nem-index (vagy de-index, ha korábban indexelt)., Nem hivatalosan támogatja a Google; nem támogatja a Yahoo és a Live Search.
minden felhasználó-ügynök/letiltó csoportot üres sorral kell elválasztani; azonban egy csoporton belül (a felhasználó-ügynök vonal és az utolsó Letiltás között) nem lehet üres sor.
a hash szimbólum ( # ) egy roboton belüli megjegyzésekhez használható.txt fájl, ahol minden után # ezen a vonalon figyelmen kívül hagyják. Használható egész sorokra vagy a vonalak végére.
a könyvtárak és a fájlnevek esetérzékenyek: a” privát”, A” privát “és a” privát ” mind egyedülállóan különböznek a keresőmotoroktól.,

nézzünk egy példát robotok.txt fájl. Az alábbi példa tartalmazza:

A robot úgynevezett “Googlebot” semmi nem fogadható el lehet menni sehova
Az egész oldalt le van zárva, hogy a robot az úgynevezett “msnbot”;
Minden robotok (más, mint a Googlebot) nem látogasson el a /tmp/ mappát vagy könyvtárak, vagy fájlok neve /naplók, amint azt a megjegyzést, pl. tmp.htm, / naplók vagy naplók.php.

User-agent: Googlebot Disallow:

User-agent: msnbot Disallow: /

# Block all robots from tmp and logs directories User-agent: * Disallow: /tmp/ Disallow: /logs # for directories and files called logs

mit kell felsorolni a felhasználó-ügynök vonalon?, A felhasználói ügynök egy adott keresőmotor robot neve. Beállíthat egy bejegyzést egy adott botra való alkalmazáshoz (a név felsorolásával), vagy beállíthatja, hogy az minden botra vonatkozzon (csillag felsorolásával, amely helyettesítő karakterként működik). Az összes botra vonatkozó bejegyzés így néz ki:

User-Agent: *

főbb robotok: Googlebot (Google), Slurp (Yahoo!), msnbot (MSN) és TEOMA (Ask).,

ne feledje, hogy a Googlebot felhasználói ügynöke számára meghatározott irányelvek blokkját a Googlebot betartja; de a Googlebot nem fogja betartani a * (minden bot) felhasználói ügynökére vonatkozó irányelveket.

mit kell felsorolni a letiltási vonalon? A Letiltás felsorolja a blokkolni kívánt oldalakat. Megadhat egy adott URL-t vagy mintát. A bejegyzésnek egy előre perjel (/) – rel kell kezdődnie.,

példák:

a teljes oldal blokkolásához: Disallow: /
egy könyvtár és minden benne: Disallow: /private_directory/
egy oldal blokkolásához: Disallow: /private_file.html
egy privát nevű oldal és/vagy könyvtár blokkolásához: Disallow: /private

Ha tartalmat szolgáltat HTTP-n és HTTPS-en keresztül, külön robotokra lesz szüksége.txt fájl mindegyik protokollhoz. Például ahhoz, hogy a robotok indexelhessék az összes http-oldalt, de nem https-oldalakat, a robotokat használnád.,txt fájlok az alábbiak szerint a http protokollhoz:

User-agent: * Disallow:

és a https protokollhoz:

User-agent: * Disallow: /

botok ellenőrzik a robotokat.txt fájl minden alkalommal, amikor jönnek a honlapon. A robotok szabályai.a TXT fájl azonnal hatályba lép, miután feltöltötte a webhely gyökerébe, a bot pedig a webhelyre kerül. Az, hogy milyen gyakran érhető el, attól függ, hogy a botok milyen gyakran használják a webhelyet a népszerűség, a hatóság, valamint a tartalom frissítésének gyakorisága alapján., Egyes oldalak lehet bejárni naponta többször, míg mások csak lehet kúszott néhány alkalommal egy héten. A Google Webmaster Central lehetőséget nyújt arra, hogy megnézze, mikor a Googlebot utoljára hozzáfért a robotokhoz.txt fájl.

a robotok használatát javasolnám.txt elemző eszköz a Google Webmaster Central-ban, hogy ellenőrizze az adott URL-eket, hogy megnézze a robotjait.a txt fájl lehetővé teszi vagy blokkolja őket, nézze meg, hogy a Googlebotnak problémái voltak-e a robotok bármely sorának elemzésével.txt fájl, majd teszt változások a robotok.txt fájl.,

néhány fejlett technika

a főbb keresőmotorok elkezdtek együtt dolgozni a robotok funkcionalitásának előmozdítása érdekében.txt fájl. Mint fentebb említettük, vannak olyan funkciók, amelyeket a fő keresőmotorok fogadtak el, és nem feltétlenül az összes fő motor, amelyek finomabb irányítást biztosítanak a feltérképezés felett. Mivel ezek azonban korlátozottak lehetnek, óvatosan kell eljárni használatuk során.

feltérképezési késleltetés: egyes webhelyek nagy mennyiségű forgalmat tapasztalhatnak, és lassítani szeretnék a keresőmotorok pókjait, hogy több szerver erőforrás legyen a rendszeres forgalom igényeinek kielégítésére., Mássz késedelem külön irányelv által elismert, Yahoo, Live Search, majd Kérdezd meg, hogy utasítja a robot, a másodpercek száma, várj között mászik oldalak:

User-agent: msnbot Crawl-delay: 5

mintaillesztés: ebben Az időben, mintaillesztés úgy tűnik, hogy használható a három szakon: a Google, a Yahoo, vagy Élő Keresést. A minta illesztésének értéke jelentős. Nézzük először a legalapvetőbb minta megfelelő, a csillag helyettesítő karakter., Ahhoz, hogy blokkolja a hozzáférést az összes alkönyvtárak kezdődő “privát”:

User-agent: Googlebot Disallow: /private*/

akkor egyezik a végén a karakterlánc segítségével dollár jel ($). Például, hogy blokkolja az URL-eket, hogy a végén .asp:

User-agent: Googlebot Disallow: /*.asp$

ellentétben a fejlettebb minta megfelelő megtalálható reguláris kifejezések Perl és máshol, a kérdőjel nem rendelkezik különleges hatáskörökkel. Tehát, hogy blokkolja a hozzáférést az összes URL-ek, amelyek tartalmazzák a kérdőjel (?,), egyszerűen használja a kérdőjelet (nincs szükség” menekülésre”, vagy előzi meg egy visszaütéssel):

User-agent: * Disallow: /*?*

hogy megakadályozza a robotokat egy adott fájltípus összes fájljának feltérképezésében (például .gif):

User-agent: * Disallow: /*.gif$

itt egy bonyolultabb példa. Tegyük fel, hogy webhelye az URL-ek lekérdezési karakterláncát használja (mi következik a “?”) kizárólag munkamenet-azonosítók esetén, és ki szeretné zárni az összes olyan URL-t, amely tartalmazza a dinamikus paramétert annak érdekében, hogy a botok ne másolják a duplikált oldalakat. De lehet, hogy olyan URL-eket szeretne felvenni, amelyek a ” – val végződnek?”., Itt van, hogyan lehet elérni, hogy:

User-agent: Slurp Disallow: /*? # block any URL that includes a ? Allow: /*?$ # allow any URL that ends in a ?

engedélyezze irányelv: ebben az időben, az engedélyező irányelv úgy tűnik, hogy csak támogatja a Google, Yahoo, és kérje. Ahogy hangzik, úgy működik a tiltó irányelv ellentéte, és lehetővé teszi, hogy kifejezetten hívja ki könyvtárak vagy oldalak, amelyek bejárható. Ez előnyös lehet A nagy szakaszok után, vagy az egész webhelyet letiltották.,

ahhoz, Hogy lehetővé teszik, hogy a Googlebot be, hogy csak a “google” könyvtár:

User-agent: Googlebot Disallow: / Allow: /google/

Noindex irányelv: Mint már említettük, az irányelv kínál ellátások megszüntetése snippetless cím-kevesebb listings a keresési eredmények közül, de ez csak a Google. A szintaxisa pontosan tükrözi a letiltást. Matt Cutts szavaival:

” a Google engedélyezi a NOINDEX irányelvet a robotokban.a txt teljesen eltávolítja az összes megfelelő webhely URL-t a Google-tól., (Ez a viselkedés természetesen ezen a politikai vita alapján változhat, ezért nem sokat beszéltünk róla.) “

Oldaltérkép: egy XML-Webhelytérkép-fájl a keresőmotoroknak az Ön webhelyén található összes oldalról képes információt szolgáltatni, és opcionálisan információkat szolgáltatni azokról az oldalakról, mint például amelyek a legfontosabbak, és hogy ezek milyen gyakran változnak. Úgy működik, mint egy automatikus felfedezés mechanizmus a pók, hogy megtalálja az XML sitemap fájlt. A Google-nak és más keresőmotoroknak a Webhelytérképről a következő sort adhatja hozzá a robotokhoz.,txt fájl:

Sitemap: sitemap_location

a webhelytérképnek a webhelytérkép teljes URL-jének kell lennie, például: http://www.example.com/sitemap.xml. Ez az irányelv független a user-agent vonaltól, így nem számít, hogy hova helyezi a fájlba. Minden nagyobb keresőmotor támogatja az automatikus felfedezés Sitemap protokollt, beleértve a Google-t, a Yahoo-t, az élő keresést és az Ask-t.

míg az automatikus felfedezés lehetőséget nyújt a keresőmotorok tájékoztatására a webhelytérképről.,xml fájl, érdemes ellenőrizni és beküldeni a webhelytérképeket közvetlenül a keresőmotorokhoz minden webmaster konzolon keresztül (Google Webmaster Central, Yahoo Site Explorer, Live Search Webmaster Center).

További információ a Google botjairól

A Google több különböző botot (felhasználói ügynököket) használ. Az internetes keresés botja a Googlebot. A Google más botjai követik a Googlebot számára létrehozott szabályokat, de további szabályokat is beállíthat ezekre a speciális botokra. A Googlebot blokkolása blokkolja az összes botot, amely a “Googlebot” – val kezdődik.,li>a Googlebot-Mobile: mászik oldalak mobil index

a Googlebot-Kép: mászik oldalakat kép index

Mediapartners-Google: mászik oldalak meghatározni AdSense tartalom, csak mászik oldalak, ha a műsor AdSense hirdetések

Adsbot-Google: feltérképezi, hogy az intézkedés AdWords céloldal minősége, csak mászik oldalak a Google AdWords reklámozni

a blokk Googlebot teljesen segítségével: User-agent: Googlebot Disallow: /

lehetővé teszi, hogy a Googlebot, de blokkolja a hozzáférést a többi bot:

User-agent: * Disallow: / User-agent: Googlebot Disallow:

Kérdéseket robotok.,txt

oldalak blokkolni segítségével robotok.a txt letiltása továbbra is megtalálható a Google indexében, és megjelenhet a keresési eredményekben — különösen, ha más webhelyek hivatkoznak rájuk. Nyilvánvaló, hogy a magas rangú elég valószínűtlen, mivel a Google nem “látni” az oldal tartalmát; ez nagyon kevés, hogy menjen más, mint a horgony szöveg bejövő és belső linkek, és az URL (és az ODP cím és leírás, ha ODP/DMOZ.) Ennek eredményeként az oldal URL-címe és potenciálisan más nyilvánosan elérhető információ is megjelenhet a keresési eredmények között. Az oldalaidból azonban semmilyen tartalom nem kerül feltérképezésre, indexelésre vagy megjelenítésre.,

annak érdekében, hogy teljes mértékben megakadályozzuk egy oldal hozzáadását a keresőmotor indexéhez, még akkor is, ha más webhelyek hivatkoznak rá, használjon “noindex” robotok metacímkét, és ügyeljen arra, hogy az oldal ne legyen letiltva a robotokban.txt. Amikor a pókok feltérképezik az oldalt, felismeri a” noindex ” metacímkét, majd eldobja az URL-t az indexből.

robotok.txt és robotok meta tag konfliktusok

Ha a robotok.txt fájl és robotok meta tag utasításokat egy oldal konfliktus, botok követik a leginkább korlátozó. Pontosabban:

ha blokkolja az oldalt robotokkal.,TXT, a botok soha nem fogják feltérképezni az oldalt, és soha nem fognak robot metacímkéket olvasni az oldalon.
ha engedélyez egy oldalt robotokkal.txt de blokkolja, hogy indexelt egy robot meta tag, Googlebot fogja elérni az oldalt, olvassa el a meta tag, majd nem indexelni.

míg robotok.a txt fájlok célja, hogy megvédjék a webhely tartalmát az indexeléstől, beleértve a robotokat is.TXT fájl tekintet nélkül ajánlott, mint sok robot folyamatok keresni őket kínál egy csak gyorsítani az eljárásokat. Együtt, robotok.,a TXT és a robotok metacímkéi rugalmasságot biztosítanak a komplex hozzáférési politikák viszonylag egyszerű kifejezéséhez:

egy teljes weboldal vagy egy weboldal egy részének eltávolítása.
a képek indexálásának elkerülése a Google Képkeresőjében és más képmotorokban.
elkerülése indexálás ismétlődő tartalom egy oldalon.
egyes oldalak eltávolítása egy webhelyen robotok Metacímkével.
a gyorsítótárazott másolatok és kivonatok eltávolítása robot Metacímkével.

mindkét robot.a TXT és a robotok metacímkéje a robotok együttműködésére támaszkodik, és semmiképpen sem garantálható, hogy minden robot számára működik., Ha erősebb védelemre van szüksége a robotokkal és más ügynökökkel szemben, használjon alternatív módszereket, például a jelszóvédelmet.

iratkozzon fel a folyamatosan változó keresési marketing táj napi összefoglalóira.

Megjegyzés: Az űrlap elküldésével elfogadja a Third Door Media feltételeit. Tiszteletben tartjuk a magánéletét.,

A Szerzőről

Stephan Spencer

Stephan Spencer a teremtő a 3-nap magával ragadó SEO szeminárium Irányítás; egy szerző, az O ‘ reilly könyvek, A Művészet, a SEO, Google Hatalom Keresés, valamint a Szociális e-kereskedelem; alapítója a SEO ügynökség Netconcepts (szerzett 2010-ben); feltaláló a SEO proxy technológia GravityStream; valamint a fogadó a két podcast mutatja Magát Optimalizált, valamint a Marketing szót.

a robotok mélyebb áttekintése.txt

A Szerzőről

Vélemény, hozzászólás? Kilépés a válaszból

Legutóbbi bejegyzések

Archívum

Meta