Crawl késleltetése
Következetesen töltse ki az összes kötelező mezőt. Ahogy a használati utasítás, látni fogja a tartalmat a robots.txt irányelvek. A következő részletesen leírja, hogy a robots.txt fájl irányelveket.
Leírás robots.txt fájl formátum
robots.txt fájl áll a feljegyzések, amelyek mindegyike két mezőből áll: a vonal a neve a kliens alkalmazás (user-agent), és egy vagy több sorban kezdődő Disallow irányelveknek:
User-agent értelmében:
A Rambler: a Yandex: A Google:
Létrehozhat egy kézikönyv az összes robot:
Irányelv Disallow:
A második rész a felvétel vonalak tiltása. Ezek a vonalak - irányelvek (utasításokat, parancsokat) erre robot. Minden egyes csoportban, bevezette a vonal User-agent, legyen legalább egy utasítás tiltása. Száma tiltása utasításokat ogranicheno.Oni nem mondja a robot milyen fájlokat és / vagy könyvtárak robot nem szabad megengedni, hogy index. Ön megakadályozhatja az indexelés egy fájl vagy könyvtár.
A következő irányelv tiltja indexelése a / cgi-bin /:
Megjegyzés: a / a végén a könyvtár nevét! Megtiltják a látogatás az „/ dir”. utasítást kell a következő formában: „nem megengedett: / dir /”. A string „Disallow: / dir” tiltja látogatók minden oldalának a szerver, a teljes nevét, amely (a szerver root) kezdődik „/ dir”. Például: "/dir.html", "/dir/index.html", "/directory.html".
Felvett a következő irányelv tiltja indexelés index.htm fájl található a root:
Ha tiltása irányelv üres, az azt jelenti, hogy a robot képes index az összes fájlt. Legalább egy tiltása irányelv jelen kell lennie minden olyan területen, User-agent. hogy robots.txt tartották helyes. Teljesen üres robots.txt ugyanaz, mintha nem is létezne.
Robot Rambler megérteni * hogyan bármilyen karaktert, így használati Disallow: * a tilalom indexelése az egész oldalon.
Hagyjuk irányelv tiltása paraméterek nélkül. A hiányzó lehetőségek a Allow direktívák. Tiltása az alábbiak szerint értelmezzük:
Speciális karakterek használata „*” és „$”.
Amikor megadja út lehetővé teszi-tiltása irányelvek, akkor speciális karakterek „*” és „$”, amelyben ily módon bizonyos szabályos kifejezés. Speciális karakter „*”: minden olyan (beleértve az üres is) karaktersor. Példák: speciális karakterek „$”.
Alapértelmezésben a végén minden leírt szabályt robots.txt tulajdonított „*”, például: hogy megszünteti a „*” a végén a szabály, akkor a speciális karaktert „$”, például:
Irányelv Host.
Példák figyelmen kívül irányelvek Host:
Crawl-delay irányelv
Időkorlát másodpercben, amikor a bejáró letölti az oldalt a szerver (Crawl-delay).
Ha a szerver túlterhelt és nem volt ideje, hogy eleget kéréseket letölteni, használja az irányelv „Crawl-delay”. Ez lehetővé teszi, hogy meghatározza a keresési robot minimális időtartam (másodpercben), az injekció végén az egyik oldalon, és az elején a következő injekció. Kompatibilitás robotok, amelyek nem teljesen követik a szokásos feldolgozása során robots.txt, irányelv „Crawl-delay” hozzá kell adni a csoport, kezdve a belépő „User-Agent” után azonnal az irányelvek „nem megengedett” ( „Allow”).
Yandex lánctalpas támogatja frakcionált értékek feltérképezés-Delay, például 0,5. Ez nem garantálja, hogy a robotunk Ön webhelyét minden fél másodperces, de megadja a robot több szabadságot és lehetővé teszi a gyorsabb bypass oldalon.
Clean-param irányelv
Üres sorok között megengedett csoportok utasításokat adjuk User-agent.
Tiltása Instruction figyelembe venni, ha ez vonatkozik semmilyen user-agent karakterlánc - azaz, ha van egy nagyobb User-agent karakterláncot.
A következő egyszerű robots.txt fájl megakadályozza az indexelés az összes oldalt a honlapon az összes robotot, kivéve a robot Rambler, amely éppen ellenkezőleg, lehetővé tette indexelés az összes oldalt az oldal.
Gyakori hibák:
Amellett, hogy a robots.txt fájl segítségével, akkor az ellenőrzés a indexelés a robotok meta tag és utasítások
A csekket a Yandex „reagál a robots.txt, akkor ezen az oldalon