Crawl késleltetése

Következetesen töltse ki az összes kötelező mezőt. Ahogy a használati utasítás, látni fogja a tartalmat a robots.txt irányelvek. A következő részletesen leírja, hogy a robots.txt fájl irányelveket.

Leírás robots.txt fájl formátum

robots.txt fájl áll a feljegyzések, amelyek mindegyike két mezőből áll: a vonal a neve a kliens alkalmazás (user-agent), és egy vagy több sorban kezdődő Disallow irányelveknek:

User-agent értelmében:

A Rambler: a Yandex: A Google:

Létrehozhat egy kézikönyv az összes robot:

Irányelv Disallow:

A második rész a felvétel vonalak tiltása. Ezek a vonalak - irányelvek (utasításokat, parancsokat) erre robot. Minden egyes csoportban, bevezette a vonal User-agent, legyen legalább egy utasítás tiltása. Száma tiltása utasításokat ogranicheno.Oni nem mondja a robot milyen fájlokat és / vagy könyvtárak robot nem szabad megengedni, hogy index. Ön megakadályozhatja az indexelés egy fájl vagy könyvtár.

A következő irányelv tiltja indexelése a / cgi-bin /:

Megjegyzés: a / a végén a könyvtár nevét! Megtiltják a látogatás az „/ dir”. utasítást kell a következő formában: „nem megengedett: / dir /”. A string „Disallow: / dir” tiltja látogatók minden oldalának a szerver, a teljes nevét, amely (a szerver root) kezdődik „/ dir”. Például: "/dir.html", "/dir/index.html", "/directory.html".

Felvett a következő irányelv tiltja indexelés index.htm fájl található a root:

Ha tiltása irányelv üres, az azt jelenti, hogy a robot képes index az összes fájlt. Legalább egy tiltása irányelv jelen kell lennie minden olyan területen, User-agent. hogy robots.txt tartották helyes. Teljesen üres robots.txt ugyanaz, mintha nem is létezne.

Robot Rambler megérteni * hogyan bármilyen karaktert, így használati Disallow: * a tilalom indexelése az egész oldalon.

Hagyjuk irányelv tiltása paraméterek nélkül. A hiányzó lehetőségek a Allow direktívák. Tiltása az alábbiak szerint értelmezzük:

Speciális karakterek használata „*” és „$”.
Amikor megadja út lehetővé teszi-tiltása irányelvek, akkor speciális karakterek „*” és „$”, amelyben ily módon bizonyos szabályos kifejezés. Speciális karakter „*”: minden olyan (beleértve az üres is) karaktersor. Példák: speciális karakterek „$”.
Alapértelmezésben a végén minden leírt szabályt robots.txt tulajdonított „*”, például: hogy megszünteti a „*” a végén a szabály, akkor a speciális karaktert „$”, például:

Irányelv Host.

Példák figyelmen kívül irányelvek Host:

Crawl-delay irányelv

Időkorlát másodpercben, amikor a bejáró letölti az oldalt a szerver (Crawl-delay).

Ha a szerver túlterhelt és nem volt ideje, hogy eleget kéréseket letölteni, használja az irányelv „Crawl-delay”. Ez lehetővé teszi, hogy meghatározza a keresési robot minimális időtartam (másodpercben), az injekció végén az egyik oldalon, és az elején a következő injekció. Kompatibilitás robotok, amelyek nem teljesen követik a szokásos feldolgozása során robots.txt, irányelv „Crawl-delay” hozzá kell adni a csoport, kezdve a belépő „User-Agent” után azonnal az irányelvek „nem megengedett” ( „Allow”).

Yandex lánctalpas támogatja frakcionált értékek feltérképezés-Delay, például 0,5. Ez nem garantálja, hogy a robotunk Ön webhelyét minden fél másodperces, de megadja a robot több szabadságot és lehetővé teszi a gyorsabb bypass oldalon.

Clean-param irányelv

Üres sorok között megengedett csoportok utasításokat adjuk User-agent.

Tiltása Instruction figyelembe venni, ha ez vonatkozik semmilyen user-agent karakterlánc - azaz, ha van egy nagyobb User-agent karakterláncot.

A következő egyszerű robots.txt fájl megakadályozza az indexelés az összes oldalt a honlapon az összes robotot, kivéve a robot Rambler, amely éppen ellenkezőleg, lehetővé tette indexelés az összes oldalt az oldal.

Gyakori hibák:

Amellett, hogy a robots.txt fájl segítségével, akkor az ellenőrzés a indexelés a robotok meta tag és utasítások .

A csekket a Yandex „reagál a robots.txt, akkor ezen az oldalon