Fájl - Tulajdonságok és alkalmazások

előző ◈ a következő

Robots.txt - egy fájlt, hogy korlátozza a hozzáférést a kereső robotok tartalom helyén a http-szervert. A robots.txt fájl kell elhelyezni a gyökérkönyvtárban a helyszínen (azaz egy relatív útvonalat az oldalon:

Ha több aldomaint robots.txt fájlt kell elhelyezni a gyökérkönyvtárban minden. Ez a fájl kiegészíti Sitemaps szabvány. ami pontosan az ellenkezője célja: hogy megkönnyítse a tartalomhoz való hozzáférést csúszómászó.

A robots.txt fájl ellenőrzésére használják részleges indexelés a webhely a keresőkben. Ez a fájl tartalmaz egy sor utasítást keresési robotok, amellyel megadhatja a fájlok vagy könyvtárak oldal helyszínen, hogy nem kell indexelni. A robots.txt fájl lehet használni, hogy adja meg a fájl helyét, és azt mutatják, hogy szükség van rá, először is, a robot index.

Ezen felül, ha tárolja bizalmas vagy érzékeny adatok nem szánt kíváncsiskodó szemek, akkor is szeretné, hogy a keresőmotorok nem index ezeket az oldalakat. Bár ebben az esetben a helyes utat, hogy mentse a indexelés bizalmas adatok - az, hogy azokat egy helyi mappát a számítógépen, vagy a hozzáférés jelszóval.

Az alábbiakban találsz egy sematikus ábrázolása, hogy a helyszínek néz ki, mint egy robots.txt fájlt, és nélküle.

Mi takoerobots.txt?

Robots.txt - Ez egy szöveges (nem HTML) fájl kerül az oldalon, hogy elmondja keresőrobotjaink mely oldalakat ne nézze meg. robots.txt fájl utasításokat nem szükséges a keresők, de általában a keresőprogramok alá az a tény, hogy a webmester kérték tőle. Fontos tisztázni, hogy a robots.txt fájl nem lehet megakadályozni térképezni webhelyét kereső.

Az a tény, hogy amit tesz a robots.txt fájlt. rokon, hogy a hang egy megjegyzés: „Kérem, ne adjon meg” egy nyitott ajtó, például, hogy nem tudja megakadályozni a tolvajok lép, és a normális emberek, miután elolvasta az üzenetet, nem próbálja meg, ezért azt mondták, hogy. ha fontos az információ valóban elérhető az Ön weboldalán, hogy túl naiv támaszkodni, hogy a robots.txt védik meg a indexelési és megjeleníti a keresési eredményeket.

forgalomba faylarobots.txt

Így, ha nem kell elhelyezni a robots.txt fájlt utasításokat a megfelelő helyre, ne lepődj meg, hogy a keresők a teljes webhelyét, beleértve azt a tényt, hogy nem akarja, hogy a nyilvánosság számára.

Sozdanierobots.txt

Ajánlások a Google használatát a robots.txt fájl

A legegyszerűbb robots.txt fájlban két szabály.

Ez a két sor egy bejegyzésnek a fájlban. Akkor is annyi bejegyzést, amelyek mindegyike tartalmazhat több Disallow és a User-agent.

User-Agent: Googlebot
Disallow: / katalog2 /

Ebben a példában az URL tilos csak a Googlebotként. tartalmazza / katalog2 /.

User Agent User-agent és más robotok

User-agent - egy speciális kereső robot. A Web Robots Database adatbázisban megtalálhatók a leggyakrabban használt robotok. Beállítható egy bejegyzést kell alkalmazni egy adott bot (a név felsorolásával), illetve megadhatja, hogy meg kell alkalmazni minden bot (felsorolásával csillaggal). Egy bejegyzés, amely az összes bot így néz ki:

A Google több botok (user-agent). A robotot használunk keresni az interneten, a Googlebot. Az más robotok, mint a Googlebot-Mobile és a Googlebot-Image. vonatkozó szabályokat követi állítva Googlebot. de nekik, megadhatja az egyes szabályokat.

Blokkolása robot User-agent

A Disallow sorban felsorolja azokat az oldalakat blokkolni kívánt. Akkor pontos URL-címet vagy egy mintát. A bejegyzést kell kezdeni egy perjel (/).

Hogy blokkolja az egész oldal, egy előre dőlt.

Blokkolni egy oldalt, az oldalt.

Eltávolítani egy adott képet a Google Images, adjuk hozzá a következő sorokat:

User-agent: Googlebot-Image
Letiltás: /kartinki/sobaki.jpg

Ahhoz, hogy távolítsa el az összes képet a Google a Google Képek, adjuk hozzá a következő sorokat:

User-agent: Googlebot-Image
Disallow: /

Zárás az összes fájlt egy bizonyos típusú (pl GIF), az alábbi módon:

User-agent: Googlebot
Letiltás: /*.gif$

User-agent: MediaPartners-Google
Engedélyezés: /

Ne feledje, hogy a parancsok és nagybetűket. Például,

Googlebot támogatja benyújtását webhelytérképfájlokba a robots.txt fájlt.

mintaegyezéseket

Googlebot (de nem az összes keresők) felismeri néhány mintaegyezéseket.

Annak jelzésére karakterek sorozata, egy csillag (*). Például, hogy blokkolja a hozzáférést az összes alkönyvtárat kezdődő magán. add hozzá a következő sorokat:

User-agent: Googlebot
Disallow: / lichnoe * /

User-agent: Googlebot
Letiltás: /*.xls$

Tiltása / *? - blokkolja a hozzáférést az összes URL kérdőjellel (azaz minden olyan URL, amely kezdődik a domain név, amelyet egy karakterlánc, majd egy kérdőjel található);
Hagyjuk :? / * $ - lehetővé teszi a hozzáférést az összes URL-t, egészen a kérdőjel (azaz, hogy minden URL-t, amely kezdődik a domain nevet, majd egy string, amely véget ér, ami után nincs más karakter.).

Gyakorlati tanácsok a GOOGLE

Használja megbízható módszereket korlátozza a hozzáférést a bizalmas információkat. Nem hivatkozhat a robots.txt blokkolja bizalmas vagy kényes információt. Először is, a keresőprogramok is tesz egy linket a blokkolt megadása nélkül címében vagy töredék az oldalt, ha valahol a hálózatban elérhetők a anyaggal (pl referrer). Másodszor, az egyéni keresők vagy a keresőmotorok, amelyek nem támogatják hozzáférési szabványok robotok lehet figyelmen kívül hagyni az utasításokat a robots.txt.

hogy indexelése kereső oldalakon, és hasonlók;
a felhasználók nem szeretik az egyik kereső oldalakon áthelyezni egy másik kis hasznos információ;
hogy indexelése által létrehozott oldal proxy szerver.

Iratkozzon fel hírlevelünkre, és akkor mindig tisztában, hogy mi történik.

Ez egyszerű, kényelmes és ingyenes!