kEditor - Yararlı Bilgiler / İnternet / Robots.txt dosyası nedir, nasıl kullanılır, Robotları yönlendirme ve kontrol etme

http://www.keditor.com/bilgi_internet_59.html


Bulunduğunuz bölüm:   Anasayfa / Yararlı Bilgiler / İnternet

Robots.txt dosyası nedir, nasıl kullanılır, Robotları yönlendirme ve kontrol etme


Robots.txt dosyası nedir, nasıl kullanılır, Robotları yönlendirme ve kontrol etme Robots.txt dosyası, arama motorları ve spider denen bilgi toplayıcı örümceklere sitenizdeki dosya ve klasörleri gezip kayıt etmeleri için izin veren ya da engelleyen dosyadır. Robot.txt dosyası, normal bir text dosyasından farksızdır ve basit bir editor yazılımı (Notepad gibi) ile hazırlanabilir. Dikkat edilmesi gereken konu, robots.txt dosyasının anasayfanızın ya da sitenizin bulunduğu root (ana klasör) klasörüne konulmasıdır. Bilmeniz gereken bir diğer ayrıntı, bazı zararlı robot ya da örümcekler, robots.txt dosyasını dikkate almazlar, çünkü amaçları bilgi ve e-mail toplamaktır.

Eğer sitenize dosya gönderemiyorsanız (ücretsiz sunucularda olabilir), robotları <META> tagları ile kontrol etmelisiniz:

<META NAME="ROBOTS" CONTENT="NOINDEX"> Bu komut, robotların, yani arama motorlarının sitenizi kaydetmemesini sağlar.
<META NAME="ROBOTS" CONTENT="NOFOLLOW"> Bu komut ise, linkleri takip etmemesini belirtir.

Eğer sitenize dosya gönderme hakkına sahipseniz, robots.txt dosyasını nasıl oluşturacağımızı görelim. Öncelikle, buna neden ihtiyaç duyulduğunu söylemek gerekiyor: Tüm önemli arama motorları (google, yahoo, msn, altavista vb) robotları, sitenize girer girmez öncelikli olarak bir robots.txt dosyası arar. Sitenizin herhangi bir bölümüne yada bütününe örümceklerin girmelerini isteyin yada istemeyin; Bir robots.txt dosyası bulundurmak her zaman için yararlıdır. Çünkü bu dosya, örümcekler için ne yapacağını bilmesi açısından bir yardımcı görev yapar. Şimdi de robotları siteden uzak tutmanın nedenlerine inelim:

Hangi durumlarda robotları ya da örümcekleri engellemeliyim?

  1. Siteniz henüz tamamlanmamış olabilir. Ya da henüz tam oalrak bitmemiş sayfalar içeriyor olabilir. Ve bu durumda sitenizin ya da sayfalarınızın yarım yamalak kayıt edilmesini istemeyebilirsiniz.
  2. Şifrelemeye gerek duymadığınız, ama yine de sizin için özel olan bir içeriğe ya da bir bölüme sahip olabilirsiniz ve bunun arama motorları tarafından kayıt edilmesini ve aramalarda çıkmasını istemeyebilirsiniz.
  3. Hata sayfalarının, cgi-bin gibi klasörlerin ya da teşekkür ettiğiniz, içinde sadece "tamam" gibi kısa mesajlar bulundurduğunuz dosya ve klasörlerinizin kayıt edilmesi kimsenin işine yaramayacaktır.
  4. İçerik açısından birbirine benzeyen, geçişli sayfalarınız varsa bütün robotların aynı şeyi kaydetmesini istemeyebilirsiniz. Bu spam riski doğurabilir ve arama motorlarında engellenmenize yol açabilir.
  5. En önemlisi de, yer almak istemediğiniz arama motorlarından ya da e-mail toplayan zararlı örümceklerden robots.txt dosyası aracılığıyla kurtulabilirsiniz.

Robots.txt dosyası oluşturmak

Robots.txt dosyasını herhangi bir text editor (Örn. Notepad) ile oluşturabilirsiniz. Text dosyasının içeriği şu şekilde olmalıdır:

User-Agent: Robot ya da Örümcek ismi (* işareti hepsini kapsar)
Disallow: Klasör ya da Dosya ismi

Değişik örneklere birlikte bakalım:

Robots.txt ile bir dosyayı ya da klasörü belli bir bottan korumak

Mesela "Forum" diye bir bölüm oluşturuyorsunuz ve henüz tamamlanmadan robotların gelip kayıt etmesini istemiyorsunuz. Bu durumda, hedef tüm robotlar olduğu için özellikle robot ismi belirtmek yerine yıldız işareti * kullanmalısınız.

User-Agent: *
Disallow: /Forum/

Koruduğunuz bölüm isminin başına ve sonuna "/" işareti koymanız o klasördeki tüm dosyaları kapsayacaktır.

Tüm robotlara kayıt izmi vermek

Eğer tüm arama motorlarının sitemizi gezmesini istiyorsak, yine yıldız * işareti kullanıyoruz. Alttaki Disallow bölümünü ise boş bırakarak, engelleme yapmıyoruz.

User-agent: *
Disallow:

Tüm robotları bütün dosya ve klasörlerinizden uzak tutmak

Eğer tüm arama motorlarının sitemizden uzak tutmak istiyorsak, alttaki kod ile tüm robotları bütün dosya ve klasörlerinizden uzak tutabilir, kayıt etmelerini engelleyebilirsiniz.

User-agent: *
Disallow: /

Robots.txt ile birden fazla klasör engellemek

Eğer tüm arama motorlarının sitemizin istediğimiz bölümlerinden bazılarını gezmesini istiyorsak, bunu altalta yazarak yaparız. Bu ayarları dikkatli bir şekilde yapmalısınız, yoksa istemediğiniz dosya ve klasörleri kayıt ettirebilir, istediklerinizi engelleyebilirsiniz. Disallow ile, engellemek istediklerimizi belirtiyoruz.

User-agent: *
Disallow: /cgi-bin/
Disallow: /resimler/
Disallow: /dosyalar/
Disallow: /css/
Disallow: /onemli/
Disallow: /ozel/

Burada, cgi-bin, resimler, dosyalar, css, onemli, ozel klasörleri ve içinde bulunan tüm dosyalar robotlara yasaklanmış oluyor. Her klasör için ayrı bir komut yazmak en verimlisidir.

Belirli bir Robot ya da örümceği belli bir dosyaya erişimini engellemek


Google'ın resim dosyalarımızdan uzak durmasını istiyorsak :

User-Agent: Googlebot-Image
Disallow: /images/

Eğer dosyalarınız "images" klasöründe değil ve dağınık olarak değişik yerlerdeyse o zaman :

User-Agent: Googlebot-Image
Disallow: /

Sadece Altavista örümceğinin girmesini istemediğimiz klasörümüze, Altavista robotunun ismi olan Scooter ı ekliyoruz.

User-Agent: Scooter
Disallow: /

Robot isimleri hakkında daha fazla bilgi için http://www.robotstxt.org sitesini ziyaret edebilirsiniz. (sadece ingilizce)
kEditor, Son Güncelleme: 12.09.07

     

 Yukarı çık