Memanfaatkan Kekuatan Robots.txt

Setelah kami memiliki situs web dan berjalan, kami perlu memastikan bahwa semua mesin pencari yang mengunjungi dapat mengakses semua halaman yang ingin mereka lihat. Terkadang, kami mungkin ingin mesin pencari tidak mengindeks bagian tertentu dari situs, atau bahkan melarang SE lain dari situs secara bersamaan.Jika anda membutuhkan informasi terkait teknologi silahkan kunjungi tipsmonika.net yang menyediakan berbagai informasi terupdate mengenai Gadget,bola, dan masih banyak berita-berita yang menarik dan terupdate. 

Memanfaatkan Kekuatan Robots.txt

Di sinilah file teks kecil 2 baris sederhana yang disebut robots.txt masuk.

Robots.txt berada di direktori utama situs web Anda (pada sistem LINUX ini adalah direktori / public_html / Anda), dan terlihat seperti berikut ini:

Agen pengguna: *
Melarang:

Baris pertama mengontrol “bot” yang akan mengunjungi situs Anda, baris kedua mengontrol jika mereka diizinkan masuk, atau bagian mana dari situs yang tidak boleh mereka kunjungi …

Jika Anda ingin menangani beberapa “bot”, ulangi saja baris-baris di atas.
Jadi sebuah contoh:

Agen-pengguna: googlebot
Melarang:

Agen-pengguna: askjeeves
Larang: /

Ini akan memungkinkan Goggle (nama agen pengguna GoogleBot) untuk mengunjungi setiap halaman dan direktori, sementara pada saat yang sama melarang Ask Jeeves dari situs sepenuhnya.
Untuk menemukan daftar pengguna robot yang “cukup” mutakhir, kunjungi http://www.robotstxt.org/wc/active/html/index.html

Bahkan jika Anda ingin mengizinkan setiap robot mengindeks setiap halaman situs Anda, masih sangat disarankan untuk meletakkan file robots.txt di situs Anda. Ini akan menghentikan log kesalahan Anda yang penuh dengan entri dari mesin pencari yang mencoba mengakses file robots.txt Anda yang tidak ada.

Leave a Reply