Cara Membuat File Robots Txt

Cara Membuat File Robots txt




5
(2945)

Memulai Membuat file robots txt

 

Bagaimana langkah awal cara membuat file robot txt yang benar ? mari ikuti selengkapnya. File robots.txt ada pada root situs Anda. Jadi, untuk situs www.example.com, file robots.txt berada di www.example.com/robots.txt. Robots.txt adalah file teks biasa yang mengikuti Standar Pengecualian Robot. File robots.txt terdiri dari satu aturan atau lebih. Setiap aturan memblokir (atau mengizinkan) akses crawler tertentu ke jalur file tertentu di situs tersebut. Berikut adalah sebuah file robots.txt sederhana yang memuat dua aturan beserta penjelasannya:

# Group 1
User-agent: Googlebot
Disallow: /nogooglebot/

# Group 2
User-agent: *
Allow: /

Sitemap: http://www.example.com/.

Penjelasan file robots txt

Membuat File Robots Txt

Setelah menjelaskan cara membuat file robot.txt sederhana di atas pasti kalian bingung maksud kalimat tersebut berikut penjelasannya :

  • Agen pengguna yang disebut crawler “Googlebot” tidak boleh meng-crawl folder https://negara.my.id/nogooglebot/ atau subdirektori mana pun.
  • Semua agen pengguna lainnya dapat mengakses situs secara keseluruhan. (Hal ini bisa dihilangkan dan hasilnya akan sama, karena akses penuh adalah asumsi.)
  • File peta situs untuk situs berada di https://negara.my.id//.

Kami akan memberikan contoh yang lebih mendetail nanti.

Panduan robots txt dasar

Berikut adalah beberapa panduan dasar untuk file robots.txt. Sebaiknya baca sintaks lengkap file robots.txt karena sintaks robots.txt memiliki beberapa perilaku yang hampir tidak terlihat yang harus Anda pahami.

Membuat File Robots Txt

Format dan lokasi robot txt

Anda dapat menggunakan hampir semua teks untuk membuat file robots.txt. teks dapat membuat file teks UTF-8 standar. Jangan gunakan pengolah kata karena tersebut sering kali menyimpan file dalam format eksklusif dan dapat menambahkan karakter yang tidak terduga, seperti tanda petik, yang dapat menyebabkan masalah bagi crawler.

Aturan format dan lokasi:

  • File harus diberi nama robots txt.
  • Situs hanya boleh memiliki satu file robots.txt.
  • File robots.txt harus berada di root host situs tempat file tersebut akan diberlakukan. Misalnya, untuk mengontrol crawling di semua URL pada http://www.example.com/, file robots.txt harus berada di http://www.example.com/robots.txt. File tidak boleh berada di subdirektori (misalnya, di http://example.com/pages/robots.txt). Jika Anda tidak tahu pasti cara mengakses root situs, atau memerlukan izin untuk mengaksesnya, hubungi penyedia layanan hosting web Anda. Jika Anda tidak dapat mengakses root situs, gunakan metode pemblokiran alternatif seperti tag meta.
  • File robots.txt dapat diterapkan ke subdomain (misalnya, http://.example.com/robots.txt) atau port yang tidak standar (misalnya, http://example.com:8181/robots.txt).
  • adalah konten apa pun setelah tanda #.

Sintaks

  • robots.txt harus berupa file teks berenkode UTF-8 (yang mencakup ASCII). Himpunan karakter lain tidak boleh digunakan.
  • File robots.txt terdiri dari satu atau beberapa grup.
  • Setiap grup terdiri dari beberapa aturan atau perintah (petunjuk), satu perintah per baris.
  • Grup memberikan informasi berikut:
    • Untuk siapa grup berlaku (agen pengguna)
    • Direktori atau file mana yang dapat diakses oleh agen, dan/atau
    • Direktori atau file mana yang tidak dapat diakses oleh agen.
  • Grup diproses dari atas ke bawah, dan sebuah agen pengguna hanya boleh cocok dengan satu kumpulan aturan, yaitu aturan pertama dan paling spesifik yang cocok dengan agen pengguna tertentu.
  • Asumsi defaultnya adalah agen pengguna dapat meng-crawl semua halaman atau direktori yang tidak diblokir oleh aturan Disallow:.
  • Aturan bersifat peka terhadap huruf besar dan kecil. Misalnya, Disallow: /file.asp berlaku untuk http://www.example.com/file.asp, namun tidak berlaku untuk http://www.example.com/FILE.asp.

Perintah berikut digunakan dalam file robots.txt:

  • User-agent: [Wajib, satu atau lebih untuk setiap grup] Nama robot mesin telusur (software web crawler) tempat aturan diterapkan. Ini adalah baris pertama untuk aturan apa pun. Sebagian besar nama agen pengguna tercantum di Database Robot Web atau di Daftar agen pengguna Google. Mendukung karakter pengganti * untuk awalan, akhiran, atau seluruh string jalur. Penggunaan tanda bintang (*) seperti dalam contoh di bawah akan mencocokkan dengan semua crawler kecuali beberapa crawler AdsBot, yang harus dinamai secara eksplisit. (Lihat daftar nama crawler Google.) Contoh:
    # Example 1: only Googlebot
    User-agent: Googlebot
    Disallow: /

# Example 2: Googlebot and Adsbot

User-agent: Googlebot

User-agent: AdsBot-

Disallow: /

# Example 3: all but AdsBot crawlers

User-agent: *

Disallow: /

  • Disallow: [ satu atau beberapa entri Disallow atau Allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang tidak boleh di-crawl oleh agen pengguna. Untuk halaman, tuliskan nama halaman lengkap seperti yang ditampilkan di browser; untuk direktori, akhiri dengan tanda /. Mendukung karakter pengganti * untuk awalan, akhiran, atau seluruh string jalur.
  • Allow: [ satu atau beberapa entri Disallow atau Allow per aturan] Direktori atau halaman, yang terkait dengan domain root, yang boleh di-crawl oleh agen pengguna yang disebutkan. Aturan ini digunakan untuk mengganti Disallow guna mengizinkan crawling subdirektori atau halaman pada direktori yang dilarang. Untuk halaman, tuliskan nama halaman lengkap seperti yang ditampilkan di browser; untuk direktori, akhiri dengan tanda /. Mendukung karakter pengganti * untuk awalan, akhiran, atau seluruh string jalur.
  • Sitemap: [Opsional, nol atau beberapa per file] Lokasi peta situs untuk situs ini. Harus berupa URL yang sepenuhnya memenuhi syarat; tidak menganggap atau memeriksa alternatif http/https/www.non-www. Peta situs adalah cara yang tepat untuk menunjukkan konten mana yang boleh di-crawl oleh Google, bukan konten mana yang dapat atau tidak dapat di-crawl. Pelajari lebih lanjut peta situs. Contoh:
    Sitemap: https://example.com/.
    Sitemap: http://www.example.com/.

Aturan lain akan diabaikan.

Contoh file lainnya

File robots.txt terdiri dari satu atau beberapa grup, yang masing-masing diawali dengan baris User-agent yang menentukan target dari grup tersebut. Berikut adalah sebuah file dengan dua grup; inline menjelaskan setiap grup:

# googlebot from example.com/directory1/… and example.com/directory2/…
# but allow access to directory2/subdirectory1/…
# All other directories on the site are allowed by default.
User-agent: googlebot
Disallow: /directory1/
Disallow: /directory2/
Allow: /directory2/subdirectory1/

# the entire site from anothercrawler.
User-agent: anothercrawler
Disallow: /

Sintaks robots.txt lengkap

Anda dapat menemukan sintaks robots.txt lengkap di sini. Harap baca seluruh dokumentasi tersebut karena ada beberapa hal rumit dan penting untuk dipelajari pada sintaks robots.txt.

Aturan robots.txt yang berguna

Berikut adalah beberapa aturan robots.txt umum yang berguna:

Aturan Contoh
Larang crawling keseluruhan situs. Perlu diingat bahwa dalam beberapa situasi, URL dari situs masih dapat diindeks, meskipun belum di-crawl. Catatan: aturan ini tidak cocok dengan berbagai crawler AdsBot, yang harus disebutkan secara eksplisit. User-agent: *
Disallow: /
Larang crawl direktori dan kontennya dengan garis miring ke depan setelah nama direktori. Perlu diingat bahwa Anda seharusnya tidak menggunakan robots.txt untuk memblokir akses ke konten pribadi: sebagai gantinya, gunakan autentikasi yang tepat. URL yang dilarang oleh file robots.txt masih dapat diindeks tanpa di-crawl, dan file robots.txt dapat dilihat oleh siapa saja yang berpotensi mengungkap lokasi konten pribadi Anda. User-agent: *
Disallow: /calendar/
Disallow: /junk/
Izinkan akses ke sebuah crawler User-agent: Googlebot-
Allow: /User-agent: *
Disallow: /
Izinkan akses ke semua kecuali sebuah crawler User-agent: Unnecessarybot
Disallow: /User-agent: *
Allow: /
Larang crawling sebuah halaman web dengan mencantumkan halaman tersebut setelah garis miring: User-agent: *
Disallow: /private_file.
Blokir gambar tertentu dari Gambar: User-agent: Googlebot-Image
Disallow: /images/dogs.jpg
Blokir semua gambar di situs dari Gambar: User-agent: Googlebot-Image
Disallow: /
Larang crawling file jenis tertentu (misalnya .gif): User-agent: Googlebot
Disallow: /*.gif$
Larang crawl situs secara keseluruhan, namun tampilkan iklan di halaman tersebut, melarang semua crawler web selain Mediapartners-Google. Penerapan ini menyembunyikan halaman Anda dari hasil penelusuran, namun crawler web Mediapartners- tetap dapat menganalisisnya untuk menentukan iklan yang akan ditampilkan kepada pengunjung di situs Anda.

User-agent: *
Disallow: /

User-agent: Mediapartners-
Allow: /

Cocokkan URL yang diakhiri dengan string tertentu, menggunakan $. Misalnya, kode contoh untuk memblokir URL apa pun yang diakhiri dengan .xls: User-agent: Googlebot
Disallow: /*.xls$

Tentang Cara Membuat Robot txt Friendly

How useful was this post?
Click on a star to rate it!

5 ( 2945 Votes )

Silahkan Rating!
Cara Membuat File Robots txt

No votes so far! Be the first to rate this post.

We are sorry that this post was not useful for you!

Let us improve this post!

Tell us how we can improve this post?

Kirimi saya email ketika halaman ini telah diperbarui

Apakah artikel ini membantu ?
YaTidak

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *