Menghadapi Bot yang Merajalela

Sejak kecerdasan buatan mendapat momentumnya belakangan ini, salah satu yang kuperhatikan makin banyak bot baru bermunculan.

Mungkin ini salah satu kejengkelan yang dialami Elon Musk saat perusahaan kecerdasan buatan menggunakan konten dari Twitter/X untuk melatih model mereka. Begitu juga saat kuliat bot yang bekerja siang malam tanpa henti melakukan proses scraping.

Selain bot yang kusebut diatas ada beberapa jenis bot lain seperti: search engine optimization, iklan, dan mesin pencari dari dunia antah berantah. Biasanya perusahaan yang bergerak di bidang ini meraup keuntungan dari konten-konten gratis yang mereka ambil. Aku tidak peduli mereka sudah lelah melakukan analisis di situsweb yang kubuat, aku tetap akan memblokir bot-bot kurang kerjaan ini.

Untuk menghadapi bot-bot ini kumasukkan dalam 2 kategori, baik dan jahat. Kategori baik adalah untuk bot yang kuizinkan melakukan crawling seperti Google. Alasannya cukup sederhana, traffic dari mesin pencari google masih nomor 1. Selain Google, sebenarnya agak jengkel dengan bot dari Facebook. Agresifnya luar biasa tetapi tidak bisa berbuat apa-apa karena selain dari Google, bisa dibilang pengunjung banyak datang dari layanan milik Mark Zuckerberg ini.

Sedangkan untuk kategori jahat ini tidak kuberi ampun, langsung kuarahkan ke error 403. Larangan akses tanpa ampun ini karena setelah mempertimbangkan kalau layanan mereka tidak memberikan keuntungan buat perusahaan kami.

Pemblokiran

Cara memblokir bot ini tadinya kulakukan di berkas konfigurasi pelayan web, nginx. Tetapi setelah melihat seringnya bot baru datang setiap hari, aku memutuskan untuk melakukan proses ini melalui aplikasi karena jauh lebih mudah. Menggunakan robots.txt menjadi opsi terakhir karena tidak jarang selalu diabaikan dan butuh waktu.

Proses pendeteksiannya pun cukup mudah, tinggal periksa user agent-nya. Biasanya diberi nama bot atau crawler dan sering disertai tautan. Biarpun ada yang menggunakan e-mail tetapi bisa dibilang sangat jarang. Jika user agent-nya kosong, biasanya kukategorikan bot juga.

Connect with me:

Comments

Spammy comment will be deleted. Markdown syntax is supported.