Tugas Pertemuan 9 Pengantar Web Science

Mei 26, 2022

Mata Kuliah Pengantar Web Science

Disusun Oleh:

Aldo Azrial Susanto (50420111)

TEKNIK INFORMATIKA

UNIVERSITAS GUNADARMA

2022

Pengertian Web Crawler

Web Crawler adalah suatu program atau script otomat yang relatif simple, yang dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.

Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan.

Cara Kerja Web Crawler

Sebuah website tidak dapat ditemukan begitu saja oleh search engine. Search engine harus melakukan crawling dan indexing sebelum akhirnya menampilkan konten website pada SERP mereka. Proses ini dilakukan dengan bantuan tools yang disebut web crawler, web robot, atau web spider.

Lalu, bagaimana proses kerja sebuah web crawler?

Pertama, web crawler akan mengunjungi sebuah situs dan berbagai link yang terdapat dalam laman tersebut. Namun jika situsmu terbilang baru dan belum ada link lain di dalamnya, kamu bisa meminta search engine untuk mendatangi situsmu, seperti dikutip dari WebFX.

Caranya mudah. Kamu hanya perlu memasukkan URL situsmu di Google Search Console.
Kemudian, tugas tools web crawling berikutnya adalah mencatat setiap link yang mereka temukan ke indeks mereka.

Namun, perlu kamu catat bahwa web crawler hanya akan mengumpulkan informasi dari laman yang bersifat publik, ya. Web crawler tidak ikut mencatat laman private yang tidak dapat diakses. Setelah itu, web crawler akan mengumpulkan berbagai informasi, seperti tulisan dan meta tag. Informasi tersebut akan tersimpan dalam indeks search engine sehingga dapat muncul ketika pengguna mencari konten dengan keyword yang serupa.

Contoh Web Crawler

1. Googlebot

Googlebot adalah web crawler yang paling banyak digunakan saat ini. Seperti namanya, web crawler ini adalah milik Google.

Googlebot mengumpulkan berbagai dokumen yang ada di sebuah website untuk membuat indeks yang dapat dicari oleh search engine Google.

Web crawler yang satu ini merujuk pada dua jenis web crawler, yaitu desktop crawler dan mobile crawler.

2. HTTrack

HTTrack adalah web crawler yang bersifat open source. Kamu bisa men-download situs world wide web (www) dari internet ke komputermu sehingga kamu bisa melihatnya secara offline.

Jika sudah men-download konten situs tersebut, kamu bisa membukanya melalui browser-mu tanpa koneksi internet.

3. Cyotek Webcopy

Serupa dengan HTTrack, Cyotek Webcopy dapat digunakan untuk men-download situs dari internet ke komputermu.

Salah satu kelebihan web crawler ini adalah memungkinkan penggunanya memilih bagian yang ingin di-download. Jadi, kamu bisa memilih apakah ingin men-download semua bagian situs, foto tertentu, dan sebagainya.

4. WebhoseContoh web crawler berikutnya adalah Webhose.

Webhose adalah web crawler yang dapat mengubah konten website yang tidak terstruktur menjadi data feeds yang dapat dibaca oleh mesin.

Data feeds yang dimaksud dapat mencakup banyak sumber data, seperti diskusi online, situs berita, dan lainnya.

Fungsi Web Crawler

1. Membandingkan Harga

Web crawler bisa membandingkan harga dari suatu produk di internet. Sehingga harga ataupun data dari produk tersebut bisa akurat.

2. Data untuk Tools Analisis

Tools analisis website seperti Google Search Control dan Screaming Frog Seo mengandalkan web crawler untuk mengumpulkan data-datanya dan melakukan indexing. Sehingga data-data yang dihasilkan selalu akurat dan terbaru.

3. Data Untuk Statistik

Web crawler juga memberikan data-data penting yang bisa digunakan untuk website berita atau website statistik. Misalnya, hasil pencarian berita yang akan muncul di Google News.

Sumber :

Mengenal Apa itu Pengertian Web Crawler - Kamus Hosting IDCloudHost

Web Crawling: Definisi, Cara Kerja, dan Contoh Tools - Glints Blog

Web Crawler: Pengertian, Cara Kerja dan Fungsinya [Terlengkap]

Cari Blog Ini

Aldo Azrial