Tugas Pertemuan 9 Pengantar Web Science
Mata Kuliah Pengantar Web Science
Disusun Oleh:
Aldo Azrial Susanto (50420111)
TEKNIK INFORMATIKA
UNIVERSITAS GUNADARMA
2022
Web Crawler adalah suatu program atau script otomat yang relatif simple, yang dengan metode tertentu melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.
Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan.
Web crawl dapat digunakan untuk beragam tujuan. Penggunaan yang paling umum adalah yang terkait dengan search engine. Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan.
Cara Kerja Web Crawler
Sebuah website tidak dapat ditemukan begitu saja oleh search engine. Search engine harus melakukan crawling dan indexing sebelum akhirnya menampilkan konten website pada SERP mereka. Proses ini dilakukan dengan bantuan tools yang disebut web crawler, web robot, atau web spider.Lalu, bagaimana proses kerja sebuah web crawler?
Pertama, web crawler akan mengunjungi sebuah situs dan berbagai link yang terdapat dalam laman tersebut. Namun jika situsmu terbilang baru dan belum ada link lain di dalamnya, kamu bisa meminta search engine untuk mendatangi situsmu, seperti dikutip dari WebFX.
Caranya mudah. Kamu hanya perlu memasukkan URL situsmu di Google Search Console.
Kemudian, tugas tools web crawling berikutnya adalah mencatat setiap link yang mereka temukan ke indeks mereka.
Namun, perlu kamu catat bahwa web crawler hanya akan mengumpulkan informasi dari laman yang bersifat publik, ya. Web crawler tidak ikut mencatat laman private yang tidak dapat diakses. Setelah itu, web crawler akan mengumpulkan berbagai informasi, seperti tulisan dan meta tag. Informasi tersebut akan tersimpan dalam indeks search engine sehingga dapat muncul ketika pengguna mencari konten dengan keyword yang serupa.
Contoh Web Crawler
1. GooglebotGooglebot adalah web crawler yang paling banyak digunakan saat ini. Seperti namanya, web crawler ini adalah milik Google.
Googlebot mengumpulkan berbagai dokumen yang ada di sebuah website untuk membuat indeks yang dapat dicari oleh search engine Google.Web crawler yang satu ini merujuk pada dua jenis web crawler, yaitu desktop crawler dan mobile crawler.
2. HTTrack
HTTrack adalah web crawler yang bersifat open source. Kamu bisa men-download situs world wide web (www) dari internet ke komputermu sehingga kamu bisa melihatnya secara offline.
Jika sudah men-download konten situs tersebut, kamu bisa membukanya melalui browser-mu tanpa koneksi internet.
Jika sudah men-download konten situs tersebut, kamu bisa membukanya melalui browser-mu tanpa koneksi internet.
3. Cyotek Webcopy
Serupa dengan HTTrack, Cyotek Webcopy dapat digunakan untuk men-download situs dari internet ke komputermu.
Salah satu kelebihan web crawler ini adalah memungkinkan penggunanya memilih bagian yang ingin di-download. Jadi, kamu bisa memilih apakah ingin men-download semua bagian situs, foto tertentu, dan sebagainya.
Serupa dengan HTTrack, Cyotek Webcopy dapat digunakan untuk men-download situs dari internet ke komputermu.
Salah satu kelebihan web crawler ini adalah memungkinkan penggunanya memilih bagian yang ingin di-download. Jadi, kamu bisa memilih apakah ingin men-download semua bagian situs, foto tertentu, dan sebagainya.
4. WebhoseContoh web crawler berikutnya adalah Webhose.
Webhose adalah web crawler yang dapat mengubah konten website yang tidak terstruktur menjadi data feeds yang dapat dibaca oleh mesin.
Data feeds yang dimaksud dapat mencakup banyak sumber data, seperti diskusi online, situs berita, dan lainnya.
Web crawler bisa membandingkan harga dari suatu produk di internet. Sehingga harga ataupun data dari produk tersebut bisa akurat.
2. Data untuk Tools Analisis
Tools analisis website seperti Google Search Control dan Screaming Frog Seo mengandalkan web crawler untuk mengumpulkan data-datanya dan melakukan indexing. Sehingga data-data yang dihasilkan selalu akurat dan terbaru.
3. Data Untuk Statistik
Web crawler juga memberikan data-data penting yang bisa digunakan untuk website berita atau website statistik. Misalnya, hasil pencarian berita yang akan muncul di Google News.
Webhose adalah web crawler yang dapat mengubah konten website yang tidak terstruktur menjadi data feeds yang dapat dibaca oleh mesin.
Data feeds yang dimaksud dapat mencakup banyak sumber data, seperti diskusi online, situs berita, dan lainnya.
Fungsi Web Crawler
1. Membandingkan HargaWeb crawler bisa membandingkan harga dari suatu produk di internet. Sehingga harga ataupun data dari produk tersebut bisa akurat.
2. Data untuk Tools Analisis
Tools analisis website seperti Google Search Control dan Screaming Frog Seo mengandalkan web crawler untuk mengumpulkan data-datanya dan melakukan indexing. Sehingga data-data yang dihasilkan selalu akurat dan terbaru.
3. Data Untuk Statistik
Web crawler juga memberikan data-data penting yang bisa digunakan untuk website berita atau website statistik. Misalnya, hasil pencarian berita yang akan muncul di Google News.

Komentar
Posting Komentar