Ciri Pengikis Web - Ahli Semalt

Pengikis web adalah pelanjutan penyemak imbas Chrome yang bertujuan untuk mengekstrak data dari laman web. Dengan pelanjutan ini, anda boleh membuat peta laman atau rancangan, yang menunjukkan cara yang paling sesuai untuk menavigasi laman web dan mengekstrak data darinya.
Mengikuti peta laman web anda, Pengikis Web akan menavigasi halaman laman sumber demi halaman dan mengikis kandungan yang diperlukan. Data yang diekstrak dapat dieksport sebagai CSV atau format lain. Selain itu, pelanjutan ini boleh dipasang dari Chrome Store tanpa masalah.
Beberapa ciri Pengikis Web digariskan di bawah ini
- Keupayaan mengikis beberapa halaman
Alat ini mempunyai kemampuan untuk mengekstrak data dari beberapa halaman web secara serentak jika ditentukan dalam peta situs. Sekiranya anda perlu mengekstrak semua gambar dari laman web 100 halaman, mungkin memakan masa untuk anda memeriksa setiap halaman dan mengetahui mana yang mengandungi gambar dan mana yang tidak. Jadi, anda boleh memerintahkan alat untuk memeriksa setiap halaman untuk gambar.
- Alat ini menyimpan data di CouchDB atau storan tempatan penyemak imbas
- Alat ini menyimpan peta laman dan data yang diekstrak sama ada di penyimpanan penyemak imbas tempatan atau CouchDB
- Boleh mengekstrak pelbagai data
Oleh kerana alat ini dapat berfungsi dengan pelbagai jenis data, pengguna dapat memilih beberapa jenis data untuk pengekstrakan pada halaman yang sama. Sebagai contoh, ia dapat mengikis gambar dan teks dari laman web pada masa yang sama
- Mengikis data dari halaman dinamik
Pengikis Web sangat kuat sehingga dapat mengikis data walaupun dari halaman dinamik seperti Ajax dan JavaScript
- Keupayaan untuk melihat data yang diekstrak
Alat ini membolehkan pengguna melihat data yang dikikis sebelum disimpan di lokasi yang ditentukan
- Ia mengeksport data yang diekstrak sebagai CSV
Pengikis Web mengeksport data yang diekstrak sebagai CSV secara lalai, tetapi juga dapat mengeksportnya dalam format lain.
- Peta laman eksport dan import
Anda mungkin perlu menggunakan peta laman berkali-kali sehingga alat tersebut dapat mengimport dan mengeksport peta laman berdasarkan permintaan.
- Bergantung pada penyemak imbas Chrome sahaja
Malangnya, ini adalah kelemahan yang merupakan kelebihan. Ia berfungsi secara eksklusif dengan penyemak imbas Chrome.
Alat mengikis data lain
Terdapat beberapa alat pengikisan data mudah yang juga berguna untuk anda. Sebahagian daripadanya disenaraikan di bawah.
1. Mengikis

Rangka kerja ini dapat digunakan untuk mengikis semua kandungan laman web anda. Pengikisan kandungan bukan satu-satunya fungsinya. Ini juga dapat digunakan untuk pengujian otomatis, pemantauan, perlombongan data, perayapan web, pengikisan layar, dan banyak tujuan lain.
2. Wget
Anda juga boleh menggunakan Wget untuk mengikis keseluruhan laman web dengan mudah. Tetapi ada sedikit kelemahan dengan alat ini, ia tidak dapat mengurai fail CSS.
3. Anda juga boleh menggunakan perintah berikut untuk mengikis kandungan laman web anda sebelum membongkarnya:
file_put_contents ('/ some / directory / scrape_content.html', file_get_contents ('http://google.com'));