Back to Question Center
0

Semalt Ahli: Python dan BeautifulSoup. Situs Scrape Dengan Kemudahan

1 answers:
Saat melakukan analisis data atau proyek pembelajaran mesin, Anda mungkin perlu mengikis situs web untuk mendapatkannya.

data yang dibutuhkan dan menyelesaikan proyek anda. Bahasa pemrograman Python memiliki koleksi alat dan modul yang hebat yang dapat digunakan untuk tujuan ini. Misalnya, Anda dapat menggunakan modul BeautifulSoup untuk penguraian HTML.

Di sini, kita akan melihat BeautifulSoup dan mencari tahu mengapa sekarang begitu banyak digunakan dalam web scraping - gel counter.

Fitur BeautifulSoup

- Ini menyediakan berbagai metode untuk memudahkan navigasi, pencarian dan modifikasi pohon parse sehingga memungkinkan Anda untuk dengan mudah membedah dokumen dan mengekstrak semua yang Anda butuhkan tanpa menulis terlalu banyak kode.

- Secara otomatis mengkonversi dokumen keluar ke dokumen UTF-8 dan masuk ke Unicode. Ini berarti Anda tidak perlu khawatir tentang pengkodean asalkan dokumen tersebut menentukan pengkodean atau Soup Indah dapat mengotomisasinya.

- BeautifulSoup dianggap lebih unggul dari parser Python populer lainnya seperti html5lib dan lxml. Hal ini memungkinkan mencoba berbagai strategi penguraian. Salah satu kelemahan dari modul ini, bagaimanapun, adalah bahwa ia menyediakan lebih banyak fleksibilitas dengan mengorbankan kecepatan.

Apa yang Anda butuhkan untuk mengikis situs dengan BeautifulSoup?

Untuk mulai bekerja dengan BeautifulSoup, Anda harus memiliki lingkungan pemrograman Python (baik lokal maupun berbasis server) yang disiapkan di komputer Anda.Python biasanya sudah terpasang di OS X, tapi jika Anda menggunakan Windows, Anda harus mendownload dan menginstal bahasa dari situs resmi.

Anda harus memasang modul BeautifulSoup and Requests.

Terakhir, menjadi akrab dan nyaman bekerja dengan tag HTML dan strukturnya pasti berguna karena Anda akan bekerja dengan data sumber web.

Mengimpor Permintaan dan CantikSoup libraries

Dengan lingkungan pemrograman Python yang telah disiapkan dengan baik, Anda sekarang dapat membuat file baru (menggunakan nano, misalnya) dengan nama yang Anda sukai.

Perpustakaan Permintaan memungkinkan Anda menggunakan HTTP bentuk yang dapat dibaca manusia di dalam program Python Anda sementara BeautifulSoup mendapat penggorotan dilakukan dengan kecepatan lebih cepat.Anda bisa menggunakan pernyataan impor untuk mendapatkan kedua perpustakaan.

Cara mengumpulkan dan mengurai halaman web

Gunakan permintaan. get

metode untuk mengumpulkan URL dari halaman web yang ingin Anda ekstrak data. Selanjutnya, buat objek BeautifulSoup atau parse tree. Objek ini mengambil dokumen dari Requests sebagai argumennya dan kemudian mem-parsingnya. Dengan halaman yang dikumpulkan, diurai dan disiapkan sebagai objek BeautifulSoup, Anda kemudian dapat melanjutkan untuk mengumpulkan data yang Anda butuhkan.

Mengekstrak teks yang diinginkan dari halaman web yang diurai

Kapanpun Anda ingin mengumpulkan data web, Anda perlu mengetahui bagaimana data tersebut dijelaskan oleh Document Object Model (DOM) dari halaman web. Di browser web Anda, klik kanan (jika menggunakan Windows), atau klik CTRL + (jika menggunakan macos) pada salah satu item yang membentuk bagian dari data yang diminati. Misalnya, jika Anda ingin menarik data tentang kewarganegaraan siswa, klik salah satu nama seorang siswa. Menu konteks muncul, dan di dalamnya, Anda akan melihat item menu yang mirip dengan Inspect Element (untuk Firefox) atau Inspect (for Chrome). Klik item menu Inspeksi yang relevan, dan alat pengembang web akan muncul di browser Anda.

BeautifulSoup adalah alat parsing HTML sederhana namun hebat yang memungkinkan Anda fleksibilitas yang tinggi saat menggores situs web . Saat menggunakannya, jangan lupa untuk mengamati peraturan umum scraping seperti memeriksa Syarat dan Ketentuan situs web; meninjau kembali situs secara teratur dan memperbarui kode Anda sesuai perubahan yang dilakukan di situs. Dengan pengetahuan tentang membuat situs web dengan Python dan BeautifulSoup, sekarang Anda dapat dengan mudah mendapatkan data web yang Anda butuhkan untuk proyek Anda.

December 22, 2017