Bagaimana cara menghapus Pencilan dari Dataset menggunakan Python?

Di bidang Data, Ilmu data memainkan peran besar karena semua yang kita lakukan berpusat pada data saja. Perusahaan mempekerjakan orang-orang khusus untuk menangani data mereka, dan kemampuan kerja di sektor ini meningkat dengan sangat cepat. Alasan keberhasilan bidang ini adalah karena penggabungan alat-alat tertentu untuk penanganan data, dan ini terutama bahasa pemrograman, alat visualisasi data, alat manajemen database.

Dengan bantuan hal-hal ini, menjadi mudah untuk menangani segala jenis data serta menyimpannya di tempat yang lebih aman. Dengan kemajuan seperti itu, satu hal yang perlu diperhatikan adalah error apa pun yang dibuat saat menangani kumpulan data besar ini menyebabkan kegagalan total proyek tempat perusahaan bekerja. Karyawan harus memenuhi kebutuhan majikan dengan memberinya wawasan yang berarti tentang data dan bukan sampah apa pun. Seperti disebutkan bahwa dengan bantuan bahasa pemrograman penanganan data menjadi sangat mudah ini karena bahasa pemrograman ini memberikan kebebasan kepada Ilmuwan Data untuk bermain-main dengan data mereka dan mengubah yang sama untuk mendapatkan keluaran yang berbeda dan kemudian memilih yang terbaik. Salah satu bahasa pemrograman tersebut adalah Python. Ini adalah bahasa yang kuat dan paling disukai di luar sana untuk melakukan aktivitas terkait Ilmu Data.

Berbicara tentang data maka data yang kita gunakan harus dibersihkan dengan benar yang tidak mengandung hal-hal mencurigakan yang dapat menyebabkan kinerja yang buruk. Titik-titik yang mencurigakan ini disebut Pencilan, dan sangat penting untuk menghapus pencoretan ini jika diinginkan oleh perusahaan. Jadi mari kita lihat cara menghapus outlier ini menggunakan Bahasa Pemrograman Python:

Penghapusan Pencilan

Pencilan dapat disebut sebagai titik dalam dataset yang jauh dari titik lain yang jauh dari yang lain. Jadi, bagaimana cara menghilangkannya? Di sini Anda akan menemukan semua jawabannya.

Memvisualisasikan Pencilan

Untuk memvisualisasikan outlier dalam dataset kita dapat menggunakan berbagai plot seperti plot Box dan plot Scatter. Plot kotak memberitahu kita pengelompokan kuartil dari data yaitu; itu memberikan pengelompokan data berdasarkan persentil. Jika titik-titik tersebut berada dalam kisaran kuartil maka mereka digunakan untuk analisis dan jika mereka berada di luar jangkauan maka mereka disebut sebagai outlier dan dihapus dari dataset. Plot kotak dapat digunakan pada titik individu dan ini disebut analisis univariat. Juga, jika kita memiliki satu variabel kategori dan variabel kontinu lainnya, maka kita juga dapat menggunakan plot Kotak dan ini disebut analisis multivariat.

Sebuah representasi bergambar dari Box plot diberikan di bawah ini:

Plot sebar adalah jenis plot yang terutama digunakan untuk analisis bivariat karena kita membutuhkan koordinat X dan Y di mana kita akan membandingkan variabel yang berbeda satu sama lain. Jenis plot ini membantu dalam mendeteksi outlier dengan mengidentifikasi titik-titik yang jauh dari semua titik yaitu jika katakanlah titik maksimum dipusatkan ke arah wilayah kiri grafik dan satu atau dua mengarah ke sisi kanan grafik maka kedua titik ini akan menjadi outlier.

Sebuah representasi bergambar dari plot Scatter diberikan di bawah ini:

Menghapus Pencilan

  • Menggunakan skor Z: Ini adalah salah satu cara untuk menghilangkan outlier dari dataset. Prinsip di balik pendekatan ini adalah membuat distribusi normal standar dari variabel dan kemudian memeriksa apakah titik-titik tersebut berada di bawah standar deviasi +-3. Jika nilai berada di luar kisaran ini maka ini disebut outlier dan dihapus. Implementasi operasi ini diberikan di bawah ini menggunakan Python:

  • Menggunakan Persentil/Kuartil: Ini adalah metode lain untuk mendeteksi outlier dalam kumpulan data. Di sini kita menggunakan plot kotak untuk memvisualisasikan data dan kemudian kita menemukan nilai persentil ke – 25 dan ke -75 dari kumpulan data. Setelah ini dilakukan kita menemukan Score interkuartil dengan mengurangi 5 th persentil nilai dari 25 th persentil dan kemudian menemukan batas bawah dan atas dari data dengan mengalikan sama dengan 1,5. Setiap titik yang terletak jauh dari batas bawah dan atas disebut sebagai outlier. Implementasi operasi ini diberikan di bawah ini menggunakan Python:

Kesimpulan

Itu tergantung pada kepentingan organisasi apakah mereka ingin mempertahankan outlier atau menghapusnya. Kita harus mengetahui langkah-langkah ini dan jika ada pertanyaan yang diberikan kepada kita di mana kita perlu menghapus outlier dan kemudian melakukan pembelajaran Mesin atau aktivitas lainnya maka kita harus dapat melakukan hal yang sama.