Pengetahuan Statistik Dasar Diperlukan untuk Ilmu Data

Untuk melakukan pekerjaan terkait Ilmu Data yang melibatkan Pembelajaran Mesin, Pembelajaran Mendalam, kita perlu mengetahui konsep mendalam tentang cara kerjanya dan bagaimana satu algoritme tunggal dapat melakukan operasi sebesar itu. Algoritme ini dibangun dengan melakukan penelitian dan analisis selama bertahun-tahun dan kemudian tersedia bagi user untuk menggunakan hal yang sama dalam kode mereka.

Sekarang sebagai Ilmuwan Data, sangat penting untuk memiliki pengetahuan teknis yang baik terkait dengan pengkodean dan juga pengetahuan tentang statistik dan probabilitas karena setiap algoritma yang kita gunakan untuk melakukan operasi dibangun menggunakan konsep statistik dan probabilitas. Selain itu, kita dapat mengatakan bahwa jika kita ahli dalam statistik, maka Ilmu Data adalah tugas yang sangat mudah bagi kita. Setiap algoritma Machine Learning apakah Pohon Keputusan, Hutan Acak, Regresi Linier, dll dibangun menggunakan beberapa atau jenis lain dari rumus statistik yang telah kita pelajari di sekolah dan perguruan tinggi.

Untuk menjadi Ilmuwan Data yang sukses, oleh karena itu, merupakan kebutuhan untuk mempelajari statistik dan konsep probabilitas ini. Di sini kita akan membahas statistik dasar yang harus kita ketahui jika kita melangkah ke bidang Ilmu Data dan sangat tertarik dengan kegiatan terkait Visualisasi Data dan Pra-pemrosesan Data:

  • Populasi dan Sampel: Ini adalah terminologi paling dasar yang harus diketahui. Populasi didefinisikan sebagai jumlah total data yang terkandung sedangkan sampel didefinisikan sebagai subset dari populasi ketika kita memilih titik data tertentu dari total data. Populasi dilambangkan dengan “N” sedangkan sampel dilambangkan dengan “n”.
  • Distribusi Frekuensi : Ini adalah dasar dari setiap masalah statistik ketika kita berhadapan dengan klasifikasi data. Ketika kita berbicara tentang klasifikasi maka itu dilakukan sesuai dengan jenis datanya (data terukur atau atribut). Untuk tipe data atribut, kita mengelompokkan item berdasarkan karakteristik yang sama dan kemudian menempatkannya dalam kategori yang sesuai sedangkan dalam kasus data terukur, diklasifikasikan menurut kelas. Penyortiran dan pemisahan data berdasarkan kelas ini mengarah pada pembentukan distribusi frekuensi. Ini membantu kita dalam memberikan berapa kali kelas terjadi dalam data. Hal ini dilambangkan dengan huruf “f” dan kelas dengan “x”. Untuk membuat tabel distribusi frekuensi biasanya kita menggunakan rumus Yule yaitu 2.5 X n 1/4. Di sini n adalah jumlah total pengamatan dan setelah menemukan kelas, kita biasanya menemukan interval kelas di mana kita ingin data kita berada. Ini diberikan oleh rumus C= Nilai maksimum – Nilai minimum / Jumlah kelas. Ada jenis distribusi frekuensi lain yang juga tersedia seperti distribusi frekuensi kumulatif yang frekuensi totalnya sampai dan termasuk kelas tertentu juga.
  • Merencanakan Grafik : Ini adalah kebutuhan statistik lain yang harus dipelajari seseorang untuk menjadi Ilmuwan Data yang baik karena sangat penting untuk memvisualisasikan data kita dengan benar dan melihat fluktuasi yang ada di dalamnya dan menghasilkan kesimpulan yang diperlukan dari hal yang sama. Berbagai macam graf yang digunakan oleh Data Scientist antara lain Grafik Batang, Plot Menyebar, Plot Garis, Histogram, Plot Kotak, Plot Pie, dan Plot Sunburst, dll.

hierarki RNArsitektur- Basis data dan sistem klasifikasi keluarga RNA

RNArchitecture: Database dan sistem klasifikasi keluarga RNA, dengan fokus pada informasi struktural – Gambar Ilmiah di ResearchGate. Tersedia dari: https://www.researchgate.net/figure/A-sunburst-plot-illustrating-the-hierarchy-of-RNArchitecture-and-the-content-of-the-10_fig1_320566670 [diakses 19 Agustus 2020]

  • Central Tendency Measures: Ini terdiri dari menghitung Mean, Median, dan Mode dari data. Mean memberi tahu kita rata-rata, Mode jumlah kemunculan tertinggi dari titik data tertentu, dan Median nilai tengah data. Rumus untuk ukuran tendensi sentral ini adalah:

Rata-rata => x= fx/n dan, A + [∑fd/n X c], di mana f= frekuensi, A= Rata-rata yang diasumsikan, d= (x-A_/c, x= nilai kelas menengah, c= kelas interval, n = jumlah total pengamatan.

Modus => l + (f s /f p + f s X c), di mana l= batas bawah kelas modus, f p = nilai frekuensi kelas modal sebelumnya, f s = nilai frekuensi kelas modal berikutnya dan c = interval kelas.

Median => (n+1/2) dan l + [(n/2)-cf/f XC], dimana l= batas bawah kelas median, n= jumlah observasi, cf= frekuensi kumulatif, f= frekuensi kelas median, C = interval kelas.

  • Dispersi: Ini adalah ukuran penyebaran data di sekitar mean dan jenisnya berbeda seperti Mean Deviation, Standard Deviation, Coefficient of Variation, dan Variance.

MAD- Berarti Rumus Penyimpangan Mutlak

MAD- Berarti Rumus Penyimpangan Mutlak

  • Skewness : Ini adalah ukuran untuk melihat distribusi data di sekitar mean yaitu, ini memberitahu kita seberapa simetris data kita berdasarkan distribusi frekuensi yang diplot. Distribusi simetris akan memiliki mean=mode=median dan karenanya tidak memiliki kemiringan.

Ada banyak lagi hal statistik yang harus diperhatikan saat melakukan aktivitas terkait Ilmu Data dan Pembelajaran Mesin seperti Kurtosis, Distribusi Gaussian, Distribusi Normal Standar, Distribusi Binomial, dll. Untuk pemahaman yang lebih baik, Anda juga dapat membaca buku teks statistik sebagai kuliah online dan bersihkan konsep Anda. Ini akan membantu Anda menjadi Ilmuwan Data yang baik.

Kesimpulan

Sebelum terjun ke bidang Ilmu Data dan Analisis, pastikan Anda memahami dasar-dasarnya dan dapat menyelesaikan sendiri kasus-kasus dunia nyata. Jadi, mulailah perjalanan Anda sebagai Ilmuwan Data dan berikan pengetahuan Anda kepada dunia.

© 2022 Tekno Sridianti