Apa itu Penambangan Data?

Penambangan data menggunakan jumlah daya komputasi yang relatif besar yang beroperasi pada kumpulan data yang besar untuk menentukan keteraturan dan koneksi antara titik data. Algoritma yang menggunakan teknik dari statistik, pembelajaran mesin dan pengenalan pola digunakan untuk mencari database besar secara otomatis. Data mining juga dikenal sebagai Knowledge-Discovery in Databases (KDD).

Informasi yang dikumpulkan selama penambangan data sering disajikan sebagai bagan atau grafik.

Seperti istilah kecerdasan buatan , data mining adalah istilah umum yang dapat diterapkan pada sejumlah aktivitas yang bervariasi. Di dunia korporat, penambangan data paling sering digunakan untuk menentukan arah tren dan memprediksi masa depan. Ini digunakan untuk membangun caral dan sistem pendukung keputusan yang memberi orang informasi yang dapat mereka gunakan. Penambangan data mengambil peran garis depan dalam pertempuran melawan terorisme. Itu seharusnya digunakan untuk menentukan pemimpin serangan 9/11.

Pemfilteran spam dapat dianggap sebagai bentuk penambangan data.

Data miner adalah ahli statistik yang menggunakan teknik dengan nama seperti caral near-neighbor , k-means clustering , holdout method , k-fold cross validation , the leave-one-out method , dan sebagainya. Teknik regresi digunakan untuk mengurangi pola yang tidak relevan, hanya menyisakan informasi yang berguna. Istilah Bayesian sering terlihat di lapangan, mengacu pada kelas teknik inferensi yang memprediksi kemungkinan kejadian di masa depan dengan menggabungkan probabilitas sebelumnya dan probabilitas berdasarkan kejadian bersyarat. Pemfilteran spam bisa dibilang merupakan bentuk penambangan data, yang secara otomatis membawa pesan yang relevan ke permukaan dari lautan kacau upaya phishing dan penawaran Viagra.

Pohon keputusan digunakan untuk menyaring kumpulan data. Dalam pohon keputusan, semua data melewati node masuk, di mana ia menghadapi filter yang memisahkan data menjadi aliran tergantung pada karakteristiknya. Misalnya, data tentang perilaku konsumen kemungkinan akan disaring berdasarkan faktor demografis. Penambangan data tidak terutama tentang grafik mewah dan teknik visualisasi, tetapi menggunakannya untuk menunjukkan apa yang telah ditemukan. Diketahui bahwa kita dapat menyerap lebih banyak informasi statistik secara visual daripada verbal dan format presentasi ini bisa sangat persuasif dan kuat jika digunakan dalam konteks yang tepat.

Ketika peradaban kita menjadi semakin jenuh dengan data dan sensor didistribusikan secara massal ke lingkungan lokal kita, kita secara tidak sengaja akan menemukan hal-hal yang mungkin terlewatkan pada lintasan pertama. Penambangan data akan memungkinkan kita memperbaiki kesalahan ini dan menemukan wawasan baru berdasarkan data masa lalu, memberi kita lebih banyak keuntungan untuk penyimpanan data kita .