Data Mining
Apa yang dimaksud dengan Data mining, berikut kutipan penjelasan detail dari salah satu nara sumber terkemuka " Onno W. Purbo "
Data mining adalah praktik pencarian secara otomatis pada sejumlah besar data untuk menemukan pola dan tren yang melampaui analisis sederhana. Data mining menggunakan algoritma matematis yang canggih untuk mengelompokkan data dan mengevaluasi kemungkinan kejadian di masa depan. Data mining juga dikenal sebagai Knowledge Discovery in Data (KDD).
|
Data Mining | BocahWeb |
Sifat utama dari data mining
- Menemukan pola secara otomatis
- Prediksi kemungkinan hasil / outcome
- Penciptaan informasi yang bisa ditindaklanjuti Fokus pada set data dan database yang besar
Data mining bisa menjawab pertanyaan yang tidak bisa diatasi melalui teknik query dan reporting sederhana.
"Automatic Discovery"
Data mining dilakukan dengan membangun model. Model menggunakan algoritma untuk bertindak berdasarkan seperangkat data. Gagasan penemuan otomatis mengacu pada eksekusi model data mining. Model data mining dapat digunakan untuk menambang data yang dirancang untuk model tersebut, namun sebagian besar jenis model digeneralisasikan ke data baru. proses penerapan model pada data baru dikenal dengan scoring.
Banyak bentuk data mining bersifat prediktif. Misalnya, model bisa memprediksi pendapatan berdasarkan pendidikan dan faktor demografis lainnya. Prediksi memiliki probabilitas yang terkait (Seberapa besar kemungkinan prediksi ini benar?).
Prediksi probabilitas juga dikenal sebagai kepercayaan diri (Seberapa yakin saya bisa prediksi ini?). Beberapa bentuk data prediktif mining menghasilkan aturan, yaitu kondisi yang menyiratkan hasil yang diberikan. Misalnya, sebuah peraturan mungkin menentukan bahwa seseorang yang memiliki gelar sarjana dan tinggal di lingkungan tertentu kemungkinan memiliki pendapatan lebih besar daripada rata-rata daerah. Aturan memiliki dukungan yang terkait (Berapa persentase populasi yang memenuhi peraturan?).
"Grouping"
Bentuk lain dari data mining mengidentifikasi pengelompokan alami dalam data. Misalnya, model dapat mengidentifikasi segmen populasi yang memiliki pendapatan dalam rentang yang ditentukan, yang memiliki catatan pemakaian kendaraan yang baik, dan yang menyewa mobil baru setiap tahunnya.
"Actionable Information"
Data mining dapat memperoleh informasi yang dapat ditindaklanjuti dari data dalam jumlah besar. Misalnya, perencana kota mungkin menggunakan model yang memprediksi pendapatan berdasarkan demografi untuk mengembangkan rencana perumahan berpenghasilan rendah. Agen penyewaan mobil mungkin menggunakan model yang mengidentifikasi segmen pelanggan untuk merancang promosi yang menargetkan pelanggan bernilai tinggi.
"Data Mining & Statistik "
Ada banyak tumpang tindih antara data mining dan statistik. Sebenarnya sebagian besar teknik yang digunakan dalam data mining dapat ditempatkan dalam kerangka statistik. Namun, teknik data mining tidak sama dengan teknik statistik tradisional. Metode statistik tradisional, secara umum, memerlukan banyak interaksi pengguna untuk memvalidasi kebenaran model. Akibatnya, metode statistik bisa sulit untuk mengotomatisasi. Selain itu, metode statistik biasanya tidak sesuai dengan kumpulan data yang sangat besar. Metode statistik bergantung pada pengujian hipotesis atau menemukan korelasi berdasarkan sampel yang lebih kecil dan representatif dari populasi yang lebih besar. Metode data mining cocok untuk kumpulan data yang besar dan bisa lebih mudah otomatis. Sebenarnya, algoritma data mining sering membutuhkan kumpulan data yang besar untuk pembuatan model kualitas.
"Data Mining and OLAP"
On-Line Analytical Processing (OLAP) dapat didefinisikan sebagai analisis cepat data multidimensi bersama. OLAP dan data mining berbeda tapi saling melengkapi.
OLAP mendukung kegiatan seperti summarization data, alokasi biaya, analisis deret waktu, dan analisis what-if. Namun, kebanyakan sistem OLAP tidak memiliki kemampuan inferensi induktif di luar dukungan untuk ramalan deret waktu. Kesimpulan induktif, proses mencapai kesimpulan umum dari contoh spesifik, adalah karakteristik data mining.
Inferensi induktif juga dikenal sebagai pembelajaran komputasional. Sistem OLAP memberikan tampilan data multidimensional, termasuk dukungan penuh untuk hierarki. Pandangan tentang data ini adalah cara alami untuk menganalisis bisnis dan organisasi.
Data mining, di sisi lain, biasanya tidak memiliki konsep dimensi dan hierarki. Data mining dan OLAP dapat diintegrasikan dalam beberapa cara. Misalnya, data mining dapat digunakan untuk memilih dimensi untuk kubus, membuat nilai baru untuk dimensi, atau membuat ukuran baru untuk sebuah kubus.
OLAP dapat digunakan untuk menganalisis hasil data mining pada tingkat granularitas yang berbeda. Data Mining dapat membantu anda membangun kubus yang lebih menarik dan berguna. Misalnya, hasil data mining prediktif dapat ditambahkan sebagai tindakan khusus ke sebuah kubus. Tindakan semacam itu mungkin memberikan informasi seperti "cenderung gagal bayar" atau "cenderung membeli" untuk setiap pelanggan. Proses OLAP kemudian dapat menggabungkan dan meringkas probabilitasnya.
" Data Mining and Data Warehousing"
Data dapat ditambang dan disimpan dalam file flat, spreadsheet, tabel database, atau beberapa format penyimpanan lainnya. Kriteria penting untuk data bukanlah format penyimpanan, namun penerapannya terhadap masalah yang harus dipecahkan.
Pembersihan dan persiapan data yang tepat sangat penting untuk data mining, dan data warehouse dapat mempermudah aktivitas ini. Namun, data warehouse tidak akan berguna jika tidak mengandung data yang anda butuhkan untuk memecahkan masalah anda. Data Mining yang baik akan di mudahkan jika data disajikan sebagai tabel kasus dalam format single-record case. Semua data untuk setiap record (case) harus terkandung dalam satu baris. Biasanya, tabel case adalah tampilan yang menyajikan data dalam format yang diperlukan untuk mining.