49 Soal Data Mining Beserta Jawaban
Kumpulan Soal Pilihan Ganda Materi Data Mining
1. Data Mining adalah proses untuk:
A. Mengatur data dalam basis data
B. Menemukan pola tersembunyi dalam data
C. Mengimplementasikan algoritma Machine Learning
D. Mengubah data mentah menjadi informasi yang berguna
Jawaban:
B. Menemukan pola tersembunyi dalam data
2. Apa yang dimaksud dengan "data preprocessing" dalam Data Mining?
A. Mengumpulkan data dari berbagai sumber
B. Mengubah data mentah menjadi format yang lebih mudah dipahami
C. Menghapus data yang tidak relevan atau terduplikasi
D. Menemukan pola tersembunyi dalam data
Jawaban:
B. Mengubah data mentah menjadi format yang lebih mudah dipahami
3. Algoritma Apriori digunakan untuk:
A. Klasifikasi data
B. Mengelompokkan data ke dalam cluster
C. Menemukan asosiasi antara item dalam dataset
D. Mengidentifikasi data yang tidak normal
Jawaban:
C. Menemukan asosiasi antara item dalam dataset
4. Algoritma Decision Tree adalah metode yang digunakan untuk:
A. Mengurangi dimensi data
B. Memprediksi kelas target berdasarkan aturan keputusan
C. Menganalisis sebaran data dalam ruang fitur
D. Menemukan aturan asosiasi dalam dataset
Jawaban:
B. Memprediksi kelas target berdasarkan aturan keputusan
5. Apa kegunaan algoritma K-means dalam Data Mining?
A. Klasifikasi data
B. Regresi data
C. Mengelompokkan data ke dalam cluster
D. Mengidentifikasi outlier dalam dataset
Jawaban:
C. Mengelompokkan data ke dalam cluster
6. Apa yang dimaksud dengan "overfitting" dalam konteks Data Mining?
A. Model yang terlalu sederhana untuk mempelajari pola data yang kompleks
B. Model yang terlalu rumit sehingga tidak bisa digeneralisasi ke data baru
C. Kehilangan sebagian besar informasi dalam proses pengolahan data
D. Penambahan fitur yang tidak relevan dalam dataset
Jawaban:
B. Model yang terlalu rumit sehingga tidak bisa digeneralisasi ke data baru
7. Apa yang dimaksud dengan "supervised learning" dalam Machine Learning?
A. Model belajar dari data tanpa label
B. Model belajar dari data dengan label yang diketahui
C. Model belajar dengan melakukan eksplorasi interaktif pada data
D. Model belajar dengan memperhatikan feedback pengguna
Jawaban:
B. Model belajar dari data dengan label yang diketahui
8. Apa perbedaan antara "clustering" dan "classification" dalam Data Mining?
A. Clustering mengelompokkan data berdasarkan kesamaan, sedangkan classification memprediksi label kelas
B. Clustering hanya digunakan pada data numerik, sedangkan classification pada data kategorikal
C. Clustering memerlukan data berlabel, sedangkan classification tidak
D. Clustering hanya menghasilkan hasil visual, sedangkan classification menghasilkan model prediktif
Jawaban:
A. Clustering mengelompokkan data berdasarkan kesamaan, sedangkan classification memprediksi label kelas
9. Apa yang dimaksud dengan "association rule" dalam Data Mining?
A. Aturan yang menghubungkan atribut dengan tingkat kepercayaan tertentu
B. Aturan yang menentukan urutan langkah-langkah dalam proses Data Mining
C. Aturan yang menentukan penggunaan algoritma tertentu untuk jenis data tertentu
D. Aturan yang mengidentifikasi outlier dalam dataset
Jawaban:
A. Aturan yang menghubungkan atribut dengan tingkat kepercayaan tertentu
10. Metode "k-fold cross-validation" digunakan untuk:
A. Menggabungkan dua dataset yang berbeda
B. Mengurangi dimensi data
C. Menilai kinerja model dengan membagi data menjadi subset yang saling tumpang tindih
D. Mencari pola frekuensi itemset dalam dataset
Jawaban:
C. Menilai kinerja model dengan membagi data menjadi subset yang saling tumpang tindih
11. Apa yang dimaksud dengan "data discretization" dalam Data Mining?
A. Menghilangkan data yang tidak relevan dalam dataset
B. Mengubah data kontinu menjadi data diskret
C. Menggabungkan data dari sumber yang berbeda
D. Menemukan pola tersembunyi dalam data
Jawaban:
B. Mengubah data kontinu menjadi data diskret
12. Apa kegunaan metode "Principal Component Analysis" (PCA) dalam Data Mining?
A. Mengelompokkan data ke dalam cluster
B. Mengidentifikasi data yang tidak normal
C. Mengurangi dimensi data dengan memproyeksikan ke dalam ruang yang lebih rendah
D. Memprediksi kelas target berdasarkan atribut yang ada
Jawaban:
C. Mengurangi dimensi data dengan memproyeksikan ke dalam ruang yang lebih rendah
13. Algoritma Naive Bayes digunakan untuk:
A. Mengelompokkan data ke dalam cluster
B. Mencari pola frekuensi itemset dalam dataset
C. Memprediksi kelas target berdasarkan probabilitas kondisional
D. Mengidentifikasi data yang tidak normal
Jawaban:
C. Memprediksi kelas target berdasarkan probabilitas kondisional
14. Apa yang dimaksud dengan "dimensionality reduction" dalam Data Mining?
A. Menghapus atribut yang tidak relevan dalam dataset
B. Mengurangi jumlah sampel dalam dataset
C. Mengurangi dimensi data dengan mengubah ke dalam format yang lebih ringkas
D. Menemukan pola tersembunyi dalam data dengan menggunakan teknik kompresi
Jawaban:
C. Mengurangi dimensi data dengan mengubah ke dalam format yang lebih ringkas
15. Apa yang dimaksud dengan "outlier detection" dalam Data Mining?
A. Mencari pola frekuensi itemset dalam dataset
B. Mengidentifikasi data yang tidak normal
C. Mengelompokkan data ke dalam cluster
D. Mengurangi dimensi data dengan memproyeksikan ke dalam ruang yang lebih rendah
Jawaban:
B. Mengidentifikasi data yang tidak normal
16. Metode "Apriori pruning" digunakan untuk:
A. Mengurangi dimensi data dengan memilih subset atribut yang paling relevan
B. Mengidentifikasi outlier dalam dataset
C. Mencari pola frekuensi itemset dalam dataset secara efisien
D. Menemukan pola tersembunyi dalam data dengan menggunakan teknik kompresi
Jawaban:
C. Mencari pola frekuensi itemset dalam dataset secara efisien
17. Algoritma Random Forest adalah kombinasi dari beberapa:
A. Decision Tree
B. Naive Bayes
C. Support Vector Machine
D. K-means
Jawaban:
A. Decision Tree