Skip to content Skip to sidebar Skip to footer

49 Soal Data Mining Beserta Jawaban

Kumpulan Soal Pilihan Ganda Materi Data Mining

1. Data Mining adalah proses untuk:
a. Mengatur data dalam basis data
b. Menemukan pola tersembunyi dalam data
c. Mengimplementasikan algoritma Machine Learning
d. Mengubah data mentah menjadi informasi yang berguna

Jawaban: b

2. Apa yang dimaksud dengan "data preprocessing" dalam Data Mining?
a. Mengumpulkan data dari berbagai sumber
b. Mengubah data mentah menjadi format yang lebih mudah dipahami
c. Menghapus data yang tidak relevan atau terduplikasi
d. Menemukan pola tersembunyi dalam data

Jawaban: b

3. Algoritma Apriori digunakan untuk:
a. Klasifikasi data
b. Mengelompokkan data ke dalam cluster
c. Menemukan asosiasi antara item dalam dataset
d. Mengidentifikasi data yang tidak normal

Jawaban: c

4. Algoritma Decision Tree adalah metode yang digunakan untuk:
a. Mengurangi dimensi data
b. Memprediksi kelas target berdasarkan aturan keputusan
c. Menganalisis sebaran data dalam ruang fitur
d. Menemukan aturan asosiasi dalam dataset

Jawaban: b

5. Apa kegunaan algoritma K-means dalam Data Mining?
a. Klasifikasi data
b. Regresi data
c. Mengelompokkan data ke dalam cluster
d. Mengidentifikasi outlier dalam dataset

Jawaban: c

6. Apa yang dimaksud dengan "overfitting" dalam konteks Data Mining?
a. Model yang terlalu sederhana untuk mempelajari pola data yang kompleks
b. Model yang terlalu rumit sehingga tidak bisa digeneralisasi ke data baru
c. Kehilangan sebagian besar informasi dalam proses pengolahan data
d. Penambahan fitur yang tidak relevan dalam dataset

Jawaban: b

7. Apa yang dimaksud dengan "supervised learning" dalam Machine Learning?
a. Model belajar dari data tanpa label
b. Model belajar dari data dengan label yang diketahui
c. Model belajar dengan melakukan eksplorasi interaktif pada data
d. Model belajar dengan memperhatikan feedback pengguna

Jawaban: b

8. Apa perbedaan antara "clustering" dan "classification" dalam Data Mining?
a. Clustering mengelompokkan data berdasarkan kesamaan, sedangkan classification memprediksi label kelas
b. Clustering hanya digunakan pada data numerik, sedangkan classification pada data kategorikal
c. Clustering memerlukan data berlabel, sedangkan classification tidak
d. Clustering hanya menghasilkan hasil visual, sedangkan classification menghasilkan model prediktif

Jawaban: a

9. Apa yang dimaksud dengan "association rule" dalam Data Mining?
a. Aturan yang menghubungkan atribut dengan tingkat kepercayaan tertentu
b. Aturan yang menentukan urutan langkah-langkah dalam proses Data Mining
c. Aturan yang menentukan penggunaan algoritma tertentu untuk jenis data tertentu
d. Aturan yang mengidentifikasi outlier dalam dataset

Jawaban: a

10. Metode "k-fold cross-validation" digunakan untuk:
a. Menggabungkan dua dataset yang berbeda
b. Mengurangi dimensi data
c. Menilai kinerja model dengan membagi data menjadi subset yang saling tumpang tindih
d. Mencari pola frekuensi itemset dalam dataset

Jawaban: c

11. Apa yang dimaksud dengan "data discretization" dalam Data Mining?
a. Menghilangkan data yang tidak relevan dalam dataset
b. Mengubah data kontinu menjadi data diskret
c. Menggabungkan data dari sumber yang berbeda
d. Menemukan pola tersembunyi dalam data

Jawaban: b

12. Apa kegunaan metode "Principal Component Analysis" (PCA) dalam Data Mining?
a. Mengelompokkan data ke dalam cluster
b. Mengidentifikasi data yang tidak normal
c. Mengurangi dimensi data dengan memproyeksikan ke dalam ruang yang lebih rendah
d. Memprediksi kelas target berdasarkan atribut yang ada

Jawaban: c

13. Algoritma Naive Bayes digunakan untuk:
a. Mengelompokkan data ke dalam cluster
b. Mencari pola frekuensi itemset dalam dataset
c. Memprediksi kelas target berdasarkan probabilitas kondisional
d. Mengidentifikasi data yang tidak normal

Jawaban: c

14. Apa yang dimaksud dengan "dimensionality reduction" dalam Data Mining?
a. Menghapus atribut yang tidak relevan dalam dataset
b. Mengurangi jumlah sampel dalam dataset
c. Mengurangi dimensi data dengan mengubah ke dalam format yang lebih ringkas
d. Menemukan pola tersembunyi dalam data dengan menggunakan teknik kompresi

Jawaban: c

15. Apa yang dimaksud dengan "outlier detection" dalam Data Mining?
a. Mencari pola frekuensi itemset dalam dataset
b. Mengidentifikasi data yang tidak normal
c. Mengelompokkan data ke dalam cluster
d. Mengurangi dimensi data dengan memproyeksikan ke dalam ruang yang lebih rendah

Jawaban: b

16. Metode "Apriori pruning" digunakan untuk:
a. Mengurangi dimensi data dengan memilih subset atribut yang paling relevan
b. Mengidentifikasi outlier dalam dataset
c. Mencari pola frekuensi itemset dalam dataset secara efisien
d. Menemukan pola tersembunyi dalam data dengan menggunakan teknik kompresi

Jawaban: c

17. Algoritma Random Forest adalah kombinasi dari beberapa:
a. Decision Tree
b. Naive Bayes
c. Support Vector Machine
d. K-means

Jawaban: a

18. Apa yang dimaksud dengan "time series analysis" dalam Data Mining?
a. Menganalisis data spasial dalam ruang tiga dimensi
b. Menganalisis data yang berkaitan dengan waktu secara berurutan
c. Mengelompokkan data ke dalam cluster berdasarkan waktu
d. Mengidentifikasi outlier dalam dataset berdasarkan waktu

Jawaban: b

19. Apa kegunaan metode "apriori" dalam Data Mining?
a. Mencari pola frekuensi itemset dalam dataset
b. Mengurangi dimensi data dengan memilih subset atribut yang paling relevan
c. Mengidentifikasi data yang tidak normal
d. Menemukan pola tersembunyi dalam data dengan menggunakan teknik kompresi

Jawaban: a

20. Apa yang dimaksud dengan "ensemble learning" dalam Machine Learning?
a. Menggabungkan beberapa model prediktif untuk meningkatkan kinerja
b. Menggabungkan atribut dari beberapa dataset yang berbeda
c. Menggabungkan teknik klasifikasi dan clustering
d. Menggabungkan data numerik dan data kategorikal dalam satu dataset

Jawaban: a

21. Algoritma Support Vector Machine (SVM) digunakan untuk:
a. Mengelompokkan data ke dalam cluster
b. Mencari pola frekuensi itemset dalam dataset
c. Memprediksi kelas target dengan mencari batas pemisah optimal
d. Mengidentifikasi data yang tidak normal

Jawaban: c

22. Apa yang dimaksud dengan "data imputation" dalam Data Mining?
a. Menggabungkan data dari sumber yang berbeda
b. Mengganti data yang hilang dengan nilai yang diestimasi
c. Menghapus data yang tidak relevan dalam dataset
d. Menemukan pola tersembunyi dalam data dengan menggunakan teknik kompresi

Jawaban: b

23. Apa yang dimaksud dengan "web mining" dalam Data Mining?
a. Menganalisis pola dan struktur hyperlink di web
b. Menganalisis data yang dihasilkan oleh pengguna web
c. Mencari pola frekuensi itemset dalam dataset
d. Mengurangi dimensi data dengan mengubah ke dalam format yang lebih ringkas

Jawaban: a

24. Apa yang dimaksud dengan "neural networks" dalam Machine Learning?
a. Model yang terdiri dari beberapa input dan output
b. Model yang belajar dengan menerapkan aturan logika
c. Model yang menggunakan fungsi matematis untuk memodelkan hubungan antara input dan output
d. Model yang belajar dengan menyesuaikan bobot yang menghubungkan input dan output

Jawaban: d

25. Apa kegunaan metode "k-nearest neighbors" (k-NN) dalam Data Mining?
a. Mengelompokkan data ke dalam cluster
b. Menggabungkan data dari sumber yang berbeda
c. Mencari pola frekuensi itemset dalam dataset
d. Memprediksi kelas target berdasarkan atribut yang mirip dengan tetangga terdekat

Jawaban: d

26. Apa yang dimaksud dengan "text mining" dalam Data Mining?
a. Menganalisis pola dalam data teks
b. Menganalisis pola dan struktur hyperlink di web
c. Mengelompokkan data ke dalam cluster berdasarkan teks yang terkandung
d. Mencari pola frekuensi itemset dalam dataset teks

Jawaban: a

27. Metode "hierarchical clustering" digunakan untuk:
a. Mengelompokkan data ke dalam cluster berdasarkan kemiripan hierarkis
b. Menggabungkan data dari sumber yang berbeda
c. Mencari pola frekuensi itemset dalam dataset
d. Memprediksi kelas target berdasarkan atribut yang mirip dengan tetangga terdekat

Jawaban: a

28. Apa yang dimaksud dengan "big data" dalam konteks Data Mining?
a. Data yang memiliki ukuran yang sangat besar dan kompleks
b. Data yang berasal dari berbagai sumber yang berbeda
c. Data yang memiliki banyak atribut dan variabel
d. Data yang tidak memerlukan proses preprocessing

Jawaban: a

29. Apa yang dimaksud dengan "data visualization" dalam Data Mining?
a. Representasi grafis dari data untuk memahami pola dan tren
b. Menggabungkan data dari sumber yang berbeda
c. Mencari pola frekuensi itemset dalam dataset
d. Mengurangi dimensi data dengan mengubah ke dalam format yang lebih ringkas

Jawaban: a

30. Algoritma Genetic Algorithm digunakan untuk:
a. Mengelompokkan data ke dalam cluster
b. Mencari pola frekuensi itemset dalam dataset
c. Memprediksi kelas target dengan menggunakan aturan genetika
d. Mengidentifikasi data yang tidak normal

Jawaban: c

31. Apa yang dimaksud dengan "unsupervised learning" dalam Machine Learning?
a. Model belajar dari data tanpa label
b. Model belajar dari data dengan label yang diketahui
c. Model belajar dengan melakukan eksplorasi interaktif pada data
d. Model belajar dengan memperhatikan feedback pengguna

Jawaban: a

32. Apa yang dimaksud dengan "ensemble methods" dalam Machine Learning?
a. Menggabungkan beberapa model prediktif untuk meningkatkan kinerja
b. Menggabungkan atribut dari beberapa dataset yang berbeda
c. Menggabungkan teknik klasifikasi dan clustering
d. Menggabungkan data numerik dan data kategorikal dalam satu dataset

Jawaban: a

33. Metode "association rule pruning" digunakan untuk:
a. Mengurangi dimensi data dengan memilih subset atribut yang paling relevan
b. Mengidentifikasi outlier dalam dataset
c. Mencari pola frekuensi itemset dalam dataset secara efisien
d. Menemukan pola tersembunyi dalam data dengan menggunakan teknik kompresi

Jawaban: c

34. Algoritma K-nearest neighbors (K-NN) merupakan contoh dari:
a. Supervised learning
b. Unsupervised learning
c. Reinforcement learning
d. Semi-supervised learning

Jawaban: a

35. Apa yang dimaksud dengan "bias-variance trade-off" dalam Machine Learning?
a. Kompromi antara kinerja model dan kompleksitas model
b. Kompromi antara jumlah sampel dan jumlah atribut dalam dataset
c. Kompromi antara kecepatan pembelajaran dan akurasi prediksi
d. Kompromi antara presisi dan recall dalam evaluasi model

Jawaban: a

36. Algoritma DBSCAN digunakan untuk:
a. Mengelompokkan data ke dalam cluster berdasarkan kepadatan
b. Menggabungkan data dari sumber yang berbeda
c. Mencari pola frekuensi itemset dalam dataset
d. Memprediksi kelas target berdasarkan atribut yang mirip dengan tetangga terdekat

Jawaban: a

37. Apa yang dimaksud dengan "out-of-bag error" dalam Random Forest?
a. Error yang dihasilkan dari penggunaan model pada data yang tidak digunakan dalam pembuatan model
b. Error yang dihasilkan saat melakukan proses imputasi data
c. Error yang terjadi karena overfitting pada model
d. Error yang dihasilkan saat melakukan proses discretization pada data

Jawaban: a

38. Apa kegunaan metode "feature selection" dalam Data Mining?
a. Menggabungkan atribut dari beberapa dataset yang berbeda
b. Mengurangi dimensi data dengan memilih subset atribut yang paling relevan
c. Mencari pola frekuensi itemset dalam dataset
d. Menemukan pola tersembunyi dalam data dengan menggunakan teknik kompresi

Jawaban: b

39. Algoritma C4.5 digunakan untuk:
a. Mengelompokkan data ke dalam cluster
b. Mencari pola frekuensi itemset dalam dataset
c. Memprediksi kelas target dengan membangun decision tree
d. Mengidentifikasi data yang tidak normal

Jawaban: c

40. Apa yang dimaksud dengan "bag of words" dalam text mining?
a. Representasi vektor yang menghitung frekuensi kemunculan kata-kata dalam dokumen
b. Representasi grafis yang menggambarkan keterkaitan kata-kata dalam dokumen
c. Representasi hierarkis yang mengorganisir kata-kata dalam dokumen
d. Representasi semantik yang menggambarkan makna kata-kata dalam dokumen

Jawaban: a

41. Metode "link analysis" digunakan untuk:
a. Menganalisis pola dan struktur hyperlink di web
b. Menganalisis pola dalam data teks
c. Mengelompokkan data ke dalam cluster
d. Menggabungkan data dari sumber yang berbeda

Jawaban: a

42. Algoritma k-means++ digunakan untuk:
a. Mengelompokkan data ke dalam cluster
b. Mencari pola frekuensi itemset dalam dataset
c. Memprediksi kelas target dengan membangun decision tree
d. Mengidentifikasi data yang tidak normal

Jawaban: a

43. Apa yang dimaksud dengan "overfitting" dalam Machine Learning?
a. Model yang terlalu sederhana dan tidak dapat menggeneralisasi dengan baik
b. Model yang terlalu kompleks dan cenderung menghafal data latih
c. Model yang tidak dapat memprediksi kelas target dengan akurat
d. Model yang tidak mampu menangani data yang memiliki noise

Jawaban: b

44. Apa yang dimaksud dengan "precision" dalam evaluasi model?
a. Proporsi positif yang benar terhadap total prediksi positif
b. Proporsi negatif yang benar terhadap total prediksi negatif
c. Proporsi positif yang benar terhadap total data positif
d. Proporsi negatif yang benar terhadap total data negatif

Jawaban: a

45. Apa yang dimaksud dengan "recall" dalam evaluasi model?
a. Proporsi positif yang benar terhadap total prediksi positif
b. Proporsi negatif yang benar terhadap total prediksi negatif
c. Proporsi positif yang benar terhadap total data positif
d. Proporsi negatif yang benar terhadap total data negatif

Jawaban: c

46. Algoritma decision tree digunakan untuk:
a. Mengelompokkan data ke dalam cluster
b. Mencari pola frekuensi itemset dalam dataset
c. Memprediksi kelas target dengan membangun pohon keputusan
d. Mengidentifikasi data yang tidak normal

Jawaban: c

47. Apa yang dimaksud dengan "bagging" dalam ensemble learning?
a. Menggabungkan model prediktif dengan melakukan voting
b. Menggabungkan atribut dari beberapa dataset yang berbeda
c. Menggabungkan teknik klasifikasi dan clustering
d. Menggabungkan data numerik dan data kategorikal dalam satu dataset

Jawaban: a

48. Apa kegunaan metode "logistic regression" dalam Data Mining?
a. Menggabungkan atribut dari beberapa dataset yang berbeda
b. Mengurangi dimensi data dengan memilih subset atribut yang paling relevan
c. Memprediksi kelas target dengan menggunakan fungsi logistik
d. Menemukan pola tersembunyi dalam data dengan menggunakan teknik kompresi

Jawaban: c

49. Apa yang dimaksud dengan "clustering" dalam Data Mining?
a. Menggabungkan atribut dari beberapa dataset yang berbeda
b. Mengelompokkan data ke dalam cluster berdasarkan kemiripan
c. Mencari pola frekuensi itemset dalam dataset
d. Memprediksi kelas target dengan membangun pohon keputusan

Jawaban: b