End-to-end machine learning project to classify breast cancer tumors as malignant or benign. This project covers data cleaning, EDA, baseline modeling, and optimization with feature scaling.
Proyek ini adalah implementasi end-to-end dari alur kerja data science untuk memprediksi apakah tumor payudara bersifat ganas (Malignant) atau jinak (Benign). Studi kasus ini mencakup pembersihan data, analisis eksplorasi, pembuatan model dasar, hingga optimasi untuk meningkatkan performa.
Deteksi dini kanker payudara secara signifikan meningkatkan peluang kesembuhan. Pemanfaatan machine learning dapat membantu radiologis dalam membuat diagnosis yang lebih cepat dan akurat. Proyek ini bertujuan untuk membangun sebuah model klasifikasi yang andal menggunakan dataset karakteristik sel tumor dari Wisconsin Diagnostic Breast Cancer (WDBC).
- Analisis Eksplorasi Data (EDA): Memahami distribusi dan korelasi antar fitur dalam dataset.
- Pembuatan Model Dasar: Melatih model Logistic Regression sebagai baseline untuk mengukur performa awal.
- Optimasi Model: Menerapkan teknik Feature Scaling untuk meningkatkan akurasi dan metrik evaluasi lainnya.
- Evaluasi Komparatif: Membandingkan performa model sebelum dan sesudah optimasi untuk menunjukkan dampak dari teknik preprocessing yang diterapkan.
Dataset yang digunakan adalah Breast Cancer Wisconsin (Diagnostic) Data Set yang bersumber dari Kaggle.
Dataset ini terdiri dari 569 sampel dengan 30 fitur numerik yang décitrasikan dari citra digital aspirasi jarum halus (FNA) dari massa payudara.
Proyek ini dibagi menjadi beberapa tahap utama:
- Pemuatan & Pembersihan Data: Mengimpor data dan menghapus kolom yang tidak relevan serta menangani data kategorikal.
- Analisis Eksplorasi Data (EDA): Melakukan visualisasi untuk memahami distribusi kelas target.
- Pembuatan Model Dasar: Melatih model Logistic Regression pada data mentah (tanpa penskalaan).
- Evaluasi Model Dasar: Menganalisis performa menggunakan metrik Akurasi, Precision, Recall, dan Confusion Matrix.
- Optimasi dengan Feature Scaling: Menerapkan
StandardScaleruntuk menormalisasi rentang fitur. - Pembuatan Model Optimasi: Melatih ulang model pada data yang telah diskalakan.
- Evaluasi Komparatif & Kesimpulan: Membandingkan kedua model dan menarik kesimpulan berdasarkan hasilnya.
Optimasi menggunakan Feature Scaling menunjukkan peningkatan performa yang signifikan:
| Metrik | Model Dasar (Tanpa Scaling) | Model Optimasi (Dengan Scaling) | Peningkatan |
|---|---|---|---|
| Akurasi | 93.86% | 96.49% | +2.63% |
| Recall (Ganas) | 86% | 93% | +7% |
| False Negative | 6 Kasus | 3 Kasus | Berkurang 50% |
Analisis Kunci:
- Akurasi Meningkat: Penskalaan fitur berhasil meningkatkan akurasi keseluruhan, membuat model lebih andal.
- Pengurangan Kesalahan Kritis: Yang terpenting, jumlah False Negative (kasus ganas yang salah didiagnosis sebagai jinak) berhasil dikurangi sebesar 50%. Ini adalah peningkatan vital dalam konteks medis.
-
Clone repository ini:
git clone [https://github.com/inastadata/Breast-Cancer-Classification-Analysis.git](https://github.com/inastadata/Breast-Cancer-Classification-Analysis.git)
-
Buka file notebook: Buka file
analisis-kanker-payudara.ipynbmenggunakan Jupyter Notebook atau Google Colab. -
Jalankan semua sel: Notebook ini dirancang untuk dijalankan secara berurutan dari atas ke bawah.
- Python
- Pandas (untuk manipulasi data)
- Matplotlib & Seaborn (untuk visualisasi)
- Scikit-learn (untuk pemodelan dan evaluasi machine learning)