Breast-Cancer-Classification-Analysis

End-to-end machine learning project to classify breast cancer tumors as malignant or benign. This project covers data cleaning, EDA, baseline modeling, and optimization with feature scaling.

Analisis Klasifikasi Kanker Payudara: Sebuah Studi Kasus Machine Learning

Proyek ini adalah implementasi end-to-end dari alur kerja data science untuk memprediksi apakah tumor payudara bersifat ganas (Malignant) atau jinak (Benign). Studi kasus ini mencakup pembersihan data, analisis eksplorasi, pembuatan model dasar, hingga optimasi untuk meningkatkan performa.

📜 Latar Belakang

Deteksi dini kanker payudara secara signifikan meningkatkan peluang kesembuhan. Pemanfaatan machine learning dapat membantu radiologis dalam membuat diagnosis yang lebih cepat dan akurat. Proyek ini bertujuan untuk membangun sebuah model klasifikasi yang andal menggunakan dataset karakteristik sel tumor dari Wisconsin Diagnostic Breast Cancer (WDBC).

🎯 Tujuan Proyek

Analisis Eksplorasi Data (EDA): Memahami distribusi dan korelasi antar fitur dalam dataset.
Pembuatan Model Dasar: Melatih model Logistic Regression sebagai baseline untuk mengukur performa awal.
Optimasi Model: Menerapkan teknik Feature Scaling untuk meningkatkan akurasi dan metrik evaluasi lainnya.
Evaluasi Komparatif: Membandingkan performa model sebelum dan sesudah optimasi untuk menunjukkan dampak dari teknik preprocessing yang diterapkan.

📊 Dataset

Dataset yang digunakan adalah Breast Cancer Wisconsin (Diagnostic) Data Set yang bersumber dari Kaggle.

Dataset ini terdiri dari 569 sampel dengan 30 fitur numerik yang décitrasikan dari citra digital aspirasi jarum halus (FNA) dari massa payudara.

🛠️ Alur Kerja Proyek

Proyek ini dibagi menjadi beberapa tahap utama:

Pemuatan & Pembersihan Data: Mengimpor data dan menghapus kolom yang tidak relevan serta menangani data kategorikal.
Analisis Eksplorasi Data (EDA): Melakukan visualisasi untuk memahami distribusi kelas target.
Pembuatan Model Dasar: Melatih model Logistic Regression pada data mentah (tanpa penskalaan).
Evaluasi Model Dasar: Menganalisis performa menggunakan metrik Akurasi, Precision, Recall, dan Confusion Matrix.
Optimasi dengan Feature Scaling: Menerapkan StandardScaler untuk menormalisasi rentang fitur.
Pembuatan Model Optimasi: Melatih ulang model pada data yang telah diskalakan.
Evaluasi Komparatif & Kesimpulan: Membandingkan kedua model dan menarik kesimpulan berdasarkan hasilnya.

📈 Hasil & Analisis

Optimasi menggunakan Feature Scaling menunjukkan peningkatan performa yang signifikan:

Metrik	Model Dasar (Tanpa Scaling)	Model Optimasi (Dengan Scaling)	Peningkatan
Akurasi	93.86%	96.49%	+2.63%
Recall (Ganas)	86%	93%	+7%
False Negative	6 Kasus	3 Kasus	Berkurang 50%

Analisis Kunci:

Akurasi Meningkat: Penskalaan fitur berhasil meningkatkan akurasi keseluruhan, membuat model lebih andal.
Pengurangan Kesalahan Kritis: Yang terpenting, jumlah False Negative (kasus ganas yang salah didiagnosis sebagai jinak) berhasil dikurangi sebesar 50%. Ini adalah peningkatan vital dalam konteks medis.

🚀 Cara Menjalankan Proyek

Clone repository ini:

git clone [https://github.com/inastadata/Breast-Cancer-Classification-Analysis.git](https://github.com/inastadata/Breast-Cancer-Classification-Analysis.git)

Buka file notebook: Buka file analisis-kanker-payudara.ipynb menggunakan Jupyter Notebook atau Google Colab.
Jalankan semua sel: Notebook ini dirancang untuk dijalankan secara berurutan dari atas ke bawah.

🔧 Teknologi yang Digunakan

Python
Pandas (untuk manipulasi data)
Matplotlib & Seaborn (untuk visualisasi)
Scikit-learn (untuk pemodelan dan evaluasi machine learning)

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Breast-Cancer-Classification-Analysis

Analisis Klasifikasi Kanker Payudara: Sebuah Studi Kasus Machine Learning

📜 Latar Belakang

🎯 Tujuan Proyek

📊 Dataset

🛠️ Alur Kerja Proyek

📈 Hasil & Analisis

🚀 Cara Menjalankan Proyek

🔧 Teknologi yang Digunakan

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

Breast-Cancer-Classification-Analysis

Analisis Klasifikasi Kanker Payudara: Sebuah Studi Kasus Machine Learning

📜 Latar Belakang

🎯 Tujuan Proyek

📊 Dataset

🛠️ Alur Kerja Proyek

📈 Hasil & Analisis

🚀 Cara Menjalankan Proyek

🔧 Teknologi yang Digunakan

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages