Este proyecto desarrolla un modelo de Machine Learning para predecir la recuperación de oro a partir del mineral bruto. El objetivo es optimizar el proceso de purificación multietapa (flotación y limpieza) para la empresa Zyfra, permitiendo identificar parámetros de operación no rentables en tiempo real.
El mineral pasa por tres etapas críticas:
- Flotación (Rougher): Concentrado inicial.
- Limpieza Primaria: Incremento de pureza.
- Limpieza Final: Obtención del producto terminado.
Predecir la eficiencia de recuperación en dos etapas clave:
- Rougher (Flotación): Concentrado inicial.
- Final: Producto terminado tras dos etapas de limpieza.
La métrica principal de evaluación es el sMAPE final (Symmetric Mean Absolute Percentage Error).
-
Consistencia de Datos: Se validó la fórmula de recuperación manual frente a los datos del dataset (
$MAE \approx 0$ ). - Tratamiento de Series Temporales: Se manejaron valores ausentes mediante el método de Forward Fill, considerando que los parámetros industriales cercanos en el tiempo suelen ser similares.
- Evolución de Metales: El análisis visual confirmó el aumento de la concentración de oro del ~8% al ~45%.
- Eliminación de Anomalías: Se identificaron y eliminaron valores atípicos (sumas de concentraciones iguales a cero) que representaban fallos en la instrumentación de la planta.
- Distribución de Partículas: Se verificó la similitud entre los sets de entrenamiento y prueba para garantizar la generalización del modelo.
Se evaluaron modelos de Regresión Lineal y Random Forest Regressor mediante validación cruzada (
- Modelo Seleccionado: Random Forest Regressor.
- Resultado Final: sMAPE en el conjunto de prueba de 12.56%.
- Python (Pandas, NumPy, Scikit-learn)
- Visualización: Matplotlib y Seaborn
- Matemáticas: Cálculo de métricas personalizadas (sMAPE)
El modelo permite a los ingenieros de planta anticipar caídas en la eficiencia y ajustar parámetros de control antes de que ocurran pérdidas económicas. La limpieza de datos orientada al negocio (remoción de ceros por fallos de sensores) fue el factor determinante para la estabilidad de las predicciones.
Autor: José | Ingeniero Industrial & Data Scientist
