A lo largo de este repositorio se encontraran distintos proyectos enfocados en la programación con python y el analisis de datos. Cada proyecto esta ubicado en carpetas diferentes y son de indole individual, es decir, no estan relacionados entre si.
Las librerias usadas son: pyspark, matplotlib, seaborn y scikit-learn
Ademas los datos son tomados de kaggle: US Accidents. Debido a su tamaño, el dataset no puede ser subido a github.
Se muestra que la toma de datos (por categoria) para entrenar un modelo de clasificacion, afecta su rendimiento y añade sesgo.
Las librerias usadas son: nltk, gensim, matplotlib, wordcloud, itertools, beautifulsoup4, requests
Los datos del modelado de temas son tomados de: BBC, CNN.
Las librerias usadas son: pandas, scikit-learn, matplotlib, joblib
Los datos usados para entrenar el modelo fueron tomados de: Ecommerce Order & Supply Chain Dataset
Las librerias usadas son: pandas, numpy, scikit-learn, matplotlib, seaborn
El dataset para entrenar el modelo y definir el modelado hacen parte de: Binary Prediction of Poisonous Mushrooms
Estos son proyectos de estilo freelance. Juan Fernando Quintero Perez, estudiante de Ingenieria en sistemas de la Universidad Nacional de Colombia.
Contacto :