Scraping SIPED - Intranet PJ Santa Cruz

Herramienta automatizada para la extracción y gestión de expedientes del sistema SIPED (Intranet del Poder Judicial de la Provincia de Santa Cruz).

1. Arquitectura y Visión General

El sistema está diseñado para operar de manera asíncrona, separando la interfaz de usuario de las tareas de extracción intensivas.

Aplicación Web (Flask): Expone la interfaz gráfica y la API para iniciar las búsquedas y descargas.
Gestor de Colas (Celery): Procesa los trabajos de scraping en segundo plano para no bloquear la ejecución de la aplicación principal.
Broker de Mensajes (Redis): Actúa como intermediario para la gestión de tareas entre Flask y Celery.
Almacenamiento: Los datos extraídos se persisten en archivos locales estructurados y en disco.

2. Estructura de Datos (Namespaces)

El sistema organiza los archivos descargados por usuario de SIPED para evitar conflictos de concurrencia y sobreescritura. La carpeta raíz para persistencia es datos_usuarios/.

datos_usuarios/<CUIL_USUARIO>/expedientes_completos.csv: Índice principal de expedientes.
datos_usuarios/<CUIL_USUARIO>/movimientos_expedientes/: Archivos CSV con los movimientos de cada causa procesada.
datos_usuarios/<CUIL_USUARIO>/documentos_expedientes/: Archivos PDF de las actuaciones, descargados y consolidados.

3. Despliegue con Docker (Recomendado)

La forma estandarizada de levantar el sistema en cualquier plataforma es mediante Docker, garantizando el correcto aislamiento de los servicios web, worker y redis.

Requisitos Previos

Docker y Docker Compose instalados en el sistema operativo.

Ejecución (Linux, macOS y Windows)

Clonar el repositorio.
Crear y configurar el archivo .env en la raíz del proyecto.
Construir e iniciar los servicios en segundo plano:

docker compose up -d --build

La aplicación web estará operativa en http://localhost:5000.
Para visualizar y auditar los registros del sistema:

docker compose logs -f

4. Entorno de Desarrollo Local

Para tareas de desarrollo o ejecución sin Docker, el proyecto estandariza el uso de uv para la creación del entorno virtual y la sincronización de paquetes.

Requisitos Previos Generales

Python 3.10 o superior.
uv instalado en el sistema.
Servidor Redis en ejecución (puerto 6379).

Instrucciones para Linux y macOS

Crear el entorno virtual e instalar dependencias:

uv sync
(Nota: Si el proyecto temporalmente carece de pyproject.toml, utilice uv venv, active el entorno y ejecute uv pip install -r requirements.txt)
Activar el entorno virtual:

source .venv/bin/activate
Iniciar los servicios (requiere terminales independientes):
- Servidor Redis: redis-server
- Trabajador Celery: celery -A tasks.celery_app worker --loglevel=info
- Aplicación Flask: python app.py

Instrucciones para Windows

Crear el entorno virtual e instalar dependencias:

uv sync
Activar el entorno virtual:

.venv\Scripts\activate
Iniciar los servicios (requiere terminales independientes):
- Servidor Redis: Se requiere ejecutar Redis mediante WSL2 (Windows Subsystem for Linux) o mediante contenedor Docker, dado que Redis carece de soporte nativo oficial para Windows.
- Trabajador Celery: Por limitaciones del sistema de procesos en Windows, se debe ejecutar Celery utilizando el pool solo:
  
  celery -A tasks.celery_app worker --loglevel=info --pool=solo
- Aplicación Flask: python app.py

5. Ejecución Manual (CLI)

El sistema provee interfaces de línea de comandos para aislar la ejecución de fases específicas de extracción. Estos módulos interactivos requerirán las credenciales de acceso (Cuil/DNI) para inicializar el contenedor de datos correspondiente.
Requieren el entorno virtual activo previamente:

python -m script.cli_lista_expedientes
python -m script.cli_movimientos
python -m script.cli_movimientos_pdf
python -m script.cli_un_expediente

Name		Name	Last commit message	Last commit date
Latest commit History 77 Commits
catalogos		catalogos
docs		docs
fases		fases
logs		logs
script		script
static		static
templates		templates
tests		tests
.dockerignore		.dockerignore
.gitignore		.gitignore
.python-version		.python-version
Dockerfile		Dockerfile
README.md		README.md
app.py		app.py
config.py		config.py
db_manager.py		db_manager.py
diagnostico.py		diagnostico.py
diagnostico.txt		diagnostico.txt
docker-compose.yml		docker-compose.yml
dump.rdb		dump.rdb
dump_publicos.json		dump_publicos.json
env		env
env(1)		env(1)
extensions.py		extensions.py
gestor_almacenamiento.py		gestor_almacenamiento.py
gestor_tareas.py		gestor_tareas.py
git		git
gitignore		gitignore
log.txt		log.txt
logger.py		logger.py
main.py		main.py
mkdocs.yml		mkdocs.yml
models.py		models.py
parsers.py		parsers.py
pyproject.toml		pyproject.toml
requirements-prod.txt		requirements-prod.txt
requirements.txt		requirements.txt
scraper_tasks.py		scraper_tasks.py
session_manager.py		session_manager.py
tasks.py		tasks.py
utils.py		utils.py
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Scraping SIPED - Intranet PJ Santa Cruz

1. Arquitectura y Visión General

2. Estructura de Datos (Namespaces)

3. Despliegue con Docker (Recomendado)

Requisitos Previos

Ejecución (Linux, macOS y Windows)

4. Entorno de Desarrollo Local

Requisitos Previos Generales

Instrucciones para Linux y macOS

Instrucciones para Windows

5. Ejecución Manual (CLI)

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Scraping SIPED - Intranet PJ Santa Cruz

1. Arquitectura y Visión General

2. Estructura de Datos (Namespaces)

3. Despliegue con Docker (Recomendado)

Requisitos Previos

Ejecución (Linux, macOS y Windows)

4. Entorno de Desarrollo Local

Requisitos Previos Generales

Instrucciones para Linux y macOS

Instrucciones para Windows

5. Ejecución Manual (CLI)

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages