> case_study = "timeclock_rf"

Random Forest para Clasificación de Marcajes 24/7

Enfoque de machine learning para clasificar marcajes como ENTRADA / SALIDA / ERROR y soportar inferencia de turnos en esquemas rotativos complejos. La versión pública utiliza datos sintéticos para preservar la confidencialidad.

Operaciones 24/7 Random Forest Confidencial por diseño Repo: TODO

Por qué es importante

En entornos con turnos rotativos, los registros de marcaje suelen ser ruidosos: duplicados, datos faltantes, eventos fuera de orden y patrones dependientes del rol. Una mala clasificación genera fricción en nómina y obliga a auditorías manuales.

Definición del Problema

Dada una secuencia de eventos de marcaje por empleado, clasificar cada evento como: ENTRADA (inicio de jornada), SALIDA (fin de jornada) o ERROR.

Objetivo secundario: a partir de secuencias limpias, derivar indicadores interpretables sobre tipo de turno (diurno/nocturno/rotativo) y detección de anomalías.

Restricciones

Confidencialidad: sin exposición de datos reales ni detalles organizacionales.
Alta variabilidad: múltiples roles, operación continua 24/7 y rotación de turnos.
Integridad de evaluación: evitar fuga de información (memorización por empleado).

Diseño de Datos (Versión Pública)

El dataset sintético replica patrones reales:

Turnos diurnos, nocturnos, rotativos y patrones de guardias.
Ruido: duplicados, faltantes, anomalías temporales y secuencias desordenadas.
Variabilidad por empleado para evaluar generalización.

Ingeniería de Características

Variables a nivel de evento con contexto secuencial:

hour_of_day, day_of_week, is_weekend
delta_prev_minutes, delta_next_minutes
punch_index_in_day, punch_count_day
Indicadores: duplicados, intervalos anómalos
Estadísticas móviles: medias/medianas de intervalos recientes

Modelo

Se utiliza Random Forest por su capacidad de capturar relaciones no lineales y ofrecer interpretabilidad mediante importancia de variables.

Prevención de fuga de datos

Se emplea GroupKFold por empleado para asegurar que entrenamiento y prueba no compartan individuos.

Evaluación

F1 Macro

TODO

Balance entre clases

Precisión ERROR

TODO

Evitar falsos positivos

Confusión IN↔OUT

TODO

Fallo típico en turnos nocturnos

Valor Operativo

Reduce auditorías manuales.
Mejora consistencia en nómina.
Estandariza decisiones en casos límite.

Siguientes Iteraciones

Calibración de probabilidades + umbrales de revisión.
Exploración de modelos secuenciales (HMM, LSTM).
Incorporación de variables por rol con diseño de privacidad.

← Volver a Inicio Proyectos