> case_study = "timeclock_rf"

Random Forest para Clasificación de Marcajes 24/7

Enfoque de machine learning para clasificar marcajes como ENTRADA / SALIDA / ERROR y soportar inferencia de turnos en esquemas rotativos complejos. La versión pública utiliza datos sintéticos para preservar la confidencialidad.

Por qué es importante

En entornos con turnos rotativos, los registros de marcaje suelen ser ruidosos: duplicados, datos faltantes, eventos fuera de orden y patrones dependientes del rol. Una mala clasificación genera fricción en nómina y obliga a auditorías manuales.

Definición del Problema

Dada una secuencia de eventos de marcaje por empleado, clasificar cada evento como: ENTRADA (inicio de jornada), SALIDA (fin de jornada) o ERROR.

Objetivo secundario: a partir de secuencias limpias, derivar indicadores interpretables sobre tipo de turno (diurno/nocturno/rotativo) y detección de anomalías.

Restricciones

Diseño de Datos (Versión Pública)

El dataset sintético replica patrones reales:

Ingeniería de Características

Variables a nivel de evento con contexto secuencial:

Modelo

Se utiliza Random Forest por su capacidad de capturar relaciones no lineales y ofrecer interpretabilidad mediante importancia de variables.

Prevención de fuga de datos

Se emplea GroupKFold por empleado para asegurar que entrenamiento y prueba no compartan individuos.

Evaluación

F1 Macro
TODO
Balance entre clases
Precisión ERROR
TODO
Evitar falsos positivos
Confusión IN↔OUT
TODO
Fallo típico en turnos nocturnos

Valor Operativo

Siguientes Iteraciones

  • Calibración de probabilidades + umbrales de revisión.
  • Exploración de modelos secuenciales (HMM, LSTM).
  • Incorporación de variables por rol con diseño de privacidad.