Programación (secuenciación) pseudo-óptima de multiples productos en una estación flexible usando aprendizaje reforzado

Carlos Paternina Arboleda

Autores/as

Carlos Paternina Arboleda Universidad del Norte

Resumen

Este artículo considera una estación flexible de manufactura que atiende múltiples productos y con «buffers» (sistemas de almacenamiento) de salida para cada uno de los tipos de productos disponibles. Se asume suministro infinito de materia prima y que los tiempos de producción de la estación, asociados a los diferentes productos, son variables aleatorias. Además, el proceso estocástico de demanda, independiente para cada producto, se considera de tipo Poisson. El objetivo del problema es determinar una secuencia óptima (pseudo-óptima) de producción que maximice la ganancia neta. El problema puede ser expresado como un problema de decisión semi-markoviano (SMDP[9]) y puede ser resuelto por técnicas convencionales de programación dinámica. Sin embargo, la magnitud del espacio de estados posibles para este problema hace que la solución por medios convencionales de programación dinámica sea prohibitiva, debido a que la obtención de la matriz de probabilidades de transición entre estados es difícil de obtener. La secuencia pseudo-óptima de producción es encontrada por medio de una técnica de optimización con simulación basada en inteligencia computacional llamada «aprendizaje reforzado» (reinforcement learning [3, 4, 6]).