### <h3 style="color: #ADD8E6;">Complementaria 10: SDP en Python</h3>

En este tutorial nos concentramos en la implementaci√≥n del mod√∫lo de SDP de `jmarkov` en Python, a trav√©s de dos ejemplos. Este m√≥dulo de `jmarkov` permite encontrar la pol√≠tica √≥ptima de un proceso de decisi√≥n en el tiempo estoc√°stico (SDP) mediante programaci√≥n din√°mica.

<h3 style="color: #ADD8E6;">Problema 1: M√°quinas</h3>

Se resolver√° el primer problema del archivo `Complementaria 11 (Q).pdf` que se encuentra en Bloque Ne√≥n. 

Vamos a modelar el problema de la m√°quina mediante un modelo de programaci√≥n din√°mica estoc√°stica. El problema est√° definido para un horizonte de tiempo de 3 √©pocas (semanas), as√≠, el conjunto de las √©pocas es:
$
\text{√âpocas} = \{1,2,3\}
$


Para poder determinar las posibles decisiones en una √©poca, se necesita conocer el estado de la m√°quina al inicio de cada semana. Por ende, se define una √∫nica variable:
$
X_{t} = \text{Estado de la m√°quina al inicio de la semana }t
$
Esta variable puede tomar los siguientes estados:
$
S_{X} = \{ \text{Excelente}, \text{Bueno}, \text{Promedio}, \text{Malo}\}
$


Todas las semanas se puede tomar la decisi√≥n de reemplazar o no reemplazar, as√≠ que las decisiones posibles no depender√°n de la √©poca. Sin embargo, no es posible tomar la decisi√≥n de reemplazar si la m√°quina se encuentra en el estado Excelente, por lo que <strong>s√≠ depender√°n del estado</strong>. 
$
A_{t}(i) = \{\text{Reemplazar},\text{No Reemplazar}\} \forall t \in E, i \in S_{X}|i\neq \text{Excelente}
$
$
A_{t}(i) = \{\text{No Reemplazar}\} \forall t \in E, i = \text{Excelente}
$


Los retornos inmediatos dependen del estado que tenga la m√°quina al inicio de la semana y est√°n dados por:
$
r_{t}(i,a) = \text{Ganancia semanal}-\text{Costo asociado a la decisi√≥n}
$
Dado que si se decide reemplazar la m√°quina, √©sta queda en perfectas condiciones, los ingresos que recibir√° esa semana corresponden a una m√°quina en excelente estado (\$100). Los retornos se pueden entender como:

$
r_{t}(i,a)= 
\begin{array}{|c|c|c|}
    \hline
    & \text{Reemplazar}& \text{No Reemplazar}  \\
    \hline
    \text{Excelente} & -1000 & 100 \\
    \text{Bueno} & -100 & 80 \\
    \text{Promedio} & -100 & 50 \\
    \text{Malo} & -100 & 10 \\
    \hline
    \end{array}
$ 

El costo de reemplazar cuando la m√°quina est√° en excelentes condiciones toma un valor negativo de penalizaci√≥n, ya que √©sta es una decisi√≥n infactible. De este modo, nos aseguramos que esta decisi√≥n nunca sea tomada. 


Las probabilidades de transici√≥n est√°n dadas por el enunciado, como se ve a continuaci√≥n:

$
P_{i \to j}^{(a = No Reemplazar)}= 
\begin{array}{|c|cccc|}
    \hline
   & \text{E}& \text{B} & \text{P} & \text{M} \\
    \hline
    \text{E} & 0.7 & 0.3 &  0 & 0 \\
    \text{B} & 0 & 0.7 &  0.3 & 0 \\
    \text{P} & 0 & 0 &  0.7 & 0.3 \\
    \text{M} & 0 & 0 &  0 & 1 \\
    \hline
    \end{array}
$

$
P_{i \to j}^{(a = Reemplazar)}= 
\begin{array}{|c|cccc|}
    \hline
   & \text{E}& \text{B} & \text{P} & \text{M} \\
    \hline
    \text{E} & 0 & 0 &  0 & 0 \\
    \text{B} & 0.7 & 0.3 &  0. & 0 \\
    \text{P} & 0.7 & 0.3 &  0 & 0 \\
    \text{M} & 0.7 & 0.3 &  0 & 0 \\
    \hline
    \end{array}
$

Notemos que la matriz de Reemplazar cuenta con una condici√≥n particular: las entradas de primera fila son todas iguales a 0, en vez de sumar a 1; esto se debe a que la decisi√≥n de reemplazar no es f√°ctible para el estado excelente. 

Para empezar con la implementaci√≥n, llamamos las librer√≠as necesarias.

In [1]:
import numpy as np
from jmarkov.sdp.dtsdp import dtsdp

Crearemos el espacio de las √©pocas en Python como un arreglo de numpy, de la siguiente manera:

In [2]:
E = np.array([i for i in range(1,4)])

Creamos el espacio de estados. 

In [3]:
S = np.array(['Excelente','Bueno','Promedio','Malo']) # Estado de la m√°quina al inicio de la semana t

Creamos el espacio de acciones. 

In [4]:
A = np.array(['Reemplazar','No Reemplazar'])

Creamos los retornos inmediatos.

In [5]:
R = np.zeros((len(E),len(S),len(A)))

# Recorremos sobre las √©pocas
for t in range(len(E)):
    # Recorremos sobre los estados:
    for s_index, i in enumerate(S):
        # Recorremos sobre las decisiones:
        for a_index, a in enumerate(A):
            if i=='Excelente' and a=='Reemplazar':
                R[t,s_index,a_index] = -1000
            elif i=='Excelente' and a=='No Reemplazar':
                R[t,s_index,a_index] = 100
            elif(i=="Bueno" and a=="Reemplazar"):
                R[t,s_index,a_index]=-100
            elif(i=="Bueno" and a=="No Reemplazar"):
                R[t,s_index,a_index]=80
            elif(i=="Promedio" and a=="Reemplazar"):
                R[t,s_index,a_index]=-100
            elif(i=="Promedio" and a=="No Reemplazar"):
                R[t,s_index,a_index]=50
            elif(i=="Malo" and a=="Reemplazar"):
                R[t,s_index,a_index]=-100
            elif(i=="Malo" and a=="No Reemplazar"):
                R[t,s_index,a_index]=10
            

Creamos las matrices de transici√≥n.
Tendremos una matriz para cada √©poca y para cada decisi√≥n. 

In [6]:
matNoReemplazar = np.array([[0.7,0.3,0,0],
                          [0,0.7,0.3,0],
                          [0,0,0.7,0.3],
                          [0,0,0,1]])

matReemplazar = np.array([[1,0,0,0],
                          [0.7,0.3,0,0],
                          [0.7,0.3,0,0],
                          [0.7,0.3,0,0]])

probs = {}
for t in E:  # Iterar sobre cada √©poca
    decisiones_dict = {}
    for posA, a in enumerate(A):
        if a == "Reemplazar":
            decisiones_dict[a] = matReemplazar
        elif a == "No Reemplazar":
            decisiones_dict[a] = matNoReemplazar
    probs[t] = decisiones_dict

probs

{1: {'Reemplazar': array([[1. , 0. , 0. , 0. ],
         [0.7, 0.3, 0. , 0. ],
         [0.7, 0.3, 0. , 0. ],
         [0.7, 0.3, 0. , 0. ]]),
  'No Reemplazar': array([[0.7, 0.3, 0. , 0. ],
         [0. , 0.7, 0.3, 0. ],
         [0. , 0. , 0.7, 0.3],
         [0. , 0. , 0. , 1. ]])},
 2: {'Reemplazar': array([[1. , 0. , 0. , 0. ],
         [0.7, 0.3, 0. , 0. ],
         [0.7, 0.3, 0. , 0. ],
         [0.7, 0.3, 0. , 0. ]]),
  'No Reemplazar': array([[0.7, 0.3, 0. , 0. ],
         [0. , 0.7, 0.3, 0. ],
         [0. , 0. , 0.7, 0.3],
         [0. , 0. , 0. , 1. ]])},
 3: {'Reemplazar': array([[1. , 0. , 0. , 0. ],
         [0.7, 0.3, 0. , 0. ],
         [0.7, 0.3, 0. , 0. ],
         [0.7, 0.3, 0. , 0. ]]),
  'No Reemplazar': array([[0.7, 0.3, 0. , 0. ],
         [0. , 0.7, 0.3, 0. ],
         [0. , 0. , 0.7, 0.3],
         [0. , 0. , 0. , 1. ]])}}

Finalmente, creamos el problema como un SDP. 

In [7]:
sdpMaquinas = dtsdp(E,S, A, probs, R, 0.9)

Ahora, solucionamos el SDP. El m√©todo `solve` de la librer√≠a recibe el sentido del problema, es decir, si estamos minimizando o maximizando.

In [8]:
sdpMaquinas.solve(minimize=False)

(array([[255.151, 184.6  , 100.   ],
        [193.391, 143.9  ,  80.   ],
        [108.176,  84.2  ,  50.   ],
        [ 55.151,  19.   ,  10.   ]]),
 array([['N', 'N', 'N'],
        ['N', 'N', 'N'],
        ['N', 'N', 'N'],
        ['R', 'N', 'N']], dtype='<U1'))

Notamos que nos devuelve dos resultados. El primero se refiere al valor que toma cada una de las funciones de valor, para cada √©poca y estado. Y el segundo, corresponde a la pol√≠tica √≥ptima. En este caso, √∫nicamente se debe reemplazar cuando se est√° en la primera √©poca y la m√°quina se encuentra en un mal estado.

<div style="border: 2px solid #4CAF50; background-color: #f9f9f9; padding: 10px; border-radius: 5px; font-size: 16px;">
üí° <strong>Reto:</strong> Animate a implementar el segundo ejercicio propuesto!
</div>


Universidad de los Andes | Vigilada Mineducaci√≥n. Reconocimiento como Universidad: Decreto 1297 del 30 de mayo de 1964. Reconocimiento personer√≠a jur√≠dica: Resoluci√≥n 28 del 23 de febrero de 1949 Minjusticia. Departamento de Ingenier√≠a Industrial Carrera 1 Este No. 19 A 40 Bogot√°, Colombia Tel. (57.1) 3324320 | (57.1) 3394949 Ext. 2880 /2881 http://industrial.uniandes.edu.co