3  Del Cálculo Variacional a la Teoría del Control Óptimo

3.1 Trayectorias y Controles

Se considera un sistema dinámico cuyo estado en el tiempo está representado mediante un vector \(x(t)\in X\subset \mathbb{R}^n\). Dicho vector puede incluir, según el contexto de cada problema, variables tales como posiciones, velocidades, temperaturas, entre otras. A este espacio \(X\) se le denomina espacio fase o espacio de estados del sistema.

Desde una perspectiva dinámica, la evolución del sistema se modela mediante la trayectoria de \(x(\cdot)\) a lo largo del tiempo. Esta evolución no se considera completamente autónoma, sino que puede ser influenciada por controladores externos \(u(t)\in\mathbb{R}^m\), los cuales representan acciones que afectan directamente a la dinámica del sistema. Estos controladores están restringidos a una región de control \(U\subset\mathbb{R}^m\) que representa las configuraciones posibles de los controladores. Es común asumir que \(U\) es un conjunto cerrado y acotado, aunque en aplicaciones reales puede tener otras formas dependiendo de las limitaciones físicas o tecnológicas del sistema (Pontryagin 2018).

Definimos un control admisible como una función \(u:[t_0,t_f]\rightarrow U\) que satisface las restricciones impuestas al sistema, tales como acotamiento, regularidad y cualquier condición adicional establecida por el problema. El conjunto de todos los controles admisibles se denota como \[ \mathcal{U}_{adm} := \left\{ u:[t_0,t_f]\rightarrow U\subset\mathbb{R}^m \mid u \text{ cumple las restricciones del sistema} \right\}. \]

Dada una función de control \(u(\cdot)\in\mathcal{U}_{adm}\), la evolución del sistema la modelamos mediante una ecuación diferencial ordinaria (ODE) que describe cómo cambia el estado en función del tiempo y del control aplicado: \[ \dot{x}(t) = a(x(t), u(t), t), \qquad t \in [t_0, t_f], \tag{3.1}\]

donde \(a: X \times U \times [t_0, t_f] \rightarrow \mathbb{R}^n\) es una función que describe la dinámica del sistema. La condición inicial se especifica como \[ x(t_0) = x_0, \]

con \(x_0 \in X\) dado.

Para cada control admisible \(u(\cdot)\), existe una trayectoria de estado \(x(\cdot)\) que satisface tanto la dinámica del sistema como las condiciones iniciales. Definimos una trayectoria-control admisible como el par \((x(\cdot),u(\cdot))\) cuando la trayectoria \(x(\cdot)\) junto con el control \(u(\cdot)\in\mathcal{U}_{adm}\), cumple con la dinámica del sistema, las condiciones de frontera, así como todas las restricciones impuestas por el problema.

Ejemplo 3.1  

El problema de Goddard consiste en determinar el perfil óptimo de empuje de un cohete que asciende verticalmente desde la superficie terrestre, de modo que alcance la máxima altitud posible con un consumo eficiente de combustible. Este problema fue planteado por primera vez por R. H. Goddard en 1919, y posteriormente formulado como problema de control óptimo por Bellman en los años 50 (Bryson y Ho 1969).

El sistema de este problema se modela mediante un vector de estado tridimensional: \[ x(t)=\left(\begin{matrix} h(t)\\ v(t)\\ m(t) \end{matrix}\right)\in\mathbb{R}^3, \]

donde \(h(t)\) representa la altura del cohete, \(v(t)\) su velocidad y \(m(t)\) la masa total en el instante \(t\). El control lo definimos como \[ u(t)\in[0,1], \]

el cual representa el empuje utilizado en cada instante, normalizado respecto a su valor máximo. Por tanto, la región de control es el intervalo cerrado \(U=[0,1]\subset\mathbb{R}\).

La dinámica del sistema toma la forma: \[ \begin{split} \dot{x}(t)=\left(\begin{matrix} \dot{h}(t)\\ \dot{v}(t)\\ \dot{m}(t) \end{matrix}\right)=F(x(t),u(t),t)=F_0(x(t))+u(t)F_1(x(t)) \end{split} \]

donde \(F_0\) describe la dinámica autónoma del sistema (es decir, la evolución del estado en ausencia de control), y \(F_1\) representa cómo el control \(u(t)\) influye en la dinámica: \[ F_0(x) = \begin{pmatrix} v \\ -\frac{D}{m} - g(h) \\ 0 \end{pmatrix}, \qquad F_1(x) = \begin{pmatrix} 0 \\ \frac{T_{\max}}{m} \\ -b T_{\max} \end{pmatrix}. \]

Así, la dinámica del problema de Goddard es \[ \dot{x}(t)=\begin{pmatrix} v \\ -\frac{D}{m} - g(h) \\ 0 \end{pmatrix}+u(t)\begin{pmatrix} 0 \\ \frac{T_{\max}}{m} \\ -b T_{\max} \end{pmatrix}=\begin{pmatrix} v \\ \frac{u(t)T_{\max}}{m}-\frac{D}{m} - g(h) \\ -u(t)b T_{\max} \end{pmatrix} \tag{3.2}\]

3.2 Formulación del Problema de control óptimo

A diferencia del cálculo variacional clásico, en el que las funciones admisibles eran elegidas libremente dentro de un espacio funcional, en control óptimo toda trayectoria admisible está determinada por un control admisible a través de la dinámica del sistema.

Para involucrar el parámetro de control \(u(\cdot)\in\mathcal{U}_{adm}\) y formular un problema de optimización con restricciones para hallar un control óptimo \(u^*(\cdot)\), definimos el funcional de costo \(J[u(\cdot)]\) asociado a cada control admisible mediante la siguiente expresión: \[ J[u(\cdot)]=\int_{t_0}^{t_f} L\left(x(t),u(t),t\right) dt + \phi(x(t_f),t_f), \tag{3.3}\]

donde \(L\) representa el costo instantáneo (Lagrangiano) mientras que \(\phi(x(t_f),t_f)\) el costo terminal de la función admisible \(x(\cdot)\), además a \(x(t_f)\) se le conoce como restricción terminal.

Definición 3.1 El problema general de optimización con restricciones de este nuevo funcional \(J\), conocido en la literatura como el Problema de control óptimo en cálculo variacional, se plantea como: \[ \begin{split} \min_{u(\cdot)\in\mathcal{U}_{adm}}\quad J[u(\cdot)] &= \int_{t_0}^{t_f} L(x(t), u(t), t)\,dt + \phi(x(t_f),t_f)\\ \\ \text{sujeto a }\\ \\ \dot{x}(t) &= a(x(t), u(t), t),\qquad t \in [t_0, t_f] \\ x(t_0) &= x_0,\\ x(t_f) &\in\mathcal{X}_f\subset\mathbb{R}^n. \end{split} \tag{3.4}\]

donde \(f\) describe la dinámica del sistema y \(x_0\) es la condición de estado inicial.

Observación 3.1. A este tipo de problemas se les conoce como problemas tipo Bolza, o colectivamente como el problema de Bolza, en honor a Oskar Bolza (1857-1942). Existen dos casos importantes de los problemas tipo Bolza. El primero es el problema de Lagrange, el cual se deriva del calculo de variaciones y en el que no existe un costo terminal(Poznyak 2008): \[ J[u(\cdot)] = \int_{t_0}^{t_f} L(x(t), u(t), t)\,dt. \tag{3.5}\]

El segundo caso especial es el problema de Mayer, en el cual no existe el costo instantáneo y por consiguiente depende exclusivamente del costo terminal(Poznyak 2008): \[ J[u(\cdot)] = \phi(x(t_f),t_f). \tag{3.6}\]

Ejemplo 3.2  

Retomando el problema de Goddard de Ejemplo 3.1, este puede formularse como un problema de control óptimo en el cual se busca maximizar la altitud final \(h(t_f)\) de un cohete, sometido a una dinámica gobernada por las fuerzas de empuje, arrastre y gravedad, bajo restricciones físicas del sistema sobre la masa, la velocidad y el control (empuje). Así nuestro funcional objetivo tiene la forma \[ \max_{u(\cdot)\in\mathcal{U}_{adm}} J[u(\cdot)]= h(t_f), \]

sujeto a \[ \begin{split} \dot{x}(t)&=F(x(t),u(t),t)=F_0(x(t)) + u(t)F_1(x(t)),\\ x(t_0)&=\begin{pmatrix} h(t_0)\\ v(t_0)\\ m(t_0)\end{pmatrix} =\begin{pmatrix}1\\0\\1\end{pmatrix},\\ h(t)&\geq 1,\qquad 0\leq v(t)\leq 0.1\\ m(t_f)&=0.6,\\ u(t) &\in [0,1]. \end{split} \]

3.3 Incremento del Funcional y Primera Variación en Control Óptimo

El concepto de primera variación fue desarrollado previamente en el contexto del cálculo variacional clásico (ver Sección 2.7). En el presente contexto de control óptimo, retomamos estos conceptos, adaptándolos al caso en que la función de estado satisface una dinámica diferencial que depende del control. Aquí la primera variación permite analizar cómo pequeñas perturbaciones en el control \(u(\cdot)\) afectan el valor del funcional de costo \(J[u(\cdot)]\). Esto es fundamental para derivar condiciones necesarias de optimalidad, como el principio de Pontryagin.

Consideremos un control admisible \(u(\cdot)\in\mathcal{U}_{adm}\) que genera una trayectoria \(x:[t_0,t_f]\rightarrow\mathbb{R}\), solución del sistema dinámico \[ \dot{x}(t)=a(x(t),u(t),t),\qquad x(t_0)=x_0. \]

Trabajando con un funcional de costo del estilo Ecuación 3.3, introducimos una perturbación admisible \(\delta u(\cdot)\), y definimos controles perturbados: \[ u_\varepsilon(t) = u(t) + \varepsilon \delta u(t), \qquad \varepsilon \in \mathbb{R}. \tag{3.7}\]

De modo que genera una trayectoria \(x_\varepsilon(\cdot):[t_0,t_f]\rightarrow\mathbb{R}\), que satisface: \[ \dot{x}_\varepsilon(t) = a(x_\varepsilon(t), u_\varepsilon(t), t), \qquad x_\varepsilon(t_0) = x_0. \]

El funcional de costo asociado al control \(u_\varepsilon(\cdot)\) lo definimos como \[ J[u_\varepsilon(\cdot)]=\int_{t_0}^{t_f} L(x_\varepsilon(t),u_\varepsilon(t),t)\,dt+\phi(x_\varepsilon(t_f),t_f). \]

El incremento del funcional se define como la Ecuación 2.2: \[ \Delta J[u,\delta u]:=J[u_\varepsilon(\cdot)]-J[u(\cdot)]. \]

Definimos la variación del estado, denotada por \(\delta x(t)\), como la derivada respecto a \(\varepsilon\) de la trayectoria perturbada evaluada en \(\varepsilon=0\): \[ \delta x(t) := \left.\frac{d}{d\varepsilon} x_\varepsilon(t)\right|_{\varepsilon=0}. \tag{3.8}\]

Esta variación describe cómo cambia la trayectoria de estado \(x(t)\) ante una pequeña perturbación \(\delta u(\cdot)\) en el control. Con esto podemos obtener la ecuación variacional que rige la evolución de \(\delta x(t)\), derivando la ecuación diferencial para la variación del estado:

\[ \dot{\delta x}(t) = f_x(x(t),u(t),t)\,\delta x(t) + f_u(x(t),u(t),t)\,\delta u(t), \qquad \delta x(t_0) = 0. \tag{3.9}\]

Esta ecuación linealizada describe cómo las pequeñas variaciones en el control afectan la trayectoria del sistema a primer orden. De igual forma definimos la variación del tiempo final \(\delta t_f\), la cual representa una perturbación en el instante final del intervalo de control. Introducimos el tiempo final perturbado como \[ t^\varepsilon_f:=t_f+\varepsilon\delta t_f, \tag{3.10}\]

de modo que el nuevo intervalo de integración queda afectado por esta variación. Esta modificación junto con las perturbaciones del control \(\delta u\) y del estado \(\delta x\) contribuyen al cálculo de la primera variación del funcional .

Definimos la primera variación del funcional de costo de forma análogaa ala formulación del Cálculo Variacional (Ecuación 2.5) como: \[ \delta J[u; \delta u] := \left.\frac{d}{d\varepsilon} J[u_\varepsilon(\cdot)]\right|_{\varepsilon=0}. \]

Desarrollando, obtenemos: \[ \begin{split} \delta J[u; \delta u] = \int_{t_0}^{t_f} \left( \langle L_x(x(t),u(t),t),\delta x(t)\rangle + \langle L_u(x(t),u(t),t),\delta u(t)\rangle \right) dt \\ + \langle \phi_x(x(t_f)),\delta x(t_f)\rangle+[\phi_t(x(t_f),t_f)+L(x(t_f),u(t_f),t_f)]\delta t_f. \end{split} \tag{3.11}\]

Ejemplo 3.3  

Como mencionábamos en el Ejemplo 3.2, el funcional objetivo del problema de Goddard se define como \[ J[u(\cdot)] = h(t_f), \]

donde \(h(t_f)\) es la altitud final alcanzada por el cohete.

En este caso, la función de costo terminal es \(\phi(x(t_f)) = h(t_f)\) y no existe un término de costo instantáneo (\(L \equiv 0\)). Por lo tanto, la primera variación del funcional, siguiendo la fórmula general Ecuación 3.11, se reduce a: \[ \delta J[u; \delta u] = \langle \phi_x(x(t_f)), \delta x(t_f) \rangle = \langle (1, 0, 0), \delta x(t_f) \rangle = \delta h(t_f), \]

dado que \(\phi_x(x) = (1, 0, 0)\) porque \(\phi(x) = h\) corresponde a la primera componente del vector de estado.

Así, la primera variación mide cómo una pequeña perturbación en el control afecta la altitud final del cohete.

3.4 Ecuaciones de Euler-Lagrange Generalizadas

En las secciones anteriores, derivamos una expresión general para la primera variación del funcional en problemas de control óptimo. Esta formulación nos permite analizar cómo una perturbación en el control influye sobre la trayectoria del sistema.

A diferencia del cálculo variacional clásico, donde las variaciones de la función \(y\) pueden elegirse libremente dentro de un espacio funcional adecuado, en el contexto del control óptimo las variaciones del estado \(\delta x(t)\) no son independientes, sino que se encuentran determinadas por una ecuación diferencial conocida como ecuación variacional (Ecuación 3.9). Esta dependencia impide anular directamente el integrando de la variación, como se hace en las ecuaciones de Euler-Lagrange (véase Sección 2.10).

Para resolver esta dificultad, recurrimos al uso de multiplicadores de Lagrange en espacios funcionales. Este enfoque permite incorporar las restricciones dinámicas en el análisis variacional y deducir condiciones necesarias de optimalidad en forma de un sistema diferencial que generaliza las ecuaciones de Euler-Lagrange.

Introducimos entonces los multiplicadores de Lagrange, conocidos en la literatura como variables adjuntas o variable de coestado, mediante una función auxiliar \[ \lambda:[t_0,t_f]\rightarrow\mathbb{R}^n, \]

que nos permite tratar las variaciones del estado \(\delta x(t)\) como si fueran independientes, incorporando una condición adicional que la variable adjunta \(\lambda(t)\) debe satisfacer.

Lo que queremos lograr con esto es construir un funcional aumentado en el que las restricciones del sistema se incorporan directamente al integrando (Kirk (2004)) a través del término \[ \langle \lambda(t),a(x(t),u(t),t)-\dot{x}(t)\rangle. \]

Este término se anula a lo largo de trayectorias admisibles, por lo que no modifica el valor del funcional original. Sin embargo, incluirlo resulta fundamental para derivar condiciones de optimalidad más prácticas desde un enfoque variacional.

El funcional aumentado toma entonces la forma: \[ J_a[u]:=\phi(x(t_f),t_f)+\int_{t_0}^{t_f}\left[L(x(t),u(t),t)+\langle \lambda(t),a(x(t),u(t),t)-\dot{x}(t)\rangle\right]\,dt. \tag{3.12}\]

Dado que para toda trayectoria admisible se cumple \(a(x(t),u(t),t)-\dot{x}(t)=0\), entonces el funcional aumentado \(J_a\) coincide en valor con el funcional original \(J\), es decir, \(J_a=J\). Sin embargo, la variación de \(J_a\) resulta significativamente más útil para el análisis, debido a que permite incorporar explícitamente las restricciones dinámicas y facilita la deducción de condiciones necesarias de optimalidad mediante herramientas del cálculo variacional.

Consideramos perturbaciones admisibles del control (Ecuación 3.7), del estado (Ecuación 3.8) y del instante final (Ecuación 3.10), procedemos a calcular la primera variación del funcional aumentado \(J_a\) respecto a dichas perturbaciones: \[ \begin{split} \delta J_a(u;\delta u)&:=\left.\frac{d}{d\varepsilon} J_a[u_\varepsilon(\cdot)]\right|_{\varepsilon=0}\\ &=\left.\frac{d}{d\varepsilon}\right(\phi(x_\varepsilon(t^\varepsilon_f),t^\varepsilon_f)\\ &\left.+\int_{t_0}^{t^\varepsilon_f}\left[L(x_\varepsilon(t),u_\varepsilon(t),t)+\langle \lambda(t),a(x_\varepsilon(t),u_\varepsilon(t),t)-\dot{x}_\varepsilon(t)\rangle\right]\,dt\right)_{\varepsilon=0}. \end{split} \tag{3.13}\]

Al derivar, primero calculamos la variación del costo terminal \(\phi\): \[ \left.\frac{d}{d\varepsilon}\phi(x_\varepsilon(t^\varepsilon_f),t^\varepsilon_f)\right|_{\varepsilon=0}=\langle\phi_x(x(t_f),t_f),\delta x(t_f)\rangle+\phi_t(x(t_f),t_f)\delta t_f. \tag{3.14}\]

Para la variación del término integral, aplicamos la regla de Leibniz para integrales con límites variables, obteniendo: \[ \begin{split} &\left.\frac{d}{d\varepsilon} \int_{t_0}^{t^\varepsilon_f}\left[L(x_\varepsilon,u_\varepsilon,t)+\langle \lambda(t),a(x_\varepsilon,u_\varepsilon,t)-\dot{x}_\varepsilon(t)\rangle\right]\,dt\right|_{\varepsilon=0}\\ =&\int_{t_0}^{t_f}\left[\left.\frac{d}{d\varepsilon}L(x_\varepsilon(t),u_\varepsilon(t),t)+\langle \lambda(t),a(x_\varepsilon(t),u_\varepsilon(t),t)-\dot{x}_\varepsilon(t)\rangle\right|_{\varepsilon=0}\right]\,dt\\ &+\left[L(x(t_f),u(t_f),t_f)+\langle \lambda(t_f),a(x(t_f),u(t_f),t_f)-\dot{x}(t_f)\rangle\right]\delta t_f. \end{split} \tag{3.15}\]

Desarrollando la derivada dentro del integrando, la descomponemos en tres términos: \[ \left.\frac{d}{d\varepsilon}L(x_\varepsilon(t),u_\varepsilon(t),t)\right|_{\varepsilon=0}=\langle L_x,\delta x(t)\rangle+\langle L_u,\delta u(t)\rangle, \tag{3.16}\] \[ \left.\frac{d}{d\varepsilon}\langle\lambda(t),\dot{x}_\varepsilon(t)\rangle\right|_{\varepsilon=0}=-\langle\lambda(t),\delta\dot{x}(t)\rangle, \tag{3.17}\]

\[ \left.\frac{d}{d\varepsilon}\langle\lambda(t),a(x_\varepsilon,u_\varepsilon,t)\rangle\right|_{\varepsilon=0}=\langle a_x^\top\lambda(t),\delta x(t)\rangle+\langle a_u^\top\lambda(t),\delta u(t)\rangle. \tag{3.18}\]

Dado que \(\delta\dot{x}(t)\) no pertenece al espacio de variaciones admisibles, aplicamos integración por partes al término correspondiente para obtener: \[ -\int_{t_0}^{t_f}\langle\lambda(t),\delta\dot{x}(t)\rangle\,dt=-\langle\lambda(t_f),\delta x(t_f)\rangle+\int_{t_0}^{t_f}\left\langle\dot{\lambda}(t),\delta x(t)\right\rangle\, dt \tag{3.19}\]

Sustituyendo las ecuaciones Ecuación 3.16, Ecuación 3.19, Ecuación 3.18 en Ecuación 3.15, y agrupando con la expresión obtenida para la variación del costo terminal (Ecuación 3.14), la primera variación del funcional aumentado queda: \[ \begin{split} \delta J_a[u;\delta u]\,=\, &\langle\phi_x(x(t_f),t_f),\delta x(t_f)\rangle+\phi_t(x(t_f),t_f)\delta t_f - \langle\lambda(t_f),\delta x(t_f)\rangle\\ &+\int_{t_0}^{t_f}\left\langle\dot{\lambda}(t),\delta x(t)\right\rangle\, dt+\int_{t_0}^{t_f}\langle L_x,\delta x(t)\rangle+\langle L_u,\delta u(t)\rangle\,dt\\ &+\int_{t_0}^{t_f}\langle a_x^\top\lambda(t),\delta x(t)\rangle+\langle a_u^\top\lambda(t),\delta u(t)\rangle\,dt\\ &+\left[L(x(t_f),u(t_f),t_f)+\langle \lambda(t_f),a(x(t_f),u(t_f),t_f)-\dot{x}(t_f)\rangle\right]\delta t_f. \end{split} \]

Reordenando términos, obtenemos: \[ \begin{split} \delta J_a[u;\delta u]\,&=\, \langle\phi_x(x(t_f),t_f)-\lambda(t_f),\delta x(t_f)\rangle\\ &+\int_{t_0}^{t_f}\langle L_x+a_x^\top\lambda(t)+\dot{\lambda}(t),\delta x(t)\rangle\,dt\\ &+\int_{t_0}^{t_f}\langle L_u+a_u^\top\lambda(t),\delta u(t)\rangle\,dt\\ &+\left[\phi_t(x(t_f),t_f)+L(x(t_f),u(t_f),t_f)+\langle \lambda(t_f),a(x(t_f),u(t_f),t_f)-\dot{x}(t_f)\rangle\right]\delta t_f. \end{split} \tag{3.20}\]

Al aplicar el Teorema Fundamental de Cálculo Variacional (Teorema 2.2), la condición de nulidad de la primera variación debe cumplirse para toda perturbación admisible, implicando que cada término debe anularse de forma independiente.

Del término asociado a la variación del estado \(\delta x(t)\) obtenemos \[ \dot{\lambda}(t)=-L_x(x(t),u(t),t)-a_x(x(t),u(t),t)^\top\lambda(t), \tag{3.21}\]

concida como ecuaciones adjuntas o ecuaciones de coestado. Esta ecuación diferencial determina la evolución de las variables de coestado \(\lambda(t)\) a lo largo del intervalo de control.

Por su parte, el término asociado a la variación del control \(\delta u(t)\) conduce a una condición de estacionariedad del integrando respecto al control \(u\), que se expresa como: \[ L_u(x(t),u(t),t)+a_u(x(t),u(t),t)^\top\lambda(t)=0. \tag{3.22}\]

Esta condición establece que el control óptimo debe hacer que el integrando del funcional aumentado sea estacionario con respecto a variaciones del control. Es decir, en un punto óptimo, pequeños cambios admisibles en el control no mejoran el resultado en primer orden, ya que los efectos directos e indirectos de esa variación se equilibran.

La variación del estado en el tiempo final \(\delta x(t_f)\) da lugar a la condición de transversalidad: \[ \lambda(t_f)=-\phi_x(x(t_f),t_f). \tag{3.23}\]

Esta condición relaciona el valor terminal de la variable adjunta con el gradiente espacial del costo terminal.

Finalmente, el término asociado a la variación del instante final \(\delta t_f\) impone la condición: \[ \phi_t(x(t_f),t_f)+L(x(t_f),u(t_f),t_f)+\langle \lambda(t_f),a(x(t_f),u(t_f),t_f)-\dot{x}(t_f)\rangle=0. \]

Dado que para trayectorias admisibles se cumple \(\dot{x}(t_f)=a(x(t_f),u(t_f))\), el último término se anula y la condición de frontera se reduce a: \[ \phi_t(x(t_f),t_f)+L(x(t_f),u(t_f),t_f)=0 \tag{3.24}\]

En conjunto estas ecuaciones constituyen las Ecuaciones de Euler-Lagrange generalizadas para problemas de control óptimo, y representan un sistema de condiciones necesarias de primer orden que deben satisfacerse para que una trayectoria-control sea óptima.

Ejemplo 3.4  

Retomando el problema de Goddard (Ejemplo 3.2), construimos el correspondiente funcional aumentado incorporando las restricciones dinámicas del sistema mediante variables adjuntas: \[ J_F[u]:=\phi(x(t_f))+\int_{t_0}^{t_f}\left\langle\lambda(t),F(x(t),u(t),t)-\dot{x}(t)\right\rangle\, dt, \]

donde \(\lambda(t)=\begin{pmatrix} \lambda_1(t)\\ \lambda_2(t)\\ \lambda_3(t)\end{pmatrix}\) representa la variable adjunta asociada a cada componente del estado \(x(t)\).

Aplicamos el procedimiento general desarrollado en esta sección para calcular la primera variación del funcional aumentado. El resultado se exprersa como: \[ \begin{split} \delta J_F[u;\delta u]=&\langle\phi_x(x(t_f))-\lambda(t_f),\delta x(t_f)\rangle\\ &+\int_{t_0}^{t_f}\left\langle\dot{\lambda}(t)+F_x(x(t),u(t),t)^\top\lambda(t),\delta x(t)\right\rangle\,dt\\ &+\int_{t_0}^{t_f}\left\langle F_u(x(t),u(t),t)^\top\lambda(t),\delta u(t)\right\rangle\,dt. \end{split} \]

Al imponer que esta variación se anule para toda variación admisible \(\delta u\) (según el Teorema 2.2), obtenemos la ecuación adjunta: \[ \dot{\lambda}(t)=-F_x(x(t),u(t),t)^\top\lambda(t), \]

la condición de transversalidad: \[ \lambda(t_f)=\phi_x(x(t_f)), \]

y la condición de optimalidad respecto al control: \[ F_u(x(t),u(t),t)^\top\lambda(t)=0. \]

Estas tres expresiones conforman el sistema de Ecuaciones de Euler-Lagrange generalizadas para el problema de Goddard, y constituyen condiciones necesarias que debe satisfacer cualquier trayectoria-control óptimo en este modelo.

3.5 Hamiltoniano en Control Óptimo

Al considerar problemas de control óptimo con restricciones dinámicas (Definición 3.1) las condiciones necesarias de optimalidad no pueden derivarse como en el cálculo variacional clásico, por lo tanto en la Sección 3.4 recurrimos al método de multiplicadores de Lagrange en espacios funcionales, y construimos un funcional aumentado (Ecuación 3.12) en el que las restricciones dinámicas se incorporan explícitamente mediante una función auxiliar \(\lambda(t)\). Este funcional coincide en valor con el original para controles admisibles, pero su estructura permite trabajar con variaciones independientes de \(\delta x(t)\), y por tanto derivar condiciones de optimalidad más potentes.

En este contexto, nos es conveniente usar la función \(H\), llamada Hamiltoniano, definida como \[ H(x(t),u(t),\lambda(t),t)\triangleq\langle\lambda,a(x(t),u(t),t)\rangle+L(x(t),u(t),t). \tag{3.25}\]

Usando esta notación, podemos escribir las condiciones necesarias como sigue: \[ \left.\begin{split} \dot{x}^*(t)&=\frac{\partial H}{\partial\lambda}(x^*(t),u^*(t),\lambda^*(t),t),\\ \dot{\lambda}^*(t)&=-\frac{\partial H}{\partial x}(x^*(t),u^*(t),\lambda^*(t),t),\\ 0&=\frac{\partial H}{\partial u}(x^*(t),u^*(t),\lambda^*(t),t) \end{split}\right\}\qquad\forall\, t\in[t_0,t_f]. \tag{3.26}\]

3.6 Principio del Mínimo de Pontryagin (PMP)

Hasta este punto, no hemos impuesto restricciones explícitas sobre los controles admisibles ni sobre el estado del sistema. No obstante, en aplicaciones realistas tales restricciones aparecen con frecuencia. Los controles físicamente realizables suelen estar sujetos a limitaciones de magnitud: por ejemplo, el empuje de un cohete no puede superar un valor máximo determinado, y un motor solo puede ejercer un torque hasta cierto punto. Asimismo, las restricciones sobre el estado surgen comúnmente por razones de seguridad, consideraciones físicas o limitaciones estructurales del sistema. (Kirk 2004)

En esta sección analizamos cómo la presencia de restricciones sobre el control modifica las condiciones de optimalidad derivadas previamente. En particular, examinamos las implicaciones de dichas restricciones sobre el teorema fundamental de la primera variación (Teorema 2.2). Esta generalización del teorema fundamental nos lleva al Principio del Mínimo de Pontryagin, una formulación clave en la teoría del control óptimo.

La variación del funcional aumentado \(J_a\) (Ecuación 3.20), en términos del Hamiltoniano (Ecuación 3.25) es \[ \begin{split} \delta J_a[u;\delta u]\,&=\, \langle\phi_x(x(t_f),t_f)-\lambda(t_f),\delta x(t_f)\rangle\\ &+\left[H(x(t_f),u(t_f),\lambda(t_f),t_f)+\phi_t(x(t_f),t_f)\right]\delta t_f.\\ &+\int_{t_0}^{t_f}\left\langle \frac{\partial H}{\partial x}(x(t),u(t),\lambda(t),t)+\dot{\lambda}(t)\, ,\,\delta x(t)\right\rangle\\ &+\left\langle\frac{\partial H}{\partial u}(x(t),u(t),\lambda(t),t)\, ,\,\delta u(t)\right\rangle\\ &+\left\langle\frac{\partial H}{\partial\lambda}(x(t),u(t),\lambda(t),t)-\dot{x}(t)\, ,\,\delta\lambda(t)\right\rangle\,dt. \end{split} \]

Ahora, consideremos una trayectoria tal que las ecuaciones de estado se satisfacen, y \(\lambda(t)\) es elegido de modo que el coeficiente \(\delta x\) en la integral es idénticamente cero, y las condiciones de frontera se satisfacen, entonces nos queda \[ \delta J_a[u^*;\delta u]=\int_{t_0}^{t_f}\left\langle\frac{\partial H}{\partial u}(x^*(t),u^*(t),\lambda^*(t),t)\, ,\,\delta u(t)\right\rangle\, dt. \]

El integrando es la aproximación de primer orden en \(H\) causada por una perturbación en \(u\), así \[ \left\langle\frac{\partial H}{\partial u}(x^*(t),u^*(t),\lambda^*(t),t)\, ,\,\delta u(t)\right\rangle=H(x^*(t),u^*(t)+\delta u(t),\lambda^*(t),t)-H(x^*(t),u^*(t),\lambda^*(t),t) \]

por lo tanto \[ \delta J_a[u^*;\delta u]=\int_{t_0}^{t_f}H(x^*(t),u^*(t)+\delta u(t),\lambda^*(t),t)-H(x^*(t),u^*(t),\lambda^*(t),t)\, dt. \]

Si el control \(u^*(t)\) es óptimo, entonces la variación \(\delta J_a[u^*;\delta u]\) debe ser no negativa para todas las perturbaciones admisibles. Es decir: \[ \delta J_a[u^*;\delta u]\geq 0. \]

Sustituyendo la expresión anterior obtenida para \(\delta J_a\), esta condición implica: \[ \int_{t_0}^{t_f}H(x^*(t),u^*(t)+\delta u(t),\lambda^*(t),t)-H(x^*(t),u^*(t),\lambda^*(t),t)\, dt\geq 0, \]

para toda \(\delta u\) admisible. En orden para que esto se cumpla es necesario que \[ H(x^*(t),u^*(t)+\delta u(t),\lambda^*(t),t)\geq H(x^*(t),u^*(t),\lambda^*(t),t), \tag{3.27}\]

para toda \(\delta u(t)\) admisible y toda \(t\in[t_0,t_f]\). Para probar esto consideremos el control \[ \begin{split} u(t)=u^*(t);\qquad &t\notin[t_1,t_2]\\ u(t)=u^*(t)+\delta u(t);\qquad &t\in[t_1,t_2], \end{split} \tag{3.28}\]

donde \([t_1,t_2]\) es un intervalo arbitrario de tiempo distinto de cero, y \(\delta u(t)\) es una variación de control admisible.

Supongamos que la desigualdad (Ecuación 3.27) no se cumple para el control descrito en Ecuación 3.28, entonces en el intervalo \([t_1,t_2]\) tenemos \[ H(x^*(t),u(t),\lambda^*(t),t)<H(x^*(t),u^*(t),\lambda^*(t),t), \]

y por lo tanto, \[ \begin{split} \int_{t_0}^{t_f}&H(x^*(t),u(t),\lambda^*(t),t)-H(x^*(t),u^*(t),\lambda^*(t),t)\, dt\\ &=\int_{t_1}^{t_2}H(x^*(t),u(t),\lambda^*(t),t)-H(x^*(t),u^*(t),\lambda^*(t),t)\, dt<0. \end{split} \]

Dado que el intervalo \([t_1,t_2]\) es arbitrario, puede estar en cualquier parte del intervalo \([t_0,t_f]\), y así es claro que si \(H(x^*(t),u(t),\lambda^*(t),t)<H(x^*(t),u^*(t),\lambda^*(t),t)\) para todo \(t\in[t_0,t_f]\), entonces siempre es posible construir un control admisible, que hace que \(\delta J<0\), lo cual es una contradicción a la optimalidad del control \(u^*\). Por lo tanto, podemos concluir que una condición necesaria para que \(u^*\) minimice el funcional \(J\) es que \[ H(x^*(t),u(t),\lambda^*(t),t)\geq H(x^*(t),u^*(t),\lambda^*(t),t), \tag{3.29}\]

para todo \(t\in[t_0,t_f]\) y para todo control admisible. Así, a la Ecuación 3.29, que indica que un control óptimo debe minimizar el Hamiltoniano, se le llama Principio del Mínimo de Pontryagin (PMP).

En resumen, se busca control \(u^*\) que causa que un sistema (Ecuación 3.1) siga una trayectoria admisible y minimiza el funcional de costo (Ecuación 3.3). En términos del Hamiltoniano (Ecuación 3.25), las condiciones necesarias para que \(u^*\) sea un con control óptimo son

\[ \left.\begin{split} \dot{x}^*(t)&=\frac{\partial H}{\partial\lambda}(x^*(t),u^*(t),\lambda^*(t),t),\\ \dot{\lambda}^*(t)&=-\frac{\partial H}{\partial x}(x^*(t),u^*(t),\lambda^*(t),t),\\ H(x^*&(t),u(t),\lambda^*(t),t)\geq H(x^*(t),u^*(t),\lambda^*(t),t) \end{split}\right\}\qquad\forall\, t\in[t_0,t_f]. \tag{3.30}\]

Ejemplo 3.5  

En el caso del problema de Goddard (Ejemplo 3.2), el funcional objetivo consiste en maximizar la altitud final \(h(t_f)\), sujeto a la dinámica del sistema y condiciones adicionales. Dado el funcional aumentado (ver Ejemplo 3.4), el Hamiltoniano asociado a este problema toma la forma \[ H(h,v,m,\lambda_h,\lambda_v,\lambda_m,t)=\lambda_h v+\lambda_v\left(\frac{T_{\max}}{m}u-\frac{D}{m} - g(h)\right) -\lambda_m b\, T_{\max} u \]

y con esto, las condiciones necesarias que tiene que cumplir un control \(u^*\) para que sea solución del problema de Goddard son las condiciones del estado (dinámica): \[ \dot{h}=v,\qquad \dot{v}=\frac{T_{\max}}{m}u-\frac{D}{m} - g(h),\qquad \dot{m}-b\,T_{\max}u, \]

las ecuaciones adjuntas (ver Ecuación 3.21) \[ \begin{split} \dot{\lambda}_h &=-\frac{\partial H}{\partial h}=\lambda_v\left(\frac{1}{m}\frac{\partial D}{\partial h}+g^\prime(h) \right),\\ \dot{\lambda}_v &=-\frac{\partial H}{\partial v}=-\lambda_h+\lambda_v\frac{1}{m}\frac{\partial D}{\partial v},\\ \dot{\lambda}_m &=-\frac{\partial H}{\partial m}=\lambda_v\left(\frac{T_{\max}}{m^2}u-\frac{D}{m^2}\right), \end{split} \]

Condición sobre el control (Pontryagin): \[ u^*(t)\in\arg\max_{u\in[0,1]}H(x^*(t),u,\lambda^*(t),t). \]

Ya que el Hamiltoniano del problema es afín en el control, es decir, es lineal respecto al control, nos fijamos en la función de conmutación (switching function): \[ \varphi(t):=\frac{\partial H}{\partial u}=\lambda_v\frac{T_{\max}}{m}-\lambda_m b\,T_{\max}, \]

así, el control óptimo sigue la regla bang-bang: \[ u^*(t)=\left\{\begin{split} 1,\qquad\varphi(t)>0,\\ 0,\qquad\varphi(t)<0. \end{split}\right. \]

Si \(\varphi(t) = 0\) en un intervalo, se habla de un arco singular.