Стохастическое оптимальное управление и уравнение Веллмана
Управление и = и (x (t), t) считается допустимым, если функция u (t) = u (x (t), t) кусочно непрерывна и принимает значения из допустимого множества Uf Кроме того, предполагается, что при допустимом управлении уравнение. Достаточное условие оптимальности. Если существует скалярная функция S (x, t), обладающая непрерывными частными производными dS/dt, dS/dx, d2S/dx2, и допустимое управление и* (х… Читать ещё >
Стохастическое оптимальное управление и уравнение Веллмана (реферат, курсовая, диплом, контрольная)
Уравнение объекта и критерий оптимальности имеют вид где х° — гауссова случайная величина, V0(?) — гауссов белый шум, х° и Vo (?) не коррелированы; белый шум имеет следующие характеристики:
Пусть требуется определить управление объекта (11.60а) с обратной связью, доставляющее минимум критерию оптимальности (11.606).
Такое управление называется стохастическим оптимальным управлением.
Итак, рассматривается задача стохастического оптимального управления, в которой шум объекта является гауссовым белым шумом и входит в уравнение аддитивно; ограничение на правый конец траектории отсутствует, фазовый вектор наблюдается полностью и без помех. В этой задаче x (t) является марковским процессом (так как случайное воздействие является белым шумом), и вся информация, которая может быть использована при определении характеристики будущего состояния, содержится в x (t). Поэтому оптимальное управление должно быть функцией только от текущего состояния и, быть может, текущего времени.
Управление и = и(x (t), t) считается допустимым, если функция u (t) = u (x (t), t) кусочно непрерывна и принимает значения из допустимого множества Uf Кроме того, предполагается, что при допустимом управлении уравнение
при каждом фиксированном x (to) = х° имеет единственное решение на интервале [to, tf]. Функции /0(х, и, ?), f (x, u, t) и Qo (t) предполагаются непрерывными.
то это управление является стохастическим оптимальным управлением (для задачи (11.60)).
Уравнение (11.61а) называется уравнением Веллмана (для задачи стохастическго оптимального управления), а функция 5(х, t) — функцией Веллмана.
Если множество Ut открыто и минимум в левой части уравнения (11.61а) достигается в стационарной точке, уравнение Веллмана можно представить в виде.
Достаточное условие оптимальности [54]. Если существует скалярная функция S (x, t), обладающая непрерывными частными производными dS/dt, dS/dx, d2S/dx2, и допустимое управление и* (х, t) удовлетворяет уравнению
где qij — элементы матрицы Qо, при граничном условии.
Обычно уравнение Веллмана записывают, используя след матрицы.
Следом (шпуром) матрицы называют сумму элементов ее главной диагонали. Например, след (п х п)-матрицы А = [a"j] (обозначе;
п ние tri4 или SpA) определяется так: tr А = ац.
г=1.
Непосредственным вычислением можно убедиться, что имеет место равенство
Поэтому уравнение Веллмана (11.61а) обычно записывают в виде.
Вывод уравнения Веллмана можно найти в [54]. Здесь он не рассматривается.