Дипломы, курсовые, рефераты, контрольные...
Срочная помощь в учёбе

Многошаговые стохастические игровые задачи управления

ДиссертацияПомощь в написанииУзнать стоимостьмоей работы

Многошаговый стохастический игровой процесс с дискретным временем представляет собой динамическую систему с пространством состояний X, способную изменять свое состояние в моменты времени t = 0,1,2,. под воздействием как управлений, выбираемых игроками в эти моменты, так и случайных факторов. Управления выбираются на основании предусмотренной правилами игры информации о предшествующих состояниях… Читать ещё >

Содержание

  • 1. Многошаговые стохастические игровые модели и последовательные интерактивные решения
  • 2. Игровые задачи цепи Маркова
  • 3. Повторяющиеся игры с неполной информацией
  • 4. Стохастические игровые задачи распределения ресурсов
  • Глава 1. Игровые задачи остановки цепи Маркова
  • Введение к главе
    • 1. 1. Постановка задачи
    • 1. 2. Уравнения оптимальности
    • 1. 3. Обзор предшествующих работ по игровой задаче остановки
    • 1. 4. Структура главы
    • 2. Игры с «почти детерминированными» переходами
      • 2. 1. Модель и уравнения оптимальности
      • 2. 2. Решения для игр с нулевыми платежами «21(2:)
      • 2. 3. Решения для игр с положительными платежами ¿^(я)
      • 2. 4. Примеры
    • 3. Рандомизированные стратегии остановки
      • 3. 1. Супергармонические и субгармонические функции
      • 3. 2. Выходная граница Мартина
      • 3. 3. Рандомизированные стратегии остановки и марковские моменты
      • 3. 4. Задачи оптимальной остановки цепи Маркова
    • 4. Игры остановки с ограниченными ожиданиями максимумов платежей
      • 4. 1. Игры остановки и уравнения оптимальности
      • 4. 2. Решения уравнений оптимальности как решения игр остановки
      • 4. 3. Границы для решений уравнений оптимальности
      • 4. 4. Построение решений для игр с ограниченными платежами
    • 5. Игры с нулевыми платежами при остановке только одним игроком
      • 5. 1. Уравнения оптимальности и свойства их решений. Игры с нулевым значением
      • 5. 2. Игры с пустым останавливающим множеством В~
      • 5. 3. Игры с непустым иеостанавливающим множеством В+
      • 5. 4. Иллюстративные примеры
    • 6. Игры с нулевым платежом при остановке только первым игроком
      • 6. 1. Уравнения оптимальности и свойства их решений
      • 6. 2. Игры с пустым иеостанавливающим множеством В+
      • 6. 3. Иллюстративный пример
  • Глава 2. Повторяющиеся игры с неполной информацией у второго игрока
  • Введение к главе
    • 1. 1. Постановка задачи
    • 1. 2. «Раскрывающиеся в пределе» игры. Игра Мертенса и Замира
    • 1. 3. Игры с сепарабельными выигрышами
    • 1. 4. Структура главы
    • 2. Рекурсивное представление повторяющихся игр с неполной информацией у второго игрока
      • 2. 1. Формализированная модель
      • 2. 2. Рекурсивное представление для стратегий и выигрышей
      • 2. 3. Рекурсивное представление для значений и оптимальных стратегий
    • 3. «Раскрывающиеся в пределе» игры с двумя 2×2 матрицами
      • 3. 1. Структура множества «раскрывающихся в пределе» игр
      • 3. 2. Некоторые формулы для биномиального распределения
      • 3. 3. Решения для игр «смешанного типа»
      • 3. 4. Вероятностная трактовка и асимптотика решений
      • 3. 5. Решения для игр типа «седловой точки»
    • 4. Решения для симметричных сепарабельных игр
      • 4. 1. Свойства симметричных сепарабельных игр
      • 4. 2. Некоторые формулы для мультиномиального распределения
      • 4. 3. Построение решений для симметричных сепарабельных игр
      • 4. 4. Предельное поведение решении
    • 5. Игры с общими сепарабельными выигрышами
      • 5. 1. Свойства игр с общими сепарабельными выигрышами
      • 5. 2. Мультиномиальные транспортные задачи
      • 5. 3. «Каноническое» разложение допустимых планов
      • 5. 4. Рекуррентные решения для мультиномиальных транспортных задач
      • 5. 5. Решения для игр Гп (р) сепарабельными выигрышами
      • 5. 6. Пример. Игра Мертенса и Замира
    • 6. Функции значений транспортной задачи и мультиномиальное распределение
      • 6. 1. Постановка задачи
      • 6. 2. Транспортная задача и задача двойственная к ней
      • 6. 3. Структура носителей для матриц в общем положении
      • 6. 4. Функция значений для задачи Т (С, ,)
      • 6. 5. Функция значений для задачи Т (С,-, Ь)
      • 6. 6. Иллюстративные примеры
  • Глава 3. Многошаговые стохастические игровые модели распределения ресурсов
  • Введение к главе
    • 1. 1. Постановка задачи
    • 1. 2. Структура главы и описание основных результатов
    • 1. 3. Стохастические игры с дисконтированным выигрышем
    • 1. 4. «Абсолютные» ситуации равновесия стохастических игр
    • 1. 5. Игровая модель распределения ресурсов как стохастическая игра
    • 1. 6. Модели распределения ресурсов с несколькими отраслями потребления и производства
    • 2. Решения для однородных моделей распределения ресурсов с одним агентом
      • 2. 1. Однородные модели распределения ресурсов с одним агентом
      • 2. 2. Решения для конечного интервала планирования
      • 2. 3. Решения для бесконечного интервала планирования
      • 2. 4. Многоотраслевые однородные модели. Решения для одношаговых моделей
      • 2. 5. Решения для многоотраслевых многошаговых однородных моделей
    • 3. Игровые пропорционально-однородные модели распределения ресурсов
      • 3. 1. Формализация пропорционально-однородных моделей
      • 3. 2. Условия согласования индивидуальных и социальных полезностей
      • 3. 3. Решения для вспомогательных одношаговых игр
      • 3. 4. Абсолютные равновесия для конечного горизонта
      • 3. 5. Абсолютные равновесия для бесконечного горизонта
    • 4. Решения для игровых многоотраслевых пропорционально-однородных моделей распределения ресурсов
      • 4. 1. Формализация многоотраслевых пропорциональнооднородных моделей
      • 4. 2. Решения для одношаговых игровых задач с несколькими отраслями потребления
      • 4. 3. Решения одношаговой игровой задачи распределения с несколькими отраслями производства
      • 4. 4. Решение для многошаговых многоотраслевых игровых моделей распределения ресурсов
      • 4. 5. Решение для многошаговых многоотраслевых игровых моделей с бесконечным горизонтом планирования

Многошаговые стохастические игровые задачи управления (реферат, курсовая, диплом, контрольная)

1 Многошаговые стохастические игровые модели и последовательные интерактивные решения.

Предметом представляемой диссертационной работы является исследование различных аспектов принятия последовательных решений в условиях долговременного взаимодействия и неопределенности на основе современных достижений теории многошаговых динамических стохастических игр с неполной информацией. Рассматриваемый в работе круг задач может быть отнесен к вероятностной теории оптимального управления.

Многошаговые стохастические игровые модели являются обобщениями управляемых марковских случайных процессов с дискретным временем, или по другой терминологии — многошаговых марковских процессов принятия решений (Multistage Markov Decison Processes — MMDP) (см., например, книги Дыикин, Юшкевич [20], Майн, О сак и [30]), на случай, когда в принятии решения участвуют несколько лиц с несовпадающими интересами.

Многошаговый стохастический игровой процесс с дискретным временем представляет собой динамическую систему с пространством состояний X, способную изменять свое состояние в моменты времени t = 0,1,2,. под воздействием как управлений, выбираемых игроками в эти моменты, так и случайных факторов. Управления выбираются на основании предусмотренной правилами игры информации о предшествующих состояниях и о выборах игроками управлений на предшествующих этапах игры. После того как выбор всеми игроками сделан, игроки получают соответствующие этой ситуации доходы, система переходит в следующее состояние, а игроки получают предусмотренную правилами игры информацию об этом состоянии и о действиях партнеров.

Задача игрока в многошаговой стохастической игре состоит в том, чтобы максимизировать некоторые сводные показатели (целевые функции), выражающие оценку всей последовательности своих доходов, принимая во внимание, что остальные игроки поступают аналогично.

Известно, что «практически любая» динамическая игра, то есть игра, в которой процесс принятия решений игроками развернут во времени, может быть нормализована, то есть сведена к игре, и которой решения игроками принимаются однократно (см., например, Воробьев [4]). Однако, несмотря на свою концептуальную важность, такое сведение не всегда оказывается целесообразным, ибо оно затушевывает те специфические структурные свойства игры, которые могут облегчить ее анализ.

Более того, именно эти структурные динамические свойства решений являются предметом исследования в теории многошаговых динамических игровых моделей с неполной информацией, и превращают ее в основание для теории принятия последовательных решений в условиях долговременного взаимодействия и неопределенности.

Как указывалось выше, многошаговые стохастические игровые модели с неполной информацией являются непосредственными обобщениями управляемых марковских случайных процессов с дискретным временем, в которых имеется только один принимающий решения агент. Более того, если в игровой модели стратегии всех игроков, кроме одного, определены и обладают некоторыми «марковскими» свойствами, то нахождение оптимального ответа этого игрока оказывается задачей теории управляемых марковских случайных процессов.

Вследствие этого, характерным для теории многошаговых динамических игровых моделей с неполной информацией является их рассмотрение именно как управляемых динамических стохастических систем и использование подходов и методов, аналогичных применяемым в теории управляемых случайных процессов, интенсивно развивавшейся в последние десятилетня. Результаты этой теории широко используются при изучении стохастических динамических игровых моделей. В этой теории учитывается двоякая роль управления — на каждом шаге нужно сравнивать непосредственный выигрыш от принятого решения с его влиянием на последующую эволюцию системы. Вследствие этого, оптимальные выигрыши, соответствующие различным начальным состояниям процесса, должны удовлетворять уравнениям оптимальности Вальда — Беллмана, выражающим принцип динамического программирования (см. Вальд [3], Беллман.

I]).

Основным математическим инструментом для изучения принятия решений в условиях конкурентного взаимодействия (интерактивных решений) является теория игр.

Теория игр исследует принятие решений в условиях неопределенности, возникающей при взаимодействии нескольких агентов с несовпадающими интересами в результате того, что исход ситуации зависит от выбора всех участников (игроков). Дополнительная неопределенность может возникать в результате того, что этот исход может зависеть также от некоторых внешних случайных факторов.

Основной целью диссертации является построение и анализ решений, то есть оптимальных стратегии игроков, и значений, то есть оптимальных выигрышей игроков, для многошаговых стохастических игровых задач с неполной информацией, в различных постановках и интерпретациях.

При изучении игровых ситуаций, в которых прямая кооперация между участниками отсутствует (бескоалиционные игры), под решением игры понимается нахождение ситуаций равновесия по Нэшу, т. е. таких па-боров стратегий игроков, для которых каждому участнику невыгодно отклоняться от стратегии, предписываемой этим набором, при условии, что остальные применяют стратегии из того же набора (см., например, Воробьев [4]).

• Однако, многошаговая стохастическая игра представляет собой не одну игру, а целое семейство игр, зависящих от начального состояния системы х G X. Выигрыши игроков в ситуациях равновесия, соответствующих различным начальным состояниям, должны быть связаны между собой.

Антагонистическая игра имеет значение v (x), при использовании игроками 1 и 2 стратегий tus из классов Т и S соответственно, если выполняются соотношения (теорема о минимаксе) sup inf Ix{t, s) = inf sup Ix (t, s) = v (x), y s s f где Ix (t, s) — выигрыш Игрока 1, соответствующий начальному состоянию цепи х.

В теории игр получены и используются различные теоремы о минимаксе, то есть теоремы, обеспечивающие равенство sup inf = inf sup при соответствующих предположениях относительно функций выигрыша и о структуре множеств стратегий игроков. Обычно, в таких теоремах пред-^ полагается, что множества стратегий игроков выпуклы и компактны в некоторой «естественной» топологии, а функция выигрыша непрерывна, вогнута относительно стратегий максимизирующего игрока и выпукла относительно стратегий минимизирующего игрока (см., например, Кар-лнн [22]).

Множества чистых стратегий игроков для рассматриваемых игр, вообще говоря, не удовлетворяют этим требованиям, и, таким образом, теорема о минимаксе может не выполняться.

Хорошо известным средством преодоления этого дефекта, используемым в теории игр, является введение рандомизированных стратегий. При этом возможны два различных подхода к построению рапдомизирован ных стратегий, а именно — смешанные стратегии, то есть вероятностные смеси чистых стратегий, и рандомизированные стратегии поведения, то есть стратегии, в которых рандомизация происходит на уровне элементарных пошаговых действий игроков. Известно, что, при достаточно широких условиях, оба эти подхода эквивалентны (см. Кун [64], Ауман М.

Для игр с нулевой суммой (антагонистических игр) при выполнении теоремы о минимаксе однозначно определяется значение игры. Все оптимальные стратегии равноценны, ибо гарантируют один и тот же выигрыш, н взаимозаменяемы. Выигрыши игроков в ситуации равновесия многошаговой антагонистической игры должны удовлетворять уравнениям оптимальности, выражающим принцип динамического программирования в игровой формулировке (см. Петросян и др. [31]).

Для игр с ненулевой суммой, в случае неединственности ситуации равновесия, множество ситуаций равновесия, рассматриваемое как решение игры, обладает целым рядом недостатков. Важнейшими из этих недостатков являются следующие: а) выигрыши игроков в различных ситуациях равновесия могу г не совпадать, что означает невозможность определить единое равновесное значение игрыб) непрямоугольность множества ситуаций равновесия, то есть невозможность заменить стратегию одного из игроков в заданной ситуации равновесия на стратегию из другой ситуации равновесия, что означает невозможность определить равновесные оптимальные стратегии.

Кроме того, для игр с ненулевой суммой выигрыши игроков в ситуации равновесия, вообще говоря, не должны удовлетворять принципу динамического программирования. Однако, этому принципу должны удовлетворять устойчивые выигрыши игроков в «абсолютной», то есть устойчивой относительно нодыгр ситуации равновесия (см. Петросян и др. [31]).

Для задачи с конечным числом шагов, «абсолютные» ситуации равновесия удовлетворяют принципу обратной индукции по числу шагов и могут быть построены на его основе с использованием теории управляемых марковских процессов с доходами.

Для задачи с бесконечным числом шагов уравнения оптимальности позволяют найти выигрыши игроков в «абсолютной» ситуации равновесия процесса как неподвижные точки оператора оптимальности. В этом случае, оптимальные действия игроков определяются только наблюдаемым состоянием системы. Таким образом, в этом случае, оптимальные действия игроков образуют стационарные стратегии.

Первая работа по теории стохастических игр (как и сам термин) принадлежит Шепли [83]. За пять десятилетий, прошедших со времени опубликования этой статьи, вопросам теории стохастических игр было посвящено несколько сотен работ (см. обзоры Партхасаратхи и Штерн [77], Мертенс, Сорен и Замир [77], а также обзор автора [13]).

Исследование процессов принятия решений в условиях конкурентного взаимодействия лежит в основе математического моделирования и анализа социальных процессов, и, в частности, в основе математической теории экономического поведения.

Многошаговые игры представляют собой естественную модель для исследования сложного интерактивного поведения. Продолжительность процесса взаимодействия позволяет участвующим в нем агентам генерировать некоторые представления относительно других участников, сделать свои умозаключения, статистические выводы и т. д. Изучение этого процесса предоставляет возможность охарактеризовать и формально описать различные формы кооперации и обмена информацией, возникающие из изначально некооперативного поведения участников игры. Для самой же теории игр анализ ситуаций равновесия для многошаговых игр предоставляет возможность связать между собой стратегические и нестратегические (кооперативные) аспекты теории.

Так, хорошо известный результат теории повторяющихся игр, («folk theorem», см. [67]), утверждает, что все кооперативные индивидуально рациональные, то есть обеспечивающие всем участникам игры выигрыши, не меньшие, чем их максимальный гарантированный минимум, исходы одношаговой игры могут быть реализованы как результаты некооперативного поведения — ситуации равновесия в повторяющейся игре с бесконечным временным горизонтом.

Максимальный гарантированный минимум участника игры представляет собой значение антагонистической игры, возникающей, если все остальные игроки кооперируются и действуют так, чтобы минимизировать выигрыш данного участника.

Исследование повторяющихся многошаговых игр с полной информацией показывает, что кооперация может возникать как результат угрозы наказания в будущем. Повторение, в этом случае, выступает в роли принуждающего механизма.

В антагонистических повторяющихся играх с неполной информацией проблемы стратегической передачи и сокрытия информации могут исследоваться сами по себе, вне зависимости от каких либо кооперативных эффектов. В этом случае повторение служит исключительно в качестве сигнального механизма.

Результаты, полученные для антагонистических многошаговых игр, непосредственно применяются к неантагоннстическим играм. Так харак-теризация ситуаций равновесия использует условия индивидуальной рациональности, которые опираются на антагонистический вариант игры. В повторяющихся многошаговых играх с неполной информацией повторение служит одновременно и механизмом принуждения и сигнальным механизмом.

Продолжительность взаимоотношений между агентами порождает многие феномены интерактивного поведения — угрозы, наказания, поощрения, обнаружение и сбор информации, а также введение партнеров в заблуждение. Конструкция многошаговых игр направлена на изучение всех этих явлений.

Как указывалось ранее при полной информации повторение делает возможной кооперацию. При неполной информации повторение выполняет также роль сигнального механизма. Наиболее интересные аспекты социальных и экономических ситуаций проявляются при асимметричной информации у их участников.

Области приложений теории игр включают такие разделы общественных наук, как экономическая теория, социальное поведение и социальный выбор.

В последние десятилетия теория игр переживает новый подъем, которым она обязана, в некоторой степени, своей трансформацией из чисто нормативной дисциплины, каковой она была на ранних этапах своего существования, в некую разновидность науки о поведении. Эта трансформация привела к существенному расширению области приложений теории игр, включив в нее такие предметы изучения, как эволюционная теория, теория обучения и интерактивная эпистемология. Все эти области существенно используют теорию многошаговых динамических игр (см. книги Бинмора [43], Аумана и Машлера [41], Мертенса, Сорена и Замира [67]).

Диссертация посвящена исследованию многошаговых стохастических игровых задач управления с неполной информацией, в различных постановках и интерпретациях.

2 Игровые задачи остановки цепи Маркова.

В первой главе рассматривается игровая задача остановки цени Маркова в постановке, восходящей к работе Дынкина [19] и его последователей.

Фрид [34], Кифер [26], Гусейн-Заде [6]). На Западе такие игры впервые рассмотрел Невё [73], который назвал их «играми Дынкина» .

Два игрока наблюдают за цепыо Маркова и могут остановить ее в любой момент. Если оба игрока останавливают цепь одновременно, то игрок 1 выигрывает у игрока 2 сумму ац (ж), где х — состояние цепн в момент остановки. Если первым остановившим является только игрок 1 или только игрок 2, то игрок 1 выигрывает 012(1) или а21(х), соответственно.

На пространстве состояний цепи определена также функция с, задающая «выигрыш в бесконечности». Если ни один из игроков не останавливает цепь, то игрок 1 выигрывает сумму, равную ПгПп-юо с (хп). Функцию с (ж) можно считать гармонической функцией относительно переходного оператора Р цепи Маркова, то есть с (х) = Рс (х), что гарантирует существование предела.

Игровые задачи остановки являются обобщениями задач оптимальной остановки случайных процессов (см., например, книги Ширяева [36] и Роббипса, Сигмунда, Чао [33]) на случай, когда в принятии решения участвуют несколько лиц с несовпадающими интересами. Задачи оптимальной остановки представляют собой наиболее изученный раздел теории управления случайными процессами. Отличительной особенностью таких задач является наличие у игроков в каждый момент только двух возможных управлений (элементарных стратегий) — продолжить наблюдение за траекторией управляемого процесса, или прекратить его.

Значение игры остановки у (х), как функция начального состояния цепи хо = х, должно удовлетворять уравнению оптимальности, выражающему принцип динамического программирования Беллмана в игровой формулировке. Уравнение оптимальности имеет вид и (х) = (Ти)(х) = уа1[а,^(х, г")], где уа1[а, у] — значение матричной игры с матрицей выигрышей [я^], ац (х, и) = а,-(ж) при (ц) ф (22) и «22(2,и) = (Р-и)(х) = Е[и (ж2)|^1 =.

Отметим, что функция с, задающая «выигрыш в бесконечности», не учитывается уравнением оптимальности. С другой стороны, неподвижная точка оператора Т, вообще говоря, не единственна, и различным «выигрышам в бесконечности» с могут соответствовать различные решения уравнения оптимальности.

Существует обширная литература по играм Дынкина, как с дискретным, так и с непрерывным временем, дающая достаточные условия для существования значения игры. В большинстве работ предполагалось, что выигрыши удовлетворяют соотношениям, которые гарантируют разрешимость игры с использованием только чистых стратегий остановки. Предполагалось также, что, если ни один из игроков не останавливает цепь, то игра заканчивается вничью (игрок 1 получает нуль). Встает вопрос о существовании значения игры и рандомизированных оптимальных моментов остановки при отказе от этих предположений. Также возникает задача выяснения зависимости значения игры от функции с, задающей «выигрыш в бесконечности» .

Целью первой главы является построение решения для антагонистической игровой задачи остановки цепи Маркова при достаточно общих предположениях с помощью рандомизированных моментов остановки. Мы рассматриваем «выигрыш в бесконечности» с как переменный параметр и ищем решения для семейства игр остановки, параметризованных начальными состояниями хо = х и функциями с.

Поскольку значение игры остановки должно являться неподвижной точкой оператора оптимальности Т, исследование игровой задачи остановки сводится к изучению областей притяжения неподвижных точек оператора Т. Области притяжения неподвижных точек определяются структурой выигрышей, а также структурой переходных вероятностей цепи.

1. Веллман Р., Динамическое программирование. И.Л., М. 1960.

2. Блекуэл Д., Гиршик М.,.Теория игр и статистических решений. И.Л., М. 1958.

3. Вальд А., Статистические региающие функции, В сб.: Позиционные игры, М.: Наука, 1967, 300−522.

4. Воробьев H.H., Основы теории игр. Бескоалиционные игры. М.: Наука, 1984.

5. Гольштейн, Е.Г., Юдин Д. Б., Задачи линейного программирования транспортного типа. М.: Наука, 1969.

6. Гусейн-Заде С.М., Об одной игре, связанной с винеровским процессом, Теор. вер. и ее примен., 1969, XIV, 4, 732−735.

7. Доманский В. К., Существование и структура решений для одного класса антагонистических игр, Игровые вопросы принятия решений. Ротапринт ЦЭМИ АН СССР, М., 1973, 32−46.

8. Доманский В. К., Игры на обрывающихся процессах восстановления, Труды V зимней школы по мат. программированию и смежным вопросам. М., Изд. ЦЭМИ АН СССР, 1973, Вып.1, 151−161.

9. Доманский В. К., О некоторых играх, связанных с последовательностью испытаний Бернулли, Техн. кибернетика, 1974, N4, 35−39.

10. Доманский В. К., Об одном классе игровых задач остановки последовательности сумм случайных величин, Современные направления теории игр, Вильнюс: Мокслас, 1976, 86−93.

11. Доманский В. К., Игровая задача остановки цепи Маркова, Резюме докладов, сделанных на заседаниях семинара по теор. вер. и мат. стат. в ЛОМИ АНСССР, 1977. Теор. вер. и ее примен., 1978, XXIII, 4, 863−865.

12. Доманский В. К., Игровая задача остановки цепи Маркова, Межвузовский тематический сб. Существование решений, устойчивость и информированность в теории игр. К ГУ, Калинин, 1979, 29−38.

13. Доманский В. К., Стохастические игры, Математические вопросы кибернетики, М., 19S8, вып.1, 26−49.

14. Доманский В. К., Рандомизированные оптимальные моменты для одного класса игр остановки, Теор. вер. и ее примен., TBII, Москва, 2001, 46, вып.4, 770−778.

15. Доманский В. К., Дюбин Г. Н., Игры на случайных процессах, Успехи теории игр, Вильнюс: Минтис, 1973, 36−43.

16. Доманский В. К., Дюбин Г. Н., Стратегии с неубывающим доходом в динамических моделях распределения ресурса между производством и потреблением, Оптимизация, АНСССР СО, Новосибирск, 1985, 35(52), 146−156.

17. Доманский В. К., Дюбин Г. Н., Стохастическая модель распределения ресурса между производством и потреблением с несколькими участниками, Оптимизация, АНСССР СО, Новосибирск, 1985, 36(53), 63−68.

18. Доманский В. К., Крене В. Л. Функция значений транспортной задачи и мультиномиальное. распределение, Экономика и математические методы, М.: Наука, 1998, 34, вып.4, 119−133.

19. Дынкин Е. Б., Игровой вариант задачи об оптимальной остановке, ДАН СССР, 1969, 185, N1, 16−19.

20. Дынкин Е. Б., Юшкевич A.A., Теоремы и задачи о процессах Маркова. М.: Паука, 1967.

21. Дынкин Е. Б., Юшкевич A.A., Управляемые марковские процессы и их приложения. М.: Наука, 1975.

22. Карлин С., Математические методы в теории игр, программировании и экономике. М.: Мир, 1964.

23. Карлин С., Основы теории случайных процессов. М.: Мир, 1971.

24. Кемени Дж., Снелл Дж., Конечные цепи Маркова. М.: Наука, 1970.

25. Кемени Дж., Снелл Дж., Кпепп А., Счетные цепи Маркова. М.: Наука, 19S7.

26. Кифер Ю Н., Игры с оптимальн-ой остановкой, Теория верояти. и ее примен., 1971, XVI, в.1, 183−188.

27. Лазриева Н. Л., О решениях уравнения Вальда-Беллмана, Литовский матем. сб., 1974, XIX, 2, 79−88.

28. Мазалов В. В., Игровые моменты остановки. Новосибирск. Наука, Сибирское отделение, 1987.

29. Мазалов В. В., Кочетов Э. А., Игры с оптилшльной остановкой случайных блужданий, Теория верояти. и ее примен. 1997, 42, в.4, 820−826.

30. Майн X., Осаки С., Марковские процессы принятия решений. М.: Наука, 1977.

31. Петросян JI.А., Зенкевич Н. А., Семина Е. А., Теория игр. М.: Высшая школа, 1998.

32. Пресман Э. Л., Сонин И. М., Игровые задачи оптимальной остановки. Существование и единственность точек равновесия, Вероятн. проблемы управления в экономике, М.: Наука, 1977, 115−144.

33. Роббинс Г., Сигмуид Д., Чао И., Теория оптимальных правил остановки. М.: Наука, 1977.

34. Фрид Е. Б., Оптимальная остановка цепи Маркова двумя лицами с противоположными интересами, Теория вероятн. и ее примен., 1969, 14, в.4, с.746−749.

35. Хеннекен П., Тортра А., Теория вероятностей и некоторые ее приложения. М.: Наука, 1974. 472 с.

36. Ширяев А.II. Статистический последовательный анализ. М.: Наука, 1976, 272 с.

37. Элбакидзе Н. В., Построение цены и оптимальных политик в игровой задаче остановки льарковского процесса, Теория вероятн. и ее примен., 1976, 21, в.1, 164−169.

38. Alario-Lazaret, М., Lepeltier J.P., Marshal В., Dynkin Games, Stochastic Differential Systems (Bad Honnef), Lecture notes in Control and Information Sciences, Springer-Verlag, 1982, 43, 23−32.

39. Aumann, R.J., Mixed and behavioral strategies in infinite extensive games. in: Advances in Game Theory, Dresher M., Shapley L.S. and A.W.Tucker (eds), Annals of Mathematics Study 52 Princeton University Press, 1964.

40. Aumann, R.J., Maschler, M., Game Theoretic Aspects of Gradual Disarmament, Report of the US Arms Control and Disarmament Agency ST-80, Washington, D.C., 1966, V1-V55.

41. Aumann, R.J., Maschler, M., Repeated Games with Incomplete Information The MIT Press Cambridge, Massachusetts London, England, 1995.

42. Beckmann, M. JResource allocation over time, in: Mathematical Models in Economics. Amsterdam-London-N.Y.-Warszawa, 1974, 171−178.

43. Binmore K., Essays on the foundation of game theory. Basil Blackwell, Southhanpton, 1990.

44. Bismuth J.M., Sur un problem de Dynkin, ZAVarsch. V. Geb. 1977, 39, 31−53.

45. Brock, W.A., L.J. Mirman, Optimal economic grouth and uncertainty: the discounted case, Journal of Economic Theory, 1972, 4, 3, 479−513.

46. Brock, W.A., L.J. Mirman, Optimal economic grouth and uncertainty: the no discounted case, International Economic Review, 1973, 14, 3, 560−573.

47. De Meyer, B., Repeated Games and Multidimensional Normal Distribution, CORE Discussion Paper 8932, 1989.

48. De Meyer, B., Repeated Games and Partial Differential Equations, Mathematics of Operations Research, 1995, 21, 209−235.

49. De Meyer, B., Repeated Games, Duality and the Central Limit Theorem, Mathematics of Operations Research, 1995, 21, 236−251.

50. Domansky V., Dynamic stochastic games of resource allocation between production and consumption, International Game Theory Review, 1999, 1, No 2, 149−158.

51. Domansky V., Randomized optimal stopping rules for a class of stopping games, Game Theory and Applications, Huntington (N.Y.), 2001, 7, 33−43.

52. Domansky V., Asymptotics of solutions for Dynkin stopping games, Proceedings of the Tenth Symposium on Dynamic Games and Applications, St. Petersburg, 2002, 244−251. .

53. Domansky V., Dynkin games with randomized optimal stopping rules, Annals of International Dynamic Games Society, Birkhauser, 2003.

54. Domansky V., Kreps V., «Eventually revealing» repeated games xvith incomplete information, International Journal of Game Theory, 1994, 23, 89−99.

55. Domansky V., Kreps V., Repeated Garnes and Multinomial Distributions, ZOR Mathematishe Methods of Operations Research, 1995, 42, 275−293.

56. Domansky V., Kreps V., Repeated Games with Incomplete Information and Transportation Problems, Mathematishe Methods of Operations Research, 1999, 49, 263−289.

57. Domansky V., Kreps V., Social equilibria for competitive resource allocation models, Lecture Notes in Economics and Mathematical Systems, SpringerVerlag, 2002, 510, 408−419.

58. Ferenstein E.Z., A variation of Dynkin’s stopping game, Mathematica Japonica, 1993, 38, 2, 371−379.

59. Ferenstein E.Z., On some kind of Dynkin’s stopping game, Demonstratio Mathematica, 2001, 34, 1, 191−197.

60. Gale, D., An optimal development in a multisector economy, Review of Economic Studies, 1967, 34, 1−18.

61. Harsanyi J.C., Selten R.A., General Theory of Equilibrium Selection in Games. The MIT Press, Cambridge, Massachusetts, London England, 1989.

62. Heuer, M, Optimal Strategies for Uninformed Player, Internat. J. Game Theory, 1991,'*20, 33−51.

63. Irle A., Games of stopping with infinite horizon, ZOR Mathematical Methods of Operations Research, 1995, 42, 345−359.

64. Kuhn H.W., Extensive games and the problem of information, Contributions to the theory of games, Kuhn II.W., and A.W. Tucker (eds), Annals of Mathematics Study 28, Princeton University Press, 1953.

65. Lepeltier. J.P., Maingueneau M.A., Le jeu de Dynkin en theorie generale sans l’hypothese de Mokobodski, Stochastics, 1984, 13, 25−44.

66. Lucas, R.E. Jr., N.L. Stokey, Optimal grouth with many consumers, Journal of Economic Theory, 1984, 32, 139−171.

67. Mertens, J.F., Sorin, S., Zamir, S., Repeated Games, CORE Discussion Paper, 9420, 1994.

68. Mertens, J.F., Zamir, S., The Normal Distribution and Repeated Games, Internat. J. Game Theory, 1976, 5, 1S7−197.

69. Mertens, J.F., Zamir, S., Incomplete Information Games and the Normal Distribution, CORE Discussion Paper, 9520, 1990.

70. Mirman, L.J., Uncertainty and optimal consumption decisions, Economet-rica, 1971, 39- 179−186.

71. Mirman, L.J., The steady state behavior of a class of one-sector grouth models with uncertain technology, Journal of Economic Theory, 1973, 5, 6.

72. Nash J., Non-cooperative games, Ann. Math., 1951, 54, 286−295.

73. Neveu J., Discrete-Parameter Martingales, North-Holland, Amsterdam, 1975.

74. Nowak A.S., Szajovvski K., Nonzero-zum stochastic games, Annals of International Society of Dynamic Games, 1999, 4 297−343.

75. Ohtsubo Y., On a nonzero-sum extension of Dynkin’s stopping problem, Mathematics in Operation Research, 1987 12, 277−296.

76. Ohtsubo Y., On a discrete-time nonzero-sum Dynkin problem with monotonicity, J. Appl.Probab., 1991, 28, 466−472.

77. Parthasarathy T., Stern M., Markov games: A survey, A Chicago circle, Chicago: University of Illinois. 1976.

78. Phelps, E.S., The accumulation of risky capital: a sequential utility analysis, Econometrica, 1962', 30, 4, 729−743.

79. Ponssard J.-P., Sorin S., The LP Formulation of Finite Zero-Sum Games with Incomplete Information, Internat. J. Game Theory, 1980, 9, 99−105.

80. Ramsey, F., A mathematical theory of savings, Economic Journal, 1928, 38, 543−559.

81. Rosenberg D., Solan E. and Vieille V., Stopping games with randomized strategies, Preprint, Laboratoire d’Econometrie de l’ecole polytechnique, Paris, France, 2000.

82. Sakaguchi M., Sequential deception games, Math. Japonica, 1992, 37, N5, 813−826,.

83. Shapley L.S., Stochastic games, Proc. Nat. Acad.Sci. USA, 1953, 39, 1095−1100.

84. Stettner L., On general zero-sum stochastic games with optimal stopping, Prob. and Math. Stat., 1982, 3, 103−112.

85. Stokey, N.L., R.E. Lucas, Jr., em Recursive methods in economic dynamics. Harvard University Press, 1989.

86. Yushkevich A.A., Optimal switching. problem for countable Markov chain: average reward criterion, Mathematishe Methods of Operations Research, 2001, 53, 1−64.

87. Yushkevich A.A., Gordienko E.I., Average optimal switching of a Markov chain with a Dorel state space, Mathematishe Methods of Operations Research, 2002, 55, 143−159.

88. Zamir, S., On the relation between finitely and infinitely repeated games with incomplete information, Internat. J. Game Theory, 1972, 1, 179−198.

Показать весь текст
Заполнить форму текущей работой