Алгоритмы обучения искусственных НС

РефератПомощь в написанииУзнать стоимостьмоей работы

В сети Кохонена используется только положительный стимулирующий эффект, действующий в окрестности выигравшего нейрона. Этим достигается возможность уже на первых шагах обучения выявить группы нейронов, отображающих топологическую карту взаимосвязи входных векторов. С каждой новой итерацией скорость обучения и размер окрестности r уменьшаются, тем самым внутри участков топологической карты… Читать ещё >

Алгоритмы обучения искусственных НС (реферат, курсовая, диплом, контрольная)

Обучение без учителя Правило Хебба Правило Хебба. Вес пластического синапса должен определяться степенью корреляции между активностями преи постсинаптического нейронов (корреляционный алгоритм). Для дискретного времени оно выглядит так:

(4.8).

где w_ij(t) — текущее значение синаптического веса; a_i(t) и a_j(t) — активности пости пресинаптического нейронов; _i, _j (этта) — некоторые постоянны числа, обеспечивающие смещение средней величины синаптического веса; c (t) — управляющий сигнал, разрешающий или запрещающий обучение сети или контролирующий его скорость. Если сигнал c (t) — бинарный, то он переводит сеть из режима записи в режим воспроизведения и наоборот.

Правило Кохонена Обучение осуществляется без учителя по принципу «победитель забирает все», т. е. для заданного входного образа активизируется лишь один нейрон. Такие методы относятся к обучению методом соревнования. Вследствие этого нейронные сети Кохонена используют для решения задач классификации входных образов (разбиения на классы).

Эффект этого правила достигается за счет такого изменения сохраненного в сети образца (вектора весов связей победившего нейрона), при котором он становится чуть ближе к входному примеру.

Правило Кохонена. Вектор весов входных синапсов нейрона стремиться стать равным тому вектору активности пресинаптических нейронов, который наиболее интенсивно этот нейрон возбуждает.

. (4.12).

В соответствии с данным алгоритмом коррекция вектора весов нейрона-победителя осуществляется в направлении, уменьшающем разность между этим вектором и вектором входного образа A_i. в процессе обучения происходит вращение n-мерного вектора весовых коэффициентов нейрона i W_i=[w_1i,…, w_ni] в направлении входного вектора A_i без существенного изменения его длинны.

Существуют различные модификации правила Кохонена.

1. Если нейрон слоя чаще других выигрывает «соревнование», то его значение выхода искусственно уменьшается или нейрон тормозиться, чтобы дать возможность выиграть другим нейронам.
2. Метод окрестности R. После выбора из слоя n нейрона i с минимальным расстоянием D_i обучается не только этот нейрон, но и его соседи, расположенные в окрестности R. Величина R на первых итерациях очень большая, так что обучаются все нейроны, но с течением времени она уменьшается до нуля. Таким образом, чем ближе конец обучения, тем точнее определяется группа нейронов, отвечающих каждому классу образов.

Механизм латерального торможения в нейрофизиологии был детально исследован применительно к сенсорным системам и, в частности к зрению, где он использовался для повышения контрастности. Исследования показали, что возбуждающий входной сигнал приводит к уменьшению активности соседних клеток в коре головного мозга. Этот эффект в биологических системах проявляет свое действие на расстоянии 100…200 мкм от точки возбуждения или стимуляции, причем в области стимуляции R это действие положительное, а за пределами области — отрицательное. На более далеких расстояниях (свыше 1 мм) от точки возбуждения снова существует небольшой положительный (стимулирующий) эффект, обусловленный подкорковыми межнейронными связями.

Обучение с учителем Дельта-правило.

Дельта-правило. Стимулом для обучения является рассогласование между некоторым заданным обучающим сигналом и текущей активностью постсинаптического нейрона a_i

. (4.15).

Дельта-правило в виде конечно-разностного уравнения записывается следующим образом.

(4.16).

где _i(t) — ошибка выхода i-го нейрона (постсинаптического), равная разности между i-ой компонентой k-го целевого вектора из множества D и активностью i-го нейрона.

Очевидно, что если >a_i(t), весовые коэффициенты будут увеличены и тем самым уменьшат ошибку. В противном случае они уменьшаться и активность нейрона тоже уменьшиться, приближаясь к компоненте целевого вектора.

Правило обратного распространения ошибки Если сеть является многослойной, то ошибку для скрытых слоев невозможно задать в явном виде. В этом случае для расчета величины рассогласования используется обобщение Дельта-правила — правило обратного распространения ошибки (Вр-алгоритм). На авторство этого алгоритма претендуют трое ученых: Румелхарт (1986), Паркер (1982), Вербос (1974).

В Вр-алгоритме используются два уравнения для вычисления величины коррекции весов.

Если i-ый нейрон (постсинаптический) является выходным, то используется измененное Дельта-правило с иным методом вычисления ошибки.

. (4.21).

Если нейрон является скрытым Дельта-правило преобразуется к следующему виду.

(4.22).

где _p(t) — ошибка для p-го нейрона следующего слоя; w_pi — вес синаптической связи от i-го нейрона к p-му нейрону следующего слоя. Корректировка пороговых величин нейронов выполняется также в обратном направлении.

. (4.23).

Здесь также величина ошибки вычисляется исходя из того, в каком слое находится нейрон.

Конечно-разностное уравнение Вр-алгоритма совпадает с соответствующим уравнением Дельта-правила (4.16) за исключением метода расчета ошибки.

Недостатки Вр-алгоритма.

1. Паралич сети (блокировка обучения).
2. Попадание сети в локальные минимумы.
3. Переобучение.
4. Медленная сходимость процесса обучения.

Модификации Вр-алгоритма.

1. Импульсный метод экспоненциального сглаживания.

Для придания процессу коррекции весов некоторой инерционности Вр-алгоритм дополняется значением изменения веса на предыдущей итерации.

(4.24).

где — коэффициент инерционности (сглаживания), устанавливается от 0 до 1 (обычно около 0,9). Если равен 1, то новая коррекция игнорируется и повторяется предыдущая.

2. Квадратичный метод (квазиньютоновский метод и метод сопряженных градиентов).

Разработан метод ускорения обучения, основанный на вычислении вторых производных для более точной оценки требуемой коррекции весов (Паркер, 1987 г.).

3. Использование симметричного диапазона изменения весов.

Симметричный диапазон изменения весов и сигналов в сети (например, от -1 до 1) дает прирост скорости обучения на 30−50% (Сторнетта, Хьюберман, 1987 г.). Функция активации при этом должна быть симметричной (например, гиперболический тангенс). Когда выходное значение a_j^(n-1) стремится к нулю, эффективность обучения заметно снижается. При двоичных входных векторах половина входов в среднем будет равна нулю, и веса, с которыми они связаны, не будут обучаться, поэтому область возможных значений выходов нейронов [0,1] желательно сдвинуть в пределы [-0.5,+0.5], что достигается простыми модификациями логистических функций. Например, сигмоидальная функция преобразуется к виду.

. (4.25).

4. Использование различных функций вычисления ошибок (для ускорения процесса обучения):

интегральные функции ошибки по всей совокупности обучающих примеров;

функции ошибки целых и дробных степеней.

5. Использование различных процедур определения величины шага (скорости обучения) на каждой итерации:

расписание обучения (с=с (t));

скорость обучения выбирают различной для каждого слоя;

дихотомия;

инерционные соотношения для предотвращения блокировки сети, например,.

(4.26).

где <1 — некоторое положительное число, меньше единицы;

отжиг.

6. Использование различных процедур определения направления шага:

с использованием матрицы производных второго порядка (метод Ньютона и др.);

с использованием направлений на нескольких шагах.

Алгоритм обучения НС с помощью процедуры обратного распространения следующий (при условии, что ошибка вычисляется по единичным примерам).

1. На стации инициализации всем весовым коэффициентам и пороговым значениям присваиваются небольшие случайные значения.
2. На входы сети подается очередной входной образ из ОВ.
3. Сигналы возбуждения распространяются по всем слоям сети в прямом направлении. В процессе прохождения сигнала вычисляются значения активностей постсинаптических нейронов.
4. Вычисляется ошибка сети и значения приращения весовых коэффициентов для всех синаптических связей выходного слоя сети.
5. Корректируются весовые коэффициенты нейронов выходного слоя сети.
6. Выполняется переход к предыдущему слою. Вычисляются значения приращения весов для всех синаптических связей текущего слоя сети (обратное распространение ошибки).
7. Корректируются весовые коэффициенты нейронов текущего скрытого слоя сети.
8. Шаги 6−7 повторяются, пока не будут пройдены все слои НС. Аналогичные вычисления выполняются и для пороговых значений.
9. Шаги 2−9 повторяются для всех примеров ОВ.
10. Рассчитывается суммарная ошибка сети.
11. Если вычисленная ошибка существенна, перейти на шаг 2. В противном случае — конец.

Стохастические алгоритмы Суть стохастического подхода заключается в изменении весовых коэффициентов сети случайным образом и сохранении тех изменений, которые ведут к уменьшению заданной целевой функции. Под целевой функцией в данном случае понимается величина Е (w)_k для k-го входного образа.

. (4.27).

В начале обучения производятся достаточно большие случайные коррекции веса, которые затем постепенно уменьшаются. При этом для исключения «зависания» алгоритма в локальных минимумах должны сохранятся не только те изменения синаптической карты, которые ведут к уменьшению целевой функции, но также изредка и изменения, приводящие к ее увеличению. Такое обучение позволяет сети, в конце концов, стабилизироваться в близи глобального минимума.

Стратегия изменения синаптической карты строится на аналогии с физическими процессами, происходящими при отжиге металла. В расплавленном металле атомы находятся в беспорядочном движении. При понижении температуры атомы стремятся к состоянию энергетического минимума (кристаллизации), т. е., к глобальному минимуму.

Энергетическое состояние НС описывается распределением Больцмана.

(4.28).

где P (E) — плотность распределения энергии сети Е (вероятность того, что система находится в состоянии с энергией Е); k — постоянная Больцмана (выбирается в зависимости от задачи); Т — искусственная температура.

Машина Больцмана Нейронная сеть называется машиной Больцмана, если она основана на принципах стохастического обучения и скорость изменения искусственной температуры обратно пропорциональна логарифму времени.

(4.29).

где T (t) — искусственная температура на шаге t алгоритма; Т₀ — начальная температура.

Величина случайного шага для машины Больцмана задается распределением Гаусса.

(4.30).

где Р (с) — плотность распределения вероятности величины шага с (вероятность изменения веса на величину с); Т — искусственная температура.

Машина Больцмана характеризуется очень большим временем обучения.

В стохастических алгоритмах случайные изменения могут проводиться:

1) для отдельных весов;
2) всех нейронов слоя в многослойных сетях;
3) для всех нейронов сети одновременно.

Эти модификации алгоритма дают возможность сократить общее число итераций обучения.

Машина Коши Разработан метод быстрого обучения НС стохастическими алгоритмами, основанный на машине Больцмана. В данном методе при вычислении величины шага распределение Гаусса заменяется на распределение Коши.

. (4.32).

Распределение Коши имеет, как показано на рис. 4.14, более длинные «хвосты», увеличивая тем самым вероятность больших шагов. С помощью такого простого изменения максимальная скорость уменьшения температуры становится обратно пропорциональной линейной величине, а не логарифму, как для алгоритма обучения Больцмана.

. (4.33).

(4.34).

где — дополнительный коэффициент скорости обучения.

Значение шага обучения с в данном случае вычисляется методом Монте-Карло. На интервале (-/2, /2) (необходимо ограничить функцию тангенса) в соответствии с равномерным законом распределения выбирается случайное число с. Оно подставляется в формулу (4.34) в качестве Р©, и с помщью текущей температуры вычисляется величина шага.

Показать весь текст

Заполнить форму текущей работой