MyKod Информатика Лекции ТЕОРИЯ И ПРИЛОЖЕНИЯ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ

Авторизация







ТЕОРИЯ И ПРИЛОЖЕНИЯ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ
23.09.2009 12:34

ТЕОРИЯ И ПРИЛОЖЕНИЯ ИСКУССТВЕННЫХ НЕЙРОННЫХ СЕТЕЙ

ЛЕКЦИЯ 1. Вводная.

Введение в предмет Computational Neuroscience (вычислительная нейронаука). Истоки нейронауки: достижения биологии и физиологии, психологии, дискретная математики, кибернетики, статистической физики и синергетики. Роль компьютерного моделирования. Философские основания нейронауки. Исторический обзор. Структура курса. Учебная и ознакомительная литература."Подмигните компьютеру - он поймет". Под таким заголовком в старейшей уважаемой газете Нью-Йорк Таймс появилась статья, рассказывающая о современных достижениях и направлениях в области интеллектуальных компьютерных систем. Среди магистральных путей развития данной отрасли эксперты издания видят компьютеры с высокой степенью параллелизма обработки информации, которые могут разделить ту или иную задачу на части и обрабатывать их одновременно, тем самым значительно сокращая общее время вычислений; компьютеры, в которых вместо электронных сигналов для передачи информации используется оптика. Оптические сигналы уже начали использоваться для передачи данных между компьютерами; компьютеры с нейронными сетями, представляющие собой машины, работающие аналогично тому, как по нашим современным представлениям, функционирует мозг. Последнее, третье, направление, которое существенно опирается на первые два, и составляет основную тему предлагаемого курса лекций.Разнообразие, большой об'ем и противоречивость различной диагностической информации выводят на передний план проблему поиска физических систем, способных к ее переработке. Решение этой комплексной задачи тесно связано с новыми информационными технологиями, важное место среди которых занимают методы распознавания и категоризации образов. Нейронные сети - мощный и на сегодня, пожалуй, наилучший метод для решения задач распознавания образов в ситуациях, когда в экспериментальных данных отсутствуют значительные фрагменты информации, а имеющаяся информация предельно зашумлена. Высокая степень параллельности, допускаемая при реализации нейросистем, обеспечивает обработку недоступных оператору об'емов информации за времена, меньшие или сравнимые с допустимыми временами измерений.К рубежу 80-х годов были достигнуты значительные результаты в совсем молодой синергетике, науке о самоорганизации в неравновесных системах; систематизированы факты и проведены многочисленные новые эксперименты в нейрофизиологии, в частности, подробно изучено строение и механизм действия отдельных нейронов; сформулирован принцип работы и создана первая ЭВМ с параллельной архитектурой. Эти обстоятельства, по-видимому, стимулировали начало интенсивных исследований нейронных сетей, как моделей ассоциативной памяти. Широкий интерес к нейронным сетям был инициирован после появления работы Хопфилда (Hopfield, 1982), который показал, что задача с изинговскими нейронами может быть сведена к обобщениям ряда моделей, разработанных к тому моменту в физике неупорядоченных систем.Работа сети Хопфилда ( наиболее подробно обсуждаемая в литературе ) состоит в релаксации начального "спинового портрета" к одному из стационарных состояний, определяемых правилом обучения (правилом Хебба). Таким образом, данная сеть может применяться для задач распознавания. Многообразие предлагаемых алгоритмов, характеризующихся различной степенью детальности проработки, возможностями их параллельной реализации, а также наличием аппаратной реализации, приводит к особой актуальности исследования по сравнительным характеристикам различных методик.Необходимость написания систематического курса по теории нейронных сетей и вычислительным системам на их основе во многом определяется отсутствием отечественных учебных монографий по этой теме. Кроме того, сама эта тема пока не заняла свое место в традиционных курсах университетов и ВУЗов. И хотя промышленные эксперты американского Управления перспективных исследований DARPA ожидают начало массового распространения новой нейросетевой технологии в конце 90-х годов, уже сегодняшний уровень теоретического понимания и практического использования нейронных сетей в мировой информационной индустрии все явственнее требует профессиональных знаний в этой области.Главной задачей предлагаемого курса является практическое введение в современные методы и системы обработки информации, об'единенные в научной литературе термином Computational Neuros­cience (вычислительная нейро-наука), а также введение в перспективные подходы построения вычислительных и информационных систем новых поколений. Особенностью рассматриваемой нами темы является ее междисциплинарный характер. Свой вклад в становление нейронауки внесли биологияи физиология высшей нервной деятельности, психология восприятия, дискретная математика, статистическая физика и синергетика, и, конечно, кибернетика. Новые горизонты нейронауки стали открываться с широким использованием компьютерного моделирования.Лекции содержат основную информацию о принципах организации естественных (биологических) нейронных сетей и их математических моделей - искусственных нейронных сетей, необходимую для синтеза нейросетевых алгоритмов для практических задач. Для этой цели в книгу включены две вводные темы - математическое введение (лекция 2) и вводные биологические сведения (лекция 3). Формальное математическое наполнение курса сведено к минимуму и опирается на базовые знания по курсам линейной алгебры и дифференциальных уравнений. Основные разделы курса: Введение, сведения из биологии, физиологии высшей нервной деятельности, психологии, кибернетики, статистической физики и дискретной математики;Биологический нейрон и его математическая модель;ПЕРСЕПТРОН и теорема Розенблатта об обучении; Обучение как задача комбинаторной оптимизации; Правило Хебба, модель Хопфилда и ее обобщения;Иерархические нейронные сети; Алгоритм обратного распространения ошибок; Модели Липпмана-Хемминга, Хехт-Нильсена, Коско; Способы представления информации в нейронных сетях; Современные нейросетевые архитектуры, КОГНИТРОН и НЕОКОГНИТРОН Фукушимы;Теория адаптивного резонанса; Алгоритмы генетического поиска;Адаптивный кластерный анализ и карта самоорганизации Кохонена; Конечные автоматы и нейронные сети;Заключение - современные день нейронауки, нейро-ЭВМ шестого поколения, нейропроцессоры, математическое обеспечение, научные и коммерческие приложения. Нейронаука в современный момент переживает период перехода от юного состояния к зрелости. Развитие в области теории и приложений нейронных сетей идет в самых разных направлениях: идут поиски новых нелинейных элементов, которые могли бы реализовывать сложное коллективное поведение в ансамбле нейронов, предлагаются новые архитектуры нейронных сетей, идет поиск областей приложения нейронных сетей в системах обработки изображений, распознавания образов и речи, робототехники и др. Значительное место в данных исследованиях традиционно занимает математическое моделирование. ЛИТЕРАТУРА. А. Основная1. Ф. Уоссермен. Нейрокомпьютерная техника. М.Мир, 1992.2. Т. Кохонен. Ассоциативная память. М.Мир, 1980. Б. Дополнительная. 3. Ф.Розенблатт. Принципы нейродинамики. М. Мир, 1965.4. Автоматы. Под. ред. К.Э. Шеннона и Дж. Маккарти. М. Изд. Иностр. Литер., 1956.5. Д. Марр. Зрение. М. Радио и Связь, 1987.6. М.Минский, С.Пейперт. Персептроны. М. Мир, 1971.7. А.Ю. Лоскутов, А.С. Михайлов. Введение в синергетику. М. Наука, 1990.8. С.О. Мкртчян. Нейроны и нейронные сети. М.Энергия, 1971.9. А.Н. Горбань, Д.А. Россиев. Нейронные сети на персональном компьютере. Новосибирск: Наука, 1996.

ЛЕКЦИЯ 2. Сведения из высшей математики.

Векторное пространство. Базис. Ортогональные проекции. Гиперсферы и гиперповерхности. Матрицы. Линейные преобразования. Традиционно используемым для описания нейронных сетей математическим языком является аппарат векторной и матричной алгебры. Для максимального упрощения изложения ограничивая набор общематематических сведений только этим аппаратом, хотелось бы подчеркнуть, что в современной нейронауке широко используются и другие разделы математики[1]. Изложенный в этой лекции материал носит справочный характер и не претендует на полноту. Исчерпывающие сведения по теории можно найти в книге Гантмахера[2], а также в стандартных курсах линейной алгебры и аналитической геометрии.

Векторные пространства.

Основным структурным элементом в описании способов обработки информации нейронной сетью является вектор - упорядоченный набор компонент, каждая из которых представляется числовым значением. В дальнейшем вектора будут обозначаться латинскими буквами (a,b,c,x), а скаляры - числа - греческими буквами(,,,). Для обозначения матриц будут применяться заглавные латинские буквы. В зависимости от особенностей рассматриваемой задачи компоненты вектора могут быть действительными числами, целыми числами (например, для обозначения градаций яркости изображения), а также булевыми числами "ноль-один" или "минус один - один". Компоненты вектора x = (x1,x2,x3,...,xn) являются его координатами в n-мерном пространстве. В случае действительных компонент это пространство обозначается, как Rn и включает в себя набор всех возможных совокупностей из n действительных чисел. Говорят, что вектор x принадлежит пространству Rn (или xRn). В дальнейшем, если нам потребуется набор векторов, мы будем нумеровать их верхними индексами, чтобы не путать с нумерацией компонент: {x1,x2,x3,..,xm}.В нашем рассмотрении мы не будем делать разницы в понятиях вектор (совокупность компонент) и образ (совокупность черт или признаков образа). Способы выбора совокупности признаков и формирования информационного вектора определяются конкретными приложениями.Рис. 2.1. Примеры векторов: а) булевый вектор с 25 компонентами, нумеруемыми по строкам, б) действительный вектор из пространства R4 .Пространство векторов с действительными компонентами называется линейным векторным пространством V, если для его элементов определены операции векторного сложения "+" и умножения на скаляр ".", удовлетворяющие перечисленным ниже соотношениям (здесь x,y,z V - вектора, а , R - скаляры): 1) x+y=y+x V 2) .(x+y)=.x+.y V 3) (+).x=.x+.x V4) (x+y)+z=x+(y+z) V5) (.).x=.(.x) V6) oV: xV o+x=x (существует нулевой элемент)7) для скаляров 0 и 1, xV : 0.x=o, 1.x=x Свойство 1) называют свойством коомутативности, соотношения 2) и 3) - свойством дистрибутивности, а 4) и 5) - свойством ассоциативности введенных операций. Примером линейного векторного пространства является пространство Rn с покомпонентными операциями сложения и умножения.Для двух элементов векторного пространства может быть определено скалярное (внутреннее) произведение: (x,y)=x1y1+x2y2+...+xnyn. Скалярное произведение также обладает свойствами коммутативности и дистрибутивности: 1) (x,y) = (y,x)2) (x,y) = (x,y)3) (x+y,z) = (x,z) + (y,z)4) (x,x) 0, причем (x,x) = 0 x o Равенство нулю скалярного произведения двух векторов означает их взаимную ортогональность.Два различных образа (или вектора) могут быть в той или иной мере похожи друг на друга. Для математического описания степени сходства векторное пространство может быть снабжено скалярной метрикой - расстоянием d(x,y) между всякими двумя векторами x и y. Пространства, обладающие метрикой называют метрическими. Для метрики должны выполняться условия неотрицательности, коммутативности, а также неравенство треугольника: 1) d(x,y) 0, причем d(x,y)=0 x=y2) d(x,y) = d(y,x)3) d(x,z) d(x,y) + d(y,z). В дальнейшем изложении будут в основном использоваться две метрики - Евклидово расстояние и метрика Хемминга. Евклидова метрика для прямоугольной системы координат определяется формулой:Хеммингово расстояние dH используется обычно для булевых векторов (компоненты которых равны 0 или 1), и равно числу различающихся в обоих векторах компонент. Для векторов вводится понятие нормы - длины ||x|| вектора x. Пространство в котором определена норма векторов называется нормированным. Норма должна обладать следующими свойствами: 1) ||x|| 0, причем ||x|| = 0 x = o2) ||x|| = || ||x||3) ||x + y|| ||x|| + ||y|| Пространства с Евклидовыми метрикой и нормой называют Евклидовым пространством. Для образов, состоящих из действительных признаков мы будем в дальнейшем иметь дело именно с Евклидовым пространством. В случае булевых векторов размерности n рассматриваемое пространство представляет собой множество вершин n-мерного гиперкуба с Хемминговой метрикой. Расстояние между двумя вершинами определяется длиной кратчайшего соединяющего их пути, измеренной вдоль ребер.Важным для нейросетевых приложений случаем является множество векторов, компоненты которых являются действительными числами, принадлежащими отрезку [0,1]. Множество таких векторов не является линейным векторным пространством, так как их сумма может иметь компоненты вне рассматриваемого отрезка. Однако для пары таких векторов сохраняются понятия скалярного произведения и Евклидового расстояния.Вторым интересным примером, важным с практической точки зрения, является множество векторов одинаковой длины (равной, например, единице). Образно говоря, кончики этих векторов принадлежат гиперсфере единичного радиуса в n-мерном пространстве. Гиперсфера также не является линейным пространством (в частности, отсутствует нулевой элемент). Для заданной совокупности признаков, определяющих пространство векторов, может быть сформирован такой минимальный набор векторов, в разной обладающих эти признаками, что на его основе, линейно комбинируя вектора этого набора, можно сформировать все возможные иные вектора. Такой набор называется базисом пространства. Рассмотрим это важное понятие подробнее.Вектора x1,x2,x3,..,xm считаются линейно независимыми, если их произвольная линейная комбинация 1x1+2x2+3x3+..+mxm не обращается в ноль, если только все константы 1 ... m не обращаются одновременно в ноль. Базис может состоять из любой комбинации из n линейно независимых векторов, где n - размерность пространства. Выберем некоторую систему линейно независимых векторов x1, x2,..,xm, где m n. Все возможные линейные комбинации этих векторов сформируют линейное пространство размерности m, которое будет являться подпространством (линейной оболочкой L) исходного n-мерного пространства. Выбранная базовая система из m векторов является, очевидно, базисом в полученном подпространстве L. Важным частным случаем линейной оболочки является подпространство размерности на единицу меньшей, чем размерность исходного пространства (m=n-1), называемое гиперплоскостью. В случае трехмерного пространства это обычная плоскость. Гиперплоскость делит пространство на две половины. Совокупность гиперплоскостей разбивает пространство на несколько множеств, каждое из которых содержит вектора с близким набором признаков, тем самым осуществляется классификация векторов. Для двух подпространств может быть введено понятие их взаимной ортогональности. Два подпространства L1 и L2 называются взаимно ортогональными, если всякий элемент одного подпространства ортогонален каждому элементу второго подпространства. Произвольно выбранные линейно независимые вектора необязательно являются взаимно ортогональными. Однако в ряде приложений удобно работать с ортогональными системами. Для этого исходные вектора требуется ортогонализовать. Классический процесс ортогонализации Грамма-Шмидта состоит в следующем: по системе линейно независимых ненулевых векторов x1, x2, ... , xm рекуррентно строится система ортогональных векторов h1, h2, ... , hm. В качестве первого вектора h1 выбирается исходный вектор x1. Каждый следующий (i-ый) вектор делается ортогональным всем предыдущим, для чего из него вычитются его проекции на все предыдущие вектора:При этом, если какой-либо из получившихся векторов hi оказывается равным нулю, он отбрасывается. Можно показать, что, по построению, полученная система векторов оказывается ортогональной, т.е. каждый вектор содержит только уникальные для него признаки.Далее будут представлены теоретические аспекты линелинейных преобразований на векторами-образами.

Матрицы и линейные преобразования векторов.

Равно тому, как был рассмотрен вектор - объект, определяемый одним индексом (номером компоненты или признака), может быть введен и объект с двумя индексами, матрица. Эти два индекса определяют компоненты матрицы Aij, располагаемые по строкам и столбцам, причем первый индекс (i) определяет номер строки, а второй (j) - номер столбца. Интересно отметить, что изображение на рисунке 2.1.а) может трактоваться и как вектор с 25 компонентами, и как матрица с пятью строками и пятью столбцами.Суммой двух матриц A и B одинаковой размерности (nm) является матрица С той же размерности с компонентами, равными сумме соответствующих компонент исходных матриц: Cij=Aij+Bij. Матрицу можно умножить на скаляр, при этом в результате получается матрица той же размерности, каждая компонента которой умножена на этот скаляр. Произведением двух матриц A (nl) и B (lm) также является матрица C (nm), компоненты которой даются соотношением:Заметим, что размерности перемножаемых матриц должны быть согласованными - число столбцов первой матрицы должно равняться числу строк второй.В важном частном случае, когда второая матрица является вектором (т.е. матрицей с одной из размерностей, равной единице (m=1)), представленное правило определяет способ умножения матрицы на вектор:В результате умножения получается также вектор с, причем для квадратной матрицы A (ll) его размерность равна размерности вектора-сомножителя b. При произвольном выборе квадратной матрицы A можно построить произвольное линейное преобразование y=T(x) одного вектора (x) в другой (y) той же размерности: y=Ax. Более точно, для того, чтобы преобразование T одного вектора в другой являлось линейным, необходимо и достаточно, чтобы для двух векторов x1 и x2 и чисел и выполнялось равенство: T(x1+x2)=T(x1)+T(x2). Можно показать, что всякому линейному преобразованию векторов соотвествует умножение исходного вектора на некоторую матрицу.Если в приведенной выше формуле для умножения матрицы A на вектор b компоненны этого вектора неизвестны, в то время, как A и результирующий вектор c известны, то о выражении Ab=c говорят, как о системе линейных алгебраических уравнений относительно компонент вектора b. Система имеет единственное решение, если вектора, определяемые строками квадратной матрицы A, являются линейно независимыми.Часто используемыми частными случаями матриц являются диагональные матрицы, у которых отличны от нуля только элементы главной диагонали. Диагональную матрицу, все ненулевые компоненты которой равны единице называют единичной матрицей I. Линейное преобразование, определяемое единичной матрицей, является тождественным: Ix=x для всякого вектора x. Для матриц определена, кроме операций умножения и сложения, также операция транспонирования. Транспонированная матрица AT получается из исходной матрицы A заменой строк на столбцы: (Aij)T=Aji. Матрицы, которые не изменяются при транспонировании (замене столбцов на строки), называют симметричными матрицами. Для компонент симметричной матрицы S имеет место соотношение Sij=Sji. Всякая диагональная матрица, очевидно, является симметричной.Пространство квадратных матриц одинаковой размерности с введенными операциями сложения и покомпонентного умножения на скаляр, является линейным пространством. Для него также можно ввести метрику и норму. Нулевым элементом служит матрица, все компоненты которой равны нулю.В заключении приведем некоторые тождества для операций над матрицами. Для всяких A,B и C и единичной матрицы I имеет место: 1) IA=AI=A2) (AB)C=A(BC)3) A(B+C)=AB+AC4) (AT)T=A5) (A+B)T=AT+BT6) (AB)T=BTAT Доказательство этих соотношений может служить полезным упражнением.

ЛЕКЦИЯ 3. Биологический нейрон и его кибернетическая модель.

Нейробиология. Биологический нейрон, его строение и функции. Об'единение нейронов в сети. Биологическая изменчивость и обучаемость нейронных сетей. Кибернетическая модель нейрона - формальный нейрон МакКаллока и Питса. Обучение нейрона задаче детектирования границы яркости.Эта лекция посвящена биологическим основаниям науки о вычислительных нейронных сетях. Также, как и в предыдущей лекции, изложение будет носить справочный характер, и предназначено для читателя, не имеющего специальных знаний по биологии. Более глубокие профессиональные сведения можно найти в относительно недавно переведенной книге Н.Грина, У. Стаута и Д.Тейлора, а также в монографии Г.Шеперда. Для ознакомительного чтения можно порекомендовать книгу Ф.Блума, А.Лейзерсона и Л.Хофстедтера.На протяжении книги нашей основной целью будет исследование методов и кибернетических систем, имитирующих функции мозга при решениии информационных задач. Такой путь разработки искусственных вычислительных систем во многом представляется естественным - высшие биологические организмы, и особенно человек, легко справляются с такими, крайне сложными при математическом рассмотрении проблемами, как, например, распознавание образов (зрительных, слуховых, сенсорных и других), память и устойчивое управление движением тела. Биологический фундамент при изучении этих функций является крайне важным, природное многобразие дает исключительно богатый исходный материал для направленного создания искусственных моделей. В завершении лекции будет представлена классическая кибернетическая модель нейрона - так называемый формальный нейрон Маккалока и Питтса. Некоторые свойства формального нейрона будут изучены на задаче детектирования границы перехода "черное-белое" в простом изображении.

Метод нейробиологии.

К предмету нейробилологии относится изучение нервной системы и ее главного органа - мозга. Принципиальным вопросом для этой науки является выяснение соотношения между строением нервной системы и ее функцией. При этом рассмотрение проводится на на нескольких уровнях: молекулярном, клеточном, на уровне отдельного органа, организма в целом, и далее на уровне социальной группы. Таким образом, классический нейробилогический подход состоит в последовательном продвижении от элементарных форм в направлении их усложнения.Для наших практических целей отправной точкой будет клеточный уровень. По современным представлениям, именно на нем совокупность элементарных молекулярных химико-биологических процессов, протекающих в отдельной клетке, формирует ее как элементарных процессор, способный к простейшей переработке информации.

Биологический нейрон.

Элементом клеточной структуры мозга является нервная клетка - нейрон. Нейрон в своем строении имеет много общих черт с другими клетками биоткани: тело нейрона окружено плазматической мембраной, внутри которой находится цитоплазма, ядро и другие составляющие клетки. Однако нервная клетка существенно отличается от иных по своему функциональному назначению. Нейрон выполняет прием, элементарное преобразование и дальнейшую передачу информации другим нейронам. Информация переносится в виде импульсов нервной активности, имеющих электрохимическую природу. Нейроны крайне разнообразны по форме, которая зависит от их местонахождения в нервной системе и особенностей фунционирования. На Рис. 3.1. приведена схема строения "типичного" нейрона. Тело клетки содержит множество ветвящихся отростков двух типов. Отростки первого типа, называемые дендритами за их сходство с кроной раскидистого дерева, служат в качестве входных каналов для нервных импульсов от других нейронов. Эти импульсы поступают в сому или тело клетки размером от 3 до 100 микрон, вызывая ее специфическое возбуждение, которое затем распространяется по выводному отростку второго типа - аксону. Длина аксонов обычно заметно превосходит размеры дентритов, в отдельных случаях достигая десятков сантиметров и даже метров. Гигантский аксон кальмара имеет толщину около миллиметра, и именно наблюдение за ним послужило выяснению механизма передачи нервных импульсов между нейронами. Тело нейрона, заполненное проводящим ионным раствором, окружено мембраной толщиной около 75 ангстрем, обладающей низкой проводимостью. Между внутреннней поверхностью мембраны аксона и внешней средой поддерживается разность электрических потенциалов. Это осуществляется при помощи молекулярного механизма ионных насосов, создающих различную концентрацию положительных ионов K+ и Na+ внутри и вне клетки. Проницаемость мембраны нейрона селективна для этих ионов. Внутри аксона клетки, находящейся в состоянии покоя, активный транспорт ионов стремится поддерживать концентрацию ионов калия более высокой, чем ионов натрия, тогда как в жидкости, окружающей аксон, выше оказывается концентрация ионов Na+. Пассивная диффузия более подвижных ионов калия приводит к их интенсивному выходу из клетки, что обуславливает ее общий отрицательный относительно внешней среды потенциал покоя, составляющий около -65 милливольт.Рис. 3.1.Общая схема строения биологического нейрона. Под воздействием стимулирующих сигналов от других нейронов мембрана аксона динамически изменяет свою проводимость. Это происходит, когда суммарный внутренний потенциал превышает пороговое значение масштаба -50 мв. Мембрана на короткое время, сотавляющее около 2 миллисекунд, изменяет свою полярность (деполяризуется) и достигает потенциала действия около +40 мв. На микроуровне это объясняется кратковременным повышением проницаемости мембраны для ионов Na+ и активным поступлением их в аксон. В дальнейшем, по мере выхода ионов калия, положительный заряд с внутренней стороны мембраны меняется на отрицательный, и наступает так называемый период рефрактерности, длящийся около 200 мс. В течении этого времени нейрон является полностью пассивным, практически неизменно сохраняя потенциал внутри аксона на уровне около -70 мв.Импульс деполяризации клеточной мембраны, называемый спайком, распространяется вдоль аксона практически без затухания, поддерживаясь локальными ионными градиентами. Скорость перемещения спайка является относительно невысокой и составляет от 100 до 1000 сантиметров в секунду.Возбуждение нейрона в виде спайка передается другим нейронам, которые таким образом объеденены в проводящую нервные импульсы сеть. Участки мембраны на аксоне, где размещаются области контакта аксона данного нейрона с дендритами другими нейронов, называются синапсами. В области синапса, имеющего сложное строение, происходит обмен информацией о возбуждении между нейронами. Механизмы синаптической передачи достаточно сложны и разнообразны. Они могут иметь химическую и электрическую природу. В химическом синапсе в передаче импульсов участвуют специфические химические вещества - нейромедиаторы, вызывающие изменения проницаемости локального участка мембраны. В зависимости от типа вырабатываемого медиатора синапс может обладать возбуждающим (эффективно проводящим возбуждение) или тормозящим действием. Обычно на всех отростках одного нейрона вырабатывается один и тот же медиатор, и поэтому нейрон в целом функционально является тормозящим или возбуждающим. Это важное наблюдение о наличии нейронов различных типов в последующих главах будет существенно использоваться при проектировании искуственных систем.

Нейронные сети.

Взаимодействующие между собой посредством передачи через отростки возбуждений нейроны формируют нейронные сети. Переход от рассмотрения отдельного нейрона к изучению нейронных сетей является естественным шагом в нейробиологической иерархии.Общее число нейронов в центральной нервной системе человека достигает 1010-1011, при этом каждая нервная клетка связана в среднем с 103-104 других нейронов. Установлено, что в головном мозге совокупность нейронов в объеме масштаба 1 мм3 формирует относительно независимую локальную сеть, несущую определенную функциональную нагрузку. Выделяют несколько (обычно три) основных типов нейронных сетей, отличающихся структурой и назначением. Первый тип составляют иерархические сети, часто встречающиеся в сенсорных и двигательных путях. Информация в таких сетях передается в процессе последовательного перехода от одного уровня иерархии к другому. Рис. 3.2.Структура простой рефлекторной нейронной сети. Нейроны образуют два характерных типа соединений - конвергентные, когда большое число нейронов одного уровня контактирует с меньшим числом нейронов следующего уровня, и дивергентные, в которых контакты устанавливаются со все большим числом клеток последующих слоев иерархии. Сочетание конвергентных и дивергентных соединений обеспечивает многократное дублирование информационных путей, что является решающим фактором надежности нейронной сети. При гибели части клеток, сохранившиеся нейроны оказываются в состоянии поддерживать функционирование сети. Ко второму типу нейронных сетей относятся локальные сети, формируемые нейронами с ограниченными сферами влияния. Нейроны локальных сетей производят переработку информации в пределах одного уровня иерархии. При этом функционально локальная сеть представляет собой относительно изолированную тормозящую или возбуждающую структуру. Важную роль также играют так называемые дивергентные сети с одним входом. Командный нейрон, находящийся в основании такой сети может оказывать влияние сразу на множество нейронов, и поэтому сети с одним входом выступают согласующим элементом в сложном сочетании нейросетевых систем всех типов. Рассмотрим схематически нейронную сеть, формирующую простой рефлекторную цепь с передачей возбуждения от раздражителя к двигательной мышце (Рис. 3.2).Сигнал внешнего раздражителя воспринимается сенсорными нейронами, связанными с чувствительными клетками-рецепторами. Сенсорные нейроны формируют первый (нижний) уровень иерархии. Выработанные ими сигналы передаются нейронам локальной сети, содержащим множество прямых и обратных связей с сочетанием дивергентных и конвергентных соединений. Характер преобразованного в локальных сетях сигнала определяет состояние возбуждения моторных нейронов. Эти нейроны, составляющие верхний в рассматриваемой сети уровень иерархии, образно говоря, "принимают решение", которое выражается в воздействии на клетки мышечной ткани посредством нервно-мышечных соединений.

Биологическая изменчивость и обучение нейронных сетей.

Структура основных типов нейронных сетей генетически предопределена. При этом исследования в области сравнительной нейроанатомии говорят о том, что по фундаментальному плану строения мозг очень мало изменился в процессе эволюции. Однако детерминированные нейронные структуры демонстрируют свойства изменчивости, обуславливающие их адаптацию к конкретным условиям функционирования.Генетическая предопределенность имеет место также и в отношении свойств отдельных нейронов, таких, например, как тип используемого нейромедиатора, форма и размер клетки. Изменчивость на клеточном уровне проявляется в пластичности синаптических контактов. Характер метаболической активности нейрона и свойства проницаемости синаптической мемраны могут меняться в ответ на длительную активизацию или торможение нейрона. Синаптический контакт "тренируется" в ответ на условия функционирования.Изменчивость на уровне сети связана со спецификой нейронов. Нервная ткань практически лишена характерной для других типов тканей способности к регенерации путем деления клеток. Однако нейроны демонстрируют способность к формированию новых отростков и новых синаптических контактов. Ряд экспериментов с преднамеренным повреждением нервных путей указывает, что развитие нейронных ответвлений сопровождается конкуренцией за обладание синаптическими участками. Это свойство в целом обеспечивает устойчивость функционирования нейронный сетей при относительной ненадежности их отдельных компонент - нейронов.Специфическая изменчивость нейронных сетей и свойств отдельных нейронов лежит в основе их способности к обучению - адаптации к условиям функционирования - при неизменности в целом их морфологической структуры. Следует заметить, однако, что рассмотрение изменчивости и обучаемости малых групп нейронов не позволяет в целом ответить на вопросы об обучаемости на уровне высших форм психической деятельности, связанных с интеллектом, абстрактным мышлением, речью. ________________________ Прежде чем перейти к рассмотрению моделей нейронов и искусственных нейронных сетей, сформулируем общие фактологические положения о биологических нейронных сетях.Основными действующими элементами нервной системы являются отдельные клетки, называемые нейронами. Они имеют ряд общих с клетками других типов черт, при этом сильно отличаясь от них по своей конфигурации и функциональному назначению. Активность нейронов при передаче и обработке нервных импульсов регулируется свойствами мембраны, которые могут меняться под воздействием синаптических медиаторов. Биологические функции нейрона могут меняться и адаптироваться к условиям функционирования. Нейроны объединяются в нейронные сети, основные типы которых, а также схемы проводящих путей мозга являются генетически запрограммированными. В процессе развития возможно локальное видоизменение нейронных сетей с формированием новых соединений между нейронами. Отметим также, что нервная система содержит помимо нейронов клетки других типов.

Формальный нейрон.

Исторически первой работой, заложившей теоретический фундамент для создания искусственных моделей нейронов и нейронных сетей, принято считать опубликованную в 1943 г. статью Уоррена С.Мак-каллока и Вальтера Питтса "Логическое исчислени идей, относящихся к нервной активности". Главный принцип теории Маккалока и Питтса заключается в том, что произвольные явления, относящиеся к высшей нервной деятельности, могут быть проанализированы и поняты, как некоторая активность в сети, состоящей из логических элементов, принимающих только два состояния ("все или ничего"). При этом для всякого логического выражения, удовлетворяющего указанным авторами условиям, может быть найдена сеть логических элементов, имеющая описываемое этим выражением поведение. Рис.4.1. Функциональная схема формального нейрона Маккалока и Пиитса.В качестве модели такого логического элемента, получившего в дальнейшем название "формальный нейрон", была предложена схема, приведенная на Рис. 4.1. С современной точки зрения, формальный нейрон представляет собой математическую модель простого процессора, имеющего несколько входов и один выход. Вектор входных сигналов (поступающих через "дендриды") преобразуется нейроном в выходной сигнал (распространяющийся по "аксону") с использованием трех функциональных блоков: локальной памяти, блока суммирования и блока нелинейного преобразования. Вектор локальной памяти содержит информацию о весовых множителях, с которыми входные сигналы будут интерпретироваться нейроном. Эти переменные веса являются аналогом чувствительности пластических синаптических контактов. Выбором весов достигается та или иная интегральная функция нейрона. В блоке суммирования происходит накопление общего входного сигнала (обычно обозначаемого символом net), равного взвешенной сумме входов:В модели Маккалока и Питтса отсутствуют временные задержки входных сигналов, поэтому значение net определяет полное внешненее возбуждение, воспринятое нейроном. Отклик нейрон далее описывается по принципу "все или ничего", т. е. переменная подвергается нелинейному пороговому преобразованию, при котором выход (состояние активации нейрона) Y устанавливается равным единице, если net>, и Y=0 в обратном случае. Значение порога (часто полагаемое равным нулю) также хранится в локальной памяти.Фомальные нейроны могут быть объединены в сети путем замыкания выходов одних нейронов на входы других, и по мысли авторов модели, такая кибернетическая система с надлежаще выбранными весами может представлять произвольную логическую функцию. Для теоретического описания получаемых нейронных сетей предлагался математический язык исчисления логических предикатов. Нужно отметить, что сегодня, спустя 50 лет после работы Маккалока и Питтса, исчерпывающей теории синтеза логических нейронных сетей с произвольной функцией, по-видимому, нет. Наиболее продвинутыми оказались исследования в области многослойных систем и сетей с симметричными связями. Большинство моделей опираются в своей основе на различных модификациях формального нейрона. Важным развитием теории формального нейрона является переход к аналоговым (непрерывным) сигналам, а также к различным типам нелинейных переходных функций. Опишем наиболее широко используемые типы переходных функций Y=f(net).1) Пороговая функция (рассмотренная Маккалоком и Питтсом):2) Линейная функция, а также ее вариант - линейная функция с погашением отрицательных сигналов:3) Сигмоидальная функция:Как указывалось С.Гроссбергом, сигмоидальная функция обладает избирательной чувствительностью к сигналам разной интенсивности, что соответсвует биологическим данным. Наибольшая чувствительность наблюдается вблизи порога, где малые изменения сигнала net приводят к ощутимым изменениям выхода. Напротив, к вариациям сигнала в областях значительно выше или ниже порогового уровня сигмоидальная функция не чувствительна, так как ее производная при больших и малых аргументах стремится к нулю.В последнее время также рассматриваются математические модели формальных нейронов, учитывающие нелинейные корреляции между входами. Для нейронов Маккалока и Питтса предложены электротехнические аналоги, позволяющие проводить прямое аппаратное моделирование.

Обучение нейрона детектированию границы "черное-белое"

Способность формального нейрона к обучению проявляется в возможности изменения значений вектора весов W, соответствующей пластичности синапсов биологических нейронов. Рассмотрим обучение формального нейрона на примере простейшей задачи детектирования границы. Пусть имеется образ, составленный из одномерной цепочки черных и белых клеток. Зачерненные клетки соответсвуют единичному сигналу, а белые клетки - нулевому. Сигнал на входах формального нейрона устанавливается равным значениям пар примыкающих клеток рассматриваемого образа. Нейрон обучается всякий раз возбуждаться и выдавать единичный выходной сигнал, если его первый вход (на Рис. 4.2. - левый) соединен с белой клеткой, а второй (правый) - с черной. Таким образом, нейрон должет служить детектором границы перехода от светлого к темному тону образа. Рис. 4.2. Формальный нейрон с двумя входами, занятый обработкой образа в виде одномерной цепочки черных и белых клеток. Функция, выполняемая нейроном, определяется следующей таблицей.

Вход 1

Вход 2

Требуемый выход

1

1

0

1

0

0

0

1

1

0

0

0

Для данной задачи значения весов и порога нейрона могут быть предъявлены и без специальной процедуры обучения. Легко убедиться, что нужным требованиям удовлетворяет набор =0, W1=-1, W2=+1. В случае задачи детектирования границы перехода от темного к светлому веса нужно поменять местами.В общем случае для подстройки весов при обучении нейрона разработаны различные алгоритмы, которые будут рассматриваться в применении к конкретным типам нейронных сетей, составленных из формальных нейронов.

ЛЕКЦИЯ 4. ПЕРСЕПТРОН Розенблатта.

Простейшая нейронная сеть - ПЕРСЕПТРОН Розенблатта. Линейная разделимость и теорема об обучении персептрона.В этой и последующих лекциях мы приступаем к непосредственному рассмотрению основных, описанных в литературе, моделей искусственных нейронных сетей и решаемых ими задач. Исходным будет изложение ПЕРСЕПТРОНА - первой нейросетевой парадигмы, доведенной до кибернетической реализации.

ПЕРСЕПТРОН Розенблатта.

Одной из первых искусственных сетей, способных к перцепции (восприятию) и формированию реакции на воспринятый стимул, явился PERCEPTRON Розенблатта (F.Rosenblatt, 1957). Персептрон рассматривался его автором не как конкретное техническое вычислительное устройство, а как модель работы мозга. Нужно заметить, что после нескольких десятилетий исследований современные работы по искусственным нейронным сетям редко преследуют такую цель.Рис. 4.1. Элементарный персептрон Розенблатта.Простейший классический персептрон содержит нейрободобные элементы трех типов (см. Рис. 4.1), назначение которых в целом соответствует нейронам рефлекторной нейронной сети, рассмотренной в предыдущей лекции. S-элементы формируют сетчатку сенсорных клеток, принимающих двоичные сигналы от внешнего мира. Далее сигналы поступают в слой ассоциативных или A-элементов (для упрощения изображения часть связей от входных S-клеток к A-клеткам не показана). Только ассоциативные элементы, представляющие собой формальные нейроны, выполняют нелинейную обработку информации и имеют изменяемые веса связей. R-элементы с фиксированными весами формируют сигнал реакции персептрона на входной стимул. Розенблатт называл такую нейронную сеть трехслойной, однако по современной терминологии, используемой в этой книге, представленная сеть обычно называется однослойной, так как имеет только один слой нейропроцессорных элементов. Однослойный персептрон характеризуется матрицей синаптических связей W от S- к A-элементам. Элемент матрицы отвечает связи, ведущей от i-го S-элемента к j-му A-элементу.В Корнельской авиационной лаборатории была разработана электротехническая модель персептрона MARK-1, которая содержала 8 выходных R-элементов и 512 A-элементов, которые можно было соединять в различных комбинациях. На этом персептроне была проведена серия экспериментов по распознаванию букв алфавита и геометрических образов.В работах Розенблатта был сделано заключение о том, что нейронная сеть рассмотренной архитектуры будет способна к воспроизведению любой логической функции, однако, как было показано позднее М.Минским и С.Пейпертом (M.Minsky, S.Papert, 1969), этот вывод оказался неточным. Были выявлены принципиальные неустранимые ограничения однослойных персептронов, и в последствии стал в основном рассматриваться многослойный вариант персептрона, в котором имеются несколько слоев процессорных элементов.С сегодняшних позиций однослойный персептрон представляет скорее исторический интерес, однако на его примере могут быть изучены основные понятия и простые алгоритмы обучения нейронных сетей.

Теорема об обучении персептрона.

Обучение сети состоит в подстройке весовых коэффициентов каждого нейрона. Пусть имеется набор пар векторов (x,y), =1..p, называемый обучающей выборкой. Будем называть нейронную сеть обученной на данной обучающей выборке, если при подаче на входы сети каждого вектора x на выходах всякий раз получается соответсвующий вектор y.. Предложенный Ф.Розенблаттом метод обучения состоит в итерационной подстройке матрицы весов, последовательно уменьшающей ошибку в выходных векторах. Алгоритм включает несколько шагов:

Шаг 0.

Начальные значения весов всех нейронов полагаются случайными.

Шаг 1.

Сети предъявляется входной образ x, в результате формируется выходной образ

Шаг 2.

Вычисляется вектор ошибки , делаемой сетью на выходе. Дальнейшая идея состоит в том, что изменение вектора весовых коэффициентов в области малых ошибок должно быть пропорционально ошибке на выходе, и равно нулю если ошибка равна нулю.

Шаг 3.

Вектор весов модифицируется по следующей формуле: . Здесь - темп обучения.

Шаг 4.

Шаги 1-3 повторяются для всех обучающих векторов. Один цикл последовательного предъявления всей выборки называется эпохой. Обучение завершается по истечении нескольких эпох, а) когда итерации сойдутся, т.е. вектор весов перестает измеяться, или б) когда полная просуммированная по всем векторам абсолютная ошибка станет меньше некоторого малого значения.

Используемая на шаге 3 формула учитывает следующие обстоятельства: а) модифицируются только компоненты матрицы весов, отвечающие ненулевым значениям входов; б) знак приращения веса соответствует знаку ошибки, т.е. положительная ощибка (d>0, значение выхода меньше требуемого) проводит к усилению связи; в) обучение каждого нейрона происходит независимо от обучения остальных нейронов, что соответсвует важному с биологической точки зрения, принципу локальности обучения.Данный метод обучения был назван Ф.Розенблаттом “методом коррекции с обратной передачей сигнала ошибки”. Позднее более широко стало известно название “d-правило”. Представленный алгоритм относится к широкому классу алгоритмов обучения с учителем, поскольку известны как входные вектора, так и требуемые значения выходных векторов (имеется учитель, способный оценить правильность ответа ученика).Доказанная Розенблаттом теорема о сходимости обучения по d-правилу говорит о том, что персептрон способен обучится любому обучающему набору, который он способен представить. Ниже мы более подробно обсудим возможности персептрона по представлению информации.

Линейная разделимость и персептронная представляемость

Каждый нейрон персептрона является формальным пороговым элементом, принимающим единичные значения в случае, если суммарный взвешенный вход больше некоторого порогового значения:Таким образом, при заданных значениях весов и порогов, нейрон имеет определенное значение выходной активности для каждого возможного вектора входов. Множество входных векторов, при которых нейрон активен (y=1), отделено от множества векторов, на которых нейрон пассивен (y=0) гиперплоскостью, уравнение которой есть, суть:Следовательно, нейрон способен отделить (иметь различный выход) только такие два множества векторов входов, для которых имеется гиперплоскость, отсекающая одно множество от другого. Такие множества называют линейно разделимыми. Проиллюстрируем это понятие на примере.Пусть имеется нейрон, для которого входной вектор содержит только две булевые компоненты , определяющие плоскость. На данной плоскости возможные значения векторов отвечают вершинам единичного квадрата. В каждой вершине определено требуемое значение активности нейрона 0 (на рис. 4.2 - белая точка) или 1 (черная точка). Требуется определить, существует ли такое такой набор весов и порогов нейрона, при котором этот нейрон сможет отделить точки разного цвета?На рис 4.2 представлена одна из ситуаций, когда этого сделать нельзя вследствие линейной неразделимости множеств белых и черных точек. Рис. 4.2. Белые точки не могут быть отделены одной прямой от черных.Требуемая активность нейрона для этого рисунка определяется таблицей, в которой не трудно узнать задание логической функции “ислючающее или”.

X1

X2

Y

0

0

0

1

0

1

0

1

1

1

1

0

Линейная неразделимость множест аргументов, отвечающих различным значениям функции означает, что функция “ислючающее или”, столь широко использующаяся в логических устройствах, не может быть представлена формальным нейроном.Столь скромные возможности нейрона и послужили основой для критики персептронного направления Ф.Розенблатта со стороны М.Минского и С.Пейперта.При возрастании числа аргументов ситуация еще более катастрофична: относительное число функций, которые обладают свойством линейной разделимости резко уменьшается. А значит и резко сужается класс функций, который может быть реализован персептроном (так называемый класс функций, обладающий свойством персептронной представляемости). Соотвествующие данные приведены в следующей таблице:

Число переменныхN

Полное число возможных логических функций

Из них линейно разделимыхфункций

1

4

4

2

16

14

3

256

104

4

65536

1882

5

>1000000000

94572

Видно, что однослойный персептрон крайне ограничен в своих возможностях точно представить наперед заданную логическую функцию. Нужно отметить, что позднее, в начале 70-х годов, это ограничение было преодолено путем введения нескольких слоев нейронов, однако критическое отношение к классическому персептрону сильно заморозило общий круг интереса и научных исследований в области искусственных нейронных сетей.В завершении остановимся на тех проблемах, которые остались открытыми после работ Ф.Розенблатта. Часть из них была впоследствии решена (и будет частично рассмотрена в следующих лекциях), некоторые остались без полного теоретического решения. 1) Практическая проверка условия линейной разделимости множеств. Теорема Розенблатта гарантирует успешное обучение только для персептронно представимых функций, однако ничего не говорит о том, как это свойство практически обнаружить до обучения.2) Сколько шагов потребуется при итерационном обучении? Другими словами, затянувшееся обучение может быть как следсвием не представимости функции (и в этом случае оно никогда не закончится), так и просто особенностью алгоритма.3) Как влияет на обучение последовательность предъявления образов в течение эпохи обучения?4) Имеет ли вообще d-правило преимущества перед простым перебором весов, т.е. является ли оно конструктивным алгоритмом быстрого обучения?5) Каким будет качество обучения, если обучающая выборка содержит не все возможные пары векторов? Какими будут ответы персептрона на новые вектора? Последний вопрос затрагивает глубокие пласты вычислительной нейронауки, касающиеся способностей искусственных систем к обобщению ограничеснного индивидуального опыта на более широкий класс ситуаций, для которых отклик был заранее не сообщен нейросети. Ситуация, когда системе приходится работать с новыми образами, является типичной, так как число всех возможных примеров экспоненциально быстро растет с ростом числа переменных, и поэтому на практике индивидуальный опыт сети всегда принципиально не является полным.Возможности обобщения в нейросетях будут подробнее рассмотрены на следующей лекции.

ЛЕКЦИЯ 5. Свойства процессов обучения в нейронных сетях.

Обучение нейронных сетей на примерах. Форми­рование обобщений (категорий) при обучении. Приз­наковое и конфигурационное (фазовое) пространство нейронной сети. Обучение как задача многофакторной оптимизации.

Задача обучения нейронной сети на примерах.

По своей организации и функциональному назначению искусственная нейронная сеть с несколькими входами и выходами выполняет некоторое преобразование входных стимулов - сенсорной информации о внешнем мире - в выходные управляющие сигналы. Число преобразуемых стимулов равно n - числу входов сети, а число выходных сигналов соответствуе числу выходов m. Совокупность всевозможных входных векторов размерности n образует[10] векторное пространство X, которое мы будем называть признаковым пространством. Аналогично, выходные вектора также формируют признаковое пространство, которое будет обозначаться Y. Теперь нейронную сеть можно мыслить, как некоторую многомерную функцию F:XY, аргумент которой принадлежит признаковому пространству входов, а значение - выходному признаковому пространству.

При произвольном значении синаптических весовых коэффициентов нейронов сети функция, реализуемая сетью также произвольна. Для получения требуемой функции необходим специфический выбор весов. Упорядоченная совокупность всех весовых коэффициентов всех нейронов может быть представлена, как вектор W. Множество всех таких векторов также формирует векторное пространство, называемое пространством состояний или конфигурационным (фазовым[11]) пространством W. Задание вектора в конфигурационном пространстве полностью определяет все синаптические веса и, тем самым, состояние сети. Состояние, при котором нейронная сеть выполняет требуемую функцию, называют обученным состоянием сети W*. Отметим, что для заданной функции обученное состояние может не существовать или быть не единственным. Задача обучения теперь формально эквивалентна построению процесса перехода в конфигурационном пространстве от некоторого произвольного состояния w0 к обученному состоянию.

Требуемая функция однозначнно описывается путем задания соотвествия каждому вектору признакового пространства X некоторого вектора из пространства Y. В случае сети из одного нейрона в задаче детектирования границы, рассмотренной в конце третьей лекции, полное описание требуемой функции достигается заданием всего четырех пар векторов. Однако в общем случае, как например, при работе с видеоизображением, признаковые пространства могут иметь высокую размерность, поэтому даже в случае булевых векторов однозначное определение функции становится весьма громоздким[12]. Во многих практических случаях значения требуемых функций для заданных значений аргумента получаются из эксперимента или наблюдений, и, следовательно, известны лишь для ограниченной совокупности векторов. Кроме того, известные значения функции могут содержать погрешности, а отдельные данные могут даже частично противоречить друг другу. По этим причинам перед нейронной сетью обычно ставится задача приближенного представления функции по имеющимся примерам. Имеющиеся в распоряжении исследователя примеры соответствий между векторами, либо специально отобранные из всех примеров наиболее представительные данные называют обучающей выборкой. Обучающая выборка определяется обычно заданием пар векторов, причем в каждой паре один вектор соотвествует стимулу, а второй - требуемой реакции. Обучение нейронной сети состоит в приведении всех векторов стимулов из обучающей выборки требуемым реакциям путем выбора весовых коэффициентов нейронов.

Общая проблема кибернетики, заключающаяся в построении искусственной системы с заданным функциональным поведением, в контексте нейроных сетей понимается, как задача синтеза требуемой искусственной сети. Она может включать в себя следующие подзадачи: 1) выбор существенных для решаемой задачи признаков и формирование признаковых пространств; 2) выбор или разработка архитектуры нейронной сети, адекватной решаемой задаче; 3) получение обучаюшей выборки из наиболее представительных, по мнению эксперта, векторов признаковых пространств; 4) обучение нейронной сети на обучающей выборке.

Отметим, что подзадачи 1)-3) во многом требуют экспертного опыта работы с нейронными сетями, и здесь нет исчерпывающих формальных рекомендаций. Эти вопросы рассматриваются на протяжении всей книги в применении к различным нейросетевым архитектурам, с иллюстрациями особенностей их обучения и применения.

Классификация и категоризация.

В случае, когда выходное признаковое пространство представляет собой дискретный перечень из двух или более групп данных, задачей нейронной сети является отнесение входных векторов к одной из этих групп. В этом случае говорят, что нейросетевая система выполняет классификацию или категоризацию данных.

Эти две интеллектуальные задачи, по-видимому, следует отличать друг от друга. Термин класс можно определить, как совокупность предметов или понятий (образов), выделенных и сгруппированных по определенным признакам или правилам. Под классификацией мы будем понимать отнесение некоторого образа к классу, выполняемое по этим формальным правилам по совокупности признаков. Категория же (если отвлечься от специфического философского характера этого понятия) определяет лишь некоторые общие свойства образов и связи между ними. Задача категоризации, т.е. определения отношения данного образа к некоторой категории, гораздо менее определена, чем задача отношения к классу. Границы различных категорий являются нечеткими, расплывчатыми, и обычно сама категория понимается не через формальное определение, а только в сравнении с другими категориями. Границы классов, напротив, определены достаточно точно - образ относится к данному классу, если известно, что он обладает необходимым числом признаков, характерных для этого класса.

Итак, задачей систем-классификаторов является установление принадлежности образа к одному из формально определенных классов. Примерами такой задачи является задача классификации растений в ботанике, классификация химических веществ по их свойствам и типам возможных реакций, в которые они вступают, и другие. Формальные признаки могут быть определены посредством правил типа “если..-то..”, а системы, оперирующие с такими правилами, получили название экспертных систем. Традиционной областью применения классификаторов на нейронных сетях является экспериментальная физика высоких энергий, где одной из актуальных задач выступает выделение среди множества зарегистрированных в эксперименте событий с элементарными частицами событий, представляющих интерес для данного эксперимента.

Проблема категоризации находится на ступеньку выше по сложности в сравнении с класиификацией. Особенность ее заключается в том, что помимо отнесения образа к какой-либо группе, требуется определить сами эти группы, т.е. сформировать категории.

В случае обучения с учителем (например, в персептроне) формирование категорий происходит методом проб и ошибок на основе примеров с известными ответами, предоставляемыми экспертом. Формирование категорий весьма напоминает процесс обучения у живых организмов, поэтому обычно эксперта называют “супервизором” или учителем. Учитель управляет обучением при помощи изменения параметров связей и, реже, самой топологии сети.

Задачей системы-категоризатора является формирование обобщающих признаков в совокупности примеров. При увеличении числа примеров несущественные, случайные признаки сглаживаются, а часто встречающиеся - усиливаются, при этом происходит постепенное уточнение границ категорий. Хорошо обученная нейросетевая система способна извлекать признаки из новых примеров, ранее неизвестных системе, и принимать на их основе приемлимые решения.

Важно отметить различие в характере неявных “знаний”, запомненных искусственной нейронной сетью, и явных, формальных “знаний”, заложенных в экспертных системах. Некоторые сходства и различия представлены в следующей таблице.

 

 

Экспертные системы (ЭС)

Нейросетевые системы (НС)

Источник знаний

Формализованный опыт эксперта, выраженный в виде логических утвер­ждений - правил и фактов, безусловно принимаемых системой

Совокупный опыт экс­перта-учителя, отбира­ющего примеры для обучения + индивидуаль­ный опыт обучающейся на этих примерах нейрон­ной сети

Характер знаний

Формально-логическое “левополушарное” знание в виде правил

Ассоциативное “право­полушарное” знание в виде связей между нейро­нами сети

Развитие знаний

В форме расширения сово­купности правил и фактов (базы знаний)

В форме дообучения на дополнительной последо­вательности примеров, с уточнением границ кате­горий и формированием новых категорий

Роль эксперта

Задает на основе правил полный объем знаний экспертной системы

Отбирает характерные примеры, не формулируя специально обоснование своего выбора

Роль искусственной системы

Поиск цепочки фактов и правил для доказательства суждения

Формирование индиви­дуального опыта в форме категорий, получаемых на основе примеров и катего­ризация образов

 

Различия в характере экспертных и нейросетевых ситем обуславливают и различия в их сферах применения. Экспертные системы применяются в узких предметных областях с хорошо структурированными знаниями, наример в классификации неисправностей конкретного типа оборудования, фармокологии, анализе химсостава проб и т.д. Нейронные сети применяютмся кроме перечисленных областей и в задачах с плохо структурированной информацией, например при распознавании образов, рукописного текста, анализе речи и т.д.

Обучение нейронной сети с учителем, как задача много­факторной оптимизации.

Понятие о задаче оптимизации.

Возможность применени теории оптимизации и обучению нейронных сетей крайне привлекательна, так как имеется множество хорошо опробованных методов оптимизации, доведенных до стандартных компьютерных программ. Сопоставление процесса обучения с процессом поиска некоторого оптимума также не лишено и биологических оснований, если рассматривать элементы адаптации организма к окружающим условиям в виде оптимального количества пищи, оптимального расходования энергии и т.п. Подробное рассмотрение методов оптимизации выходит за рамки данных лекций, поэтому здесь мы органичимся лишь основными понятиями. Для более подробного знакомства можно порекомендовать книгу Б.Банди .

Функция одной действительной переменной f(x) достигает локаль­ного минимума в некоторой точке x0, если существует такая d-окрестность этой точки, что для всех x из этой окрестности, т.е. таких, что |x-x0|<d, имеет место f(x)>f(x0). Без дополнительных предположений о свойствах гладкости функции выяснить, является ли некоторая точка достоверной точкой минимума, используя данное определение невозможно, поскольку любая окрестность содержит континуум точек. При примененнии численных методов для приближенного поиска минимума исследователь может столкнуться с несколькими проблемами. Во-первых, минимум функции может быть не единственным. Во-вторых, на практике часто необходимо найти глобальный, а не локальный минимум, однако обычно не ясно, нет ли у функции еще одного, более глубокого, чем найденный, минимума.Математическое определение локального минимума функции в многомерном пространстве имеет тот же вид, если заменить точки x и x0 на вектора, а вместо модуля использовать норму. Поиск минимума для функции многих переменных (многих факторов) является существенно более сложной задачей, чем для одной переменной. Это связано прежде всего с тем, что локальное направление уменьшения значения функции может не соотвествовать нарпавлению движения к точке минимума. Кроме того, с ростом размерности быстро возрастают затраты на вычисление функции.Решение задачи оптимизации во многом является искусством, общих, заведомо работающих и эффективных в любой ситуации методов нет. Среди часто использемых методов можно рекомендовать симплекс-метод Нелдера, некоторые градиентные методы, а также методы случайного поиска. В Приложении 2 для решения задачи оптимизации рассматриваются методы имитации отжига и генетического поиска, относящиеся к семеству методов случайного поиска.В случае, если независимые переменные являются дискретными и могут принимать одно значение из некоторого фиксированного набора, задача многомерной оптимизации несколько упрощается. При этом множество точек поиска становится конечным, а следовательно задача может быть, хотя бы в принципе, решена методом полного перебора. Будем называть оптимизационные задачи с конечным множеством поиска задачами комбинаторной оптимизации.Для комбинаторных задач также существуют методы поиска приближенного решения, предлагающие некоторую стратегию перебора точек, сокращающую объем вычислительной работы. Отметим, что имитация отжига и генетический алгоритм также применимы и к комбинаторной оптимизации.

Постановка задачи оптимизации при обучении нейронной сети

Пусть имеется нейронная сеть, выполняющая преобразование F:X®Y векторов X из признакового пространства входов X в вектора Y выходного пространства Y. Сеть находится в состоянии W из пространства состояний W. Пусть далее имеется обучающая выборка (Xa,Ya), a=1..p. Рассмотрим полную ошибку E, делаемую сетью в состоянии W.

 

Отметим два свойства полной ошибки. Во-первых, ошибка E=E(W) является функцией состояния W, определенной на пространстве состояний. По определению, она принимает неотрицательные значения. Во-вторых, в некотором обученном состоянии W* , в котором сеть не делает ошибок на обучающей выборке, данная функция принимает нулевое значение. Следовательно, обученные состояния являются точками минимума введенной функции E(W).

Таким образом, задача обучения нейронной сетиявляется задачей поиска минимума функции ошибки в пространстве состояний, и, следовательно, для ее решения могут применяться стандарные методы теории оптимизации. Эта задача относится к классу многофакторных задач, так, например, для однослойного персептрона с N входами и M выходами речь идет о поиске минимума в NxM-мерном пространстве.

На практике могут использоваться нейронные сети в состояниях с некоторым малым значением ошибки, не являющихся в точности минимумами функции ошибки. Другими словами, в качестве решения принимается некоторое состояние из окрестности обученного состояния W*. При этом допустимый уровень ошибки определяется особенностями конкретной прикладной задачи, а также приемлимым для пользователя объемом затрат на обучение.

Задача

Синаптические весовые коэффициенты однослойного персептрона с двумя входами и одним выходом могут принимать значения -1 или 1. Значение порога равно нулю. Рассмотреть задачу обучения такого персептрона логической функции “и”, как задачу многофакторной комбинаторной оптимизации. Для обучающей выборки использовать все комбинации двоичных входов.


ЛЕКЦИЯ 6. Многослойный ПЕРСЕПТРОН.

Ограничения однослойных нейронных сетей. Необходимость иерархической организации нейронной системы. Многослойный ПЕРСЕПТРОН. Алгоритм обратного распространения ошибок.

Необходимость иерархической организации нейросетевых архитектур.

На предыдущих лекциях нам уже пришлось встретиться с весьма жесткими ограничениями на возможности однослойных сетей, в частности с требованием линейной разделимости классов. Особенности строения биологических сетей подталкивают тсследователя к использованию более сложных, и в частности, иерархических архитектур. Идея относительно проста - на низших уровнях иерархии классы преобразуются таким образом, чтобы сформировать линейно разделимые множества, которые в свою очередь будут успешно распознаваться нейронами на следующих (высших) уровнях иерархии.Однако основной проблемой, традиционно ограничивающей возможные сетевые топологии простейшими структурами, является проблема обучения. На этапе обучения сети пред'являются некоторые входные образы, называемые обучающей выборкой, и исследуются получаемые выходные реакции. Цель обучения состоит в приведении наблюдаемых реакций на заданной обучающей выборке к требуемым (адекватным) реакциям путем изменения состояний синаптических связей. Сеть считается обученной, если все реакции на заданном наборе стимулов являются адекватными. Данная классическая схема обучения с учителем требует явного знания ошибок при функционировании каждого нейрона, что, разумеется, затруднено для иерархических систем, где непосредственно контролируются только входы и выходы. Кроме того, необходимая избыточность в иерархических сетях приводит к тому, что состояние обучения может быть реализовано многими способами, что делает само понятие “ошибка, делаемая данным нейроном” весьма неопределенным.Наличие таких серьезных трудностей в значительной мере сдерживало прогресс в области нейронных сетей вплоть до середины 80-х годов, когда были получены эффективные алгоритмы обучения иерархических сетей.

Многослойный ПЕРСЕПТРОН.

Рассмотрим иерархическую сетевую структуру, в которой связанные между собой нейроны (узлы сети) об'единены в несколько слоев (Рис. 6.1). На возможность построения таких архитектур указал еще Ф.Розенблатт, однако им не была решена проблема обучения. Межнейронные синаптические связи сети устроены таким образом, что каждый нейрон на данном уровне иерархии принимает и обрабатывает сигналы от каждого нейрона более низкого уровня. Таким образом, в данной сети имеется выделенное направление распостранения нейроимпульсов - от входного слоя через один (или несколько) скрытых слоев к выходному слою нейронов. Нейросеть такой топологии мы будем называть обобщенным многослойным персептроном или, если это не будет вызывать недоразумений, просто персептроном. Рис.6.1. Структура многослойного персептрона с пятью входами, тремя нейронами в скрытом слое, и одним нейроном выходного слоя.Персептрон представляет собой сеть, состоящую из нескольких последовательно соединенных слоев формальных нейронов МакКаллока и Питтса. На низшем уровне иерархии находится входной слой, состоящий из сенсорных элементов, задачей которого является только прием и распространение по сети входной информации. Далее имеются один или, реже, несколько скрытых слоев. Каждый нейрон на скрытом слое имеет несколько входов, соединенных с выходами нейронов предыдущего слоя или непосредственно со входными сенсорами X1..Xn, и один выход. Нейрон характеризуется уникальным вектором весовых коэффициентов w. Веса всех нейронов слоя формируют матрицу, которую мы будем обозначать V или W. Функция нейрона состоит в вычислении взвешенной суммы его входов с дальнейшим нелинейным преобразованием ее в выходной сигнал:(6.1)Выходы нейронов последнего, выходного, слоя описывают результат классификации Y=Y(X). Особенности работы персептрона состоят в следующем. Каждый нейрон суммирует поступающие к нему сигналы от нейронов предыдущего уровня иерархии с весами, определяемыми состояниями синапсов, и формирует ответный сигнал (переходит в возбужденное состояние), если полученная сумма выше порогового значения. Персептрон переводит входной образ, определяющий степени возбуждения нейронов самого нижнего уровня иерахии, в выходной образ, определяемый нейронами самого верхнего уровня. Число последних, обычно, сравнительно невелико. Состояние возбуждения нейрона на верхнем уровне говорит о принадлежности входного образа к той или иной категории.Традиционно рассматривается аналоговая логика, при которой допустимые состояния синаптических связей определяются произвольными действительными числами, а степени активности нейронов - действительными числами между 0 и 1. Иногда исследуются также модели с дискретной арифметикой, в которой синапс характеризуется двумя булевыми переменными: активностью (0 или 1) и полярностью (-1 или +1), что соответствует трехзначной логике. Состояния нейронов могут при этом описываться одной булевой переменной. Данный дискретный подход делает конфигурационное пространство состояний нейронной сети конечным (не говоря уже о преимуществах при аппаратной реализации).Здесь будет в основном описываться классический вариант многослойной сети с аналоговыми синапсами и сигмоидальной передаточной функцией нейронов, определяемой формулой (6.1).

Обучение методом обратного распространения ошибок.

Для обучения многослойной сети в 1986 г. Руммельхартом и Хинтоном (Rummelhart D.E., Hinton G.E., Williams R.J., 1986) был предложен алгоритм обратного распостранения ошибок (error back propagation). Многочисленные публикации о промышленных применениях многослойных сетей с этим алгоритмом обучения подтвердили его принципиальную работоспособность на практике.В начале возникает резонный вопрос - а почему для обучения многослойного персептрона нельзя применить уже известное d-правило Розенблатта (см. лекцию 4)? Ответ состоит в том, что для применения метода Розенблатта необходимо знать не только текущие выходы нейронов y, но и требуемые правильные значения Y. В случае многослойной сети эти правильные значения имеются только для нейронов выходного слоя. Требуемые значения выходов для нейронов скрытых слоев неизвестны, что и ограничивает применение d-правила.Основная идея обратного распространения состоит в том, как получить оценку ошибки для нейронов скрытых слоев. Заметим, что известные ошибки, делаемые нейронами выходного слоя, возникают вследствие неизвестных пока ошибок нейронов скрытых слоев. Чем больше значение синаптической связи между нейроном скрытого слоя и выходным нейроном, тем сильнее ошибка первого влияет на ошибку второго. Следовательно, оценку ошибки элементов скрытых слоев можно получить, как взвешенную сумму ошибок последующих слоев. При обучении информация распространяется от низших слоев иерархии к высшим, а оценки ошибок, делаемые сетью - в обратном напаравлении, что и отражено в названии метода.Перейдем к подробному рассмотрению этого алгоритма. Для упрощения обозначений ограничимся ситуацией, когда сеть имеет только один скрытый слой Матрицу весовых коэффициентов от входов к скрытому слою обозначим W, а матрицу весов, соединяющих скрытый и выходной слой - как V. Для индексов примем следующие обозначения входы будем нумеровать только индексом i, элементы скрытого слоя - индексом j, а выходы, соответственно, индексом k. Пусть сеть обучается на выборке (Xa,Ya), a=1..p. Активности нейронов будем обозначать малыми буквами y с соотвествующим индексом, а суммарные взвешенные входы нейронов - малыми буквами x.Общая структура алгоритма аналогична рассмотренной в лекции 4, с усложнением формул подстройки весов. Таблица 6.1. Алгоритм обратного распространения ошибки.

Шаг 0.

Начальные значения весов всех нейронов всех слоев полагаются случайными числами V(t=0) и W(t=0).

Шаг 1.

Сети предъявляется входной образ X, в результате формируется выходной образ y?Ya . При этом нейроны последовательно от слоя к слою функционируют по следующим формулам: скрытый слой выходной слой Здесь f(x) - сигмоидальная функция, определяемая по формуле (6.1)

Шаг 2.

Функционал квадратичной ошибки сети для данного входного образа имеет вид: Данный функционал подлежит минимизации. Классический градиентный метод оптимизации состоит в итерационном уточнении аргумента согласно формуле:Функция ошибки в явном виде не содержит зависимости от веса Vjk, поэтому воспользуемся формулами неявного дифференцирования слож­ной функции:Здесь учтено полезное свойство сигмоидальной функции f(x): ее производная выражается только через само значение функции, f’(x)=f(1-f). Таким образом, все необходимые величины для подстройки весов выходного слоя V получены.

Шаг 3.

На этом шаге выполняется подстройка весов скрытого слоя. Градиентный метод по-прежнему дает:Вычисления производных выполняются по тем же формулам, за исключением некоторого усложнения формулы для ошибки dj. При вычислении dj здесь и был применен принцип обратного распространения ошибки: частные производные берутся только по переменным последующего слоя. По полученным формулам модифицируются веса нейронов скрытого слоя. Если в нейронной сети имеется несколько скрытых слоев, процедура обратного распространения применяется последовательно для каждого из них, начиная со слоя, предшествующего выходному, и далее до слоя, следующего за входным. При этом формулы сохраняют свой вид с заменой элементов выходного слоя на элементы соотвествующего скрытого слоя.

Шаг 4.

Шаги 1-3 повторяются для всех обучающих векторов. Обучение завершается по достижении малой полной ошибки или максимально допустимого числа итераций, как и в методе обучения Розенблатта.

Как видно из описания шагов 2-3, обучение сводится к решению задачи оптимизации функционала ошибки градиентным методом. Вся “соль” обратного распространения ошибки состоит в том, что для ее оценки для нейронов скрытых слоев можно принять взвешенную сумму ошибок последующего слоя.Параметр h имеет смысл темпа обучения и выбирается достаточно малым для сходимости метода. О сходимости необходимо сделать несколько дополнительных замечаний. Во-первых, практика показывает что сходимость метода обратного распространения весьма медленная. Невысокий тепм сходимости является “генетической болезнью” всех градиентных методов, так как локальное направление градиента отнюдь не совпадает с направлением к минимуму. Во-вторых, подстройка весов выполняется независимо для каждой пары образов обучающей выборки. При этом улучшение функционирования на некоторой заданной паре может, вообще говоря, приводить к ухудшению работы на предыдущих образах. В этом смысле, нет достоверных (кроме весьма обширной практики применения метода) гарантий сходимости.Исследования показывают, что для представления произвольного функционального отображения, задаваемого обучающей выборкой, достаточно всего два слоя нейронов. Однако на практике, в случае сложных функций, использование более чем одного скрытого слоя может давать экономию полного числа нейронов.В завершение лекции сделаем замечание относительно настройки порогов нейронов. Легко заметить, что порог нейрона может быть сделан эквивалентным дополнительному весу, соединенному с фиктивным входом, равным -1. Действительно, выбирая W0=Q, x0=-1 и начиная суммирование с нуля, можно рассматривать нейрон с нулевым порогом и одним дополнительным входом:Дополнительные входы нейронов, соотвествующие порогам, изображены на Рис. 6.1 темными квадратиками. С учетом этого замечания, все изложенные в алгоритме обратного распространения формулы суммирования по входам начинаются с нулевого индекса.

ЛЕКЦИЯ 7. Другие иерархические архитектуры.

Командные нейроны и нейроны-детекторы Гроссберга. Принцип "Победитель Забирает Все" (WTA). Модель Липпмана-Хемминга. Карта самоорганизации Кохонена. Сети встречного распространения.В этой лекции будут рассмотрены различные компоненты однородных (состоящих из нейронов одного типа) и неоднородных нейронных сетей. Некоторые преимущества иерархических архитектур - более развитая способность к обобщению, отсутствие жестких ограничений на типы представимых отображений с сохранением простоты нейронной функции и свойства массивной параллельности при обработке информации - уже были нами изучены на лекции, посвященной многослойному персептрону с обучением методом обратного распространения ошибок. Теперь мы познакомимся с иными подходами к построению нейросетей и методам обучения, и в частности, с методом обучения без учителя на основе самоорганизации.

Звезды Гроссберга

Идеи, отраженные в исследованиях Стефана Гроссберга на заре биологической кибернетики, положены в основу многих последующих нейросетевых разработок. Поэтому мы начинаем наше рассмотрение иерархических архитектур с конфигураций входных и выходных звезд Гроссберга (S. Grossberg, 1969). Нейрон в форме входной звезды имеет N входов X1..N, которым соответствуют веса W1..N, и один выход Y, являющийся взвешенной суммой входов. Входная звезда обучается выдавать сигнал на выходе всякий раз, когда на входы поступает определенный вектор. Таким образом, входная звезда является детектором совокупного состояния своих входов. Процесс обучения представляется в следующей итерационной форме:Темп обучения имеет начальное значение масштаба 0.1 и постепенно уменьшается в процессе обучения. В процессе настройки нейрон учится усредненным обучающим векторам. Выходная звезда Гроссберга выполняет противоположную функцию - функцию командного нейрона, выдавая на выходах определенный вектор при поступлении сигнала на вход. Нейрон этого типа имеет один вход и M выходов с весами W1..M, которые обучаются по формуле:Рекомендуется начать c порядка единицы и постепенно уменьшать до нуля в процессе обучения. Итерационный процесс будет сходиться к собирательному образу, полученному из совокупности обучающих векторов.Особенностью нейронов в форме звезд Гроссберга является локальность памяти. Каждый нейрон в форме входной звезды помнит "свой" относящийся к нему образ и игнорирует остальные. Каждой выходной звезде присуща также конкретная командная функция. Образ памяти связывается с определенным нейроном, а не возникает вследствие взаимодействия множества нейронов в сети.

Принцип Winner Take All (WTA) - Победитель Забирает Все - в модели Липпмана-Хемминга.

Рассмотрим задачу о принадлежности образа некоторому классу Xk, определяемому заданными библиотечными образами xk. Каждый из заданных образов обучающей выборки непосредственно определяет свой собственный класс, и таким образом, задача сводится к поиску "ближайшего" образа. В случае двух двоичных (0-1) образов расстояние между ними может быть определено по Хеммингу, как число несовпадающих компонент. Теперь после вычисления всех попарных расстояний искомый класс определяется по наименьшему из них.Нейросетевое решение этой задачи может быть получено на основе архитектуры Липпмана-Хемминга (Lippman R., 1987). Сеть имеет один слой одинаковых нейронов, число которых равно количеству классов. Таким образом, каждый нейрон "отвечает" за свой класс. Каждый нейрон связан с каждым из входов, число которых равно размерности рассматриваемых библиотечных образов. Веса связей полагаются равными нормированным библиотечным образам:Здесь - значение веса связи от n-го входа к m-му нейрону (см. рис.7.1.). Процесс поступления информации о векторе в нейронную сеть является безитерационным. При этом входной вектор сначала нормируется:и нейроны принимают начальные уровни активности:Здесь f(x) - переходная функция (функция активации) нейрона, которая выбирается равной нулю при x<0, и f(x)=x при x>0. Пороги полагаются обычно равными нулю. Рис. 7.1. Нейронная сеть Липпмана-Хемминга.При поступлении входного вектора начальное возбуждение получают все нейроны, скалярное произведение векторов памяти которых с входным вектором превышает порог. В дальнейшем среди них предстоит выбрать один, для которого оно максимально. Это достигается введением дополнительных обратных связей между нейронами, устроенных по принципу "латерального торможения". Каждый нейрон получает тормозящее (отрицательное) воздействие со стороны всех остальных нейронов, пропорционально степени их возбуждения, и испытывает возбуждающее (положительное) воздействие самого на себя. Веса латеральных связей в нейронном слое нормируются таким образом, что суммарный сигнал является возбуждающим только для нейрона с максимальной исходной активностью. Остальные нейроны испытывают торможение:По выполнении некоторого числа итераций t для всех нейронов кроме одного значение аргумента функции f(x) становится отрицательным, что обращает их активность ym в нуль. Единственный, оставшийся активным, нейрон является победителем. Он и указывает на тот класс, к которому принадлежит введенный образ. Такой механизм получил название "Победитель-Забирает-Все" ( Winner Take All - WTA ). Механизм WTA используется и в других нейросетевых архитектурах. Заложенный в его основе принцип латерального торможения имеет глубокие биологические основания и весьма широко распространен в нейронных сетях живых организмов.Нейросетевая парадигма Липпмана-Хемминга является моделью с прямой структурой памяти. Информация, содержащаяся в библиотечных образах никак не обобщается, а непосредственно запоминается в синаптических связях. Память здесь не является распределенной, так как при выходе из строя одного нейрона полностью теряется информация обо всем соответствующем ему образе памяти.

Карта самоорганизации Кохонена.

В противоположность хемминговой сети модель Кохонена (T.Kohonen, 1982) выполняет обобщение пред'являемой информации. В результате работы НС Кохонена получается образ, представляющий собой карту распределения векторов из обучающей выборки. Таким образов, в модели Кохонена выполняется решение задачи нахождения кластеров в пространстве входных образов. Данная сеть обучается без учителя на основе самоорганизации. По мере обучении вектора весов нейронов стремятся к центрам кластеров - групп векторов обучающей выборки. На этапе решения информационных задач сеть относит новый пред'явленный образ к одному из сформированных кластеров, указывая тем самым категорию, к которой он принадлежит.Рассмотрим архитектуру НС Кохонена и правила обучения подробнее. Сеть Кохонена, также как и сеть Липпмана-Хемминга, состоит из одного слоя нейронов. Число входов каждого нейрона равно размерности входного образа. Количество же нейронов определяется той степенью подробности с которой требуется выполнить кластеризацию набора библиотечных образов. При достаточном количестве нейронов и удачных параметрах обучения НС Кохонена может не только выделить основные группы образов, но и установить "тонкую структуру" полученных кластеров. При этом близким входным образам будет соответствовать близкие карты нейронной активности. Рис. 7.2. Пример карты Кохонена. Размер каждого квадратика соответствует степени возбуждения соответствующего нейрона.Обучение начинается с задания случайных значений матрице связей . В дальнейшем происходит процесс самоорганизации, состоящий в модификации весов при пред'явлении на вход векторов обучающей выборки. Для каждого нейрона можно определить его расстояние до вектора входа:Далее выбирается нейрон m=m*, для которого это расстояние минимально. На текущем шаге обучения t будут модифицироваться только веса нейронов из окрестности нейрона m*:Первоначально в окрестности любого из нейронов находятся все нейроны сети, в последствии эта окрестность сужается. В конце этапа обучения подстраиваются только веса самог`о ближайшего нейрона. Темп обучения (t)<1 с течением времени также уменьшается. Образы обучающей выборки пред'являются последовательно, и каждый раз происходит подстройка весов. Нейронная сеть Кохонена может обучаться и на искаженных версиях входных векторов, в процессе обучения искажения, если они не носят систематический характер, сглаживаются.Для наглядности представления карты нейроны Кохонена могут быть упорядочены в двумерную матрицу, при этом под окрестностью нейрона-победителя принимаются соседние (по строкам и столбцам) элементы матрицы. Результирующую карту удобно представить в виде двумерного изображения, на котором различные степени возбуждения всех нейронов отображаются квадратами различной площади. Пример карты, построенной по 100 нейронам Кохонена, представлен на рис.7.2.Каждый нейрон несет информацию о кластере - сгустке в пространстве входных образов, формируя для данной группы собирательный образ. Таким образом НС Кохонена способна к обобщению. Конкретному кластеру может соответствовать и несколько нейронов с близкими значениями векторов весов, поэтому выход из строя одного нейрона не так критичен для функционирования НС Кохонена, как это имело место в случае хемминговой сети.

Нейронная сеть встречного распространения.

Архитектура встречного распространения (counter propagation) удачно об'единяет в себе преимущества возможности обобщения информации сети Кохонена и простоту обучения выходной звезды Гроссберга. Создатель сети встречного распространения Р.Хехт-Нильсен (R.Hecht-Nielsen, 1987) рекомендует использование этой архитектуры для быстрого моделирования систем на начальных этапах исследований с дальнейшим переходом, если это потребуется, на значительно более дорогой, но более точный метод обучения с обратным распространением ошибок.НС встречного распространения (ВР) обучается на выборке пар векторов (X,Y) задаче представления отображения XY. Замечательной особенностью этой сети является способность обучению также и отображению совокупности XY в себя. При этом, благодаря обобщению, появляется возможность восстановления пары (XY) по одной известной компоненте (X или Y). При пред'явлении на этапе распознавания только вектора X (с нулевым начальным Y) производится прямое отображение - восстанавливается Y, и наоборот, при известном Y может быть восстановлен соответствующий ему X. Возможность решения как прямой, так и обратной задачи, а также гибридной задачи по восстановлению отдельных недостающих компонент делает данную нейросетевую архитектуру уникальным инструментом.Сеть ВР состоит из двух слоев нейронов (см. Рис.7.3.) - слоя Кохонена и слоя Гроссберга. В режиме функционирования (распознавания) нейроны слоя Кохонена работают по принципу Победитель-Забирает-Все, определяя кластер, к которому принадлежит входной образ. Затем выходная звезда слоя Гроссберга по сигналу нейрона-победителя в слое Кохонена воспроизводит на выходах сети соответствующий образ. Рис. 7.3. Архитектура сети встречного распространения (для упрощения изображения показаны не все связи).Обучение весов слоя Кохонена выполняется без учителя на основе самоорганизации (см. предыдущий пункт). Входной вектор (аналоговый) вначале нормируется, сохраняя направление. После выполнения одной итерации обучения определяется нейрон победитель, состояние его возбуждения устанавливается равным единице, и теперь могут быть модифицированы веса соответствующей ему звезды Гроссберга. Темпы обучения нейронов Кохонена и Гроссберга должны быть согласованы . В слое Кохонена обучаются веса всех нейронов в окрестности победителя, которая постепенно сужается до одного нейрона.Обученная нейронная сеть ВР может функционировать и в режиме интерполяции, когда в слое Кохонена оставляется не один, а несколько победителей. Тогда уровни их активности пропорционально нормируются, чтобы в сумме составлять единицу, а выходной вектор определяется по сумме выходных векторов каждой из активных звезд Гроссберга. Таким образом НС производит линейную интерполяцию между значениями выходных векторов, отвечающих нескольким кластерам. Однако режим интерполяции в сети встречного распространения изучен не столь достаточно, чтобы можно было рекомендовать его широкое использование.

ЛЕКЦИЯ 8. Модель Хопфилда.

Конфигурация и устойчивость сетей с обратными связями. Модель Хопфилда. Правило обучения Хебба. Ассоциативная память. Распознавание образов.Модель Хопфилда (J.J.Hopfield, 1982) занимает особое место в ряду нейросетевых моделей. В ней впервые удалось установить связь между нелинейными динамическими системами и нейронными сетями. Образы памяти сети соответствуют устойчивым предельным точкам (аттракторам) динамической системы. Особенно важной оказалась возможность переноса математического аппарата теории нелинейных динамических систем (и статистической физики вообще) на нейронные сети. При этом появилась возможность теоретически оценить об'ем памяти сети Хопфилда, определить область параметров сети, в которой достигается наилучшее функционирование. В этой лекции мы последовательно начнем рассмотрение с общих свойств сетей с обратными связями, установим правило обучения для сети Хопфилда (правило Хебба), и затем перейдем к обсуждению ассоциативных свойств памяти этой нейронной сети при решении задачи распознавания образов.

Сети с обратными связями

Рассмотренный нами ранее ПЕРСЕПТРОН относится к классу сетей с направленным потоком распространения информации и не содержит обратных связей. На этапе функционирования каждый нейрон выполняет свою функцию - передачу возбуждения другим нейронам - ровно один раз. Динамика состояний нейронов является безитерационной.Несколько более сложной является динамика в сети Кохонена. Конкурентное соревнование нейронов достигается путем итераций, в процессе которых информация многократно передается между нейронами.В общем случае может быть рассмотрена нейронная сеть (см. Рис. 8.1), содержащая произвольные обратные связи, по которым переданное возбуждение возвращается к данному нейрону, и он повторно выполняет свою функцию. Наблюдения за биологическими локальными нейросетями указывают на наличие множественных обратных связей. Нейродинамика в таких системах становится итерационной. Это свойство существенно расширяет множество типов нейросетевых архитектур, но одновременно приводит к появлению новых проблем.Рис. 8.1. Фрагменты сетей с прямым рапространением (A) и с наличием обратных связей (B).Безитерационная динамика состояний нейронов является, очевидно, всегда устойчивой. Обратные связи могут приводить к возникновению неустойчивостей, подобно тем, которые возникают в усилительных радитехнических системах при положительной обратной связи. В нейронных сетях неустойчивость проявляется в блуждающей смене состояний нейронов, не приводящей к возникновению стационарных состояний. В общем случае ответ на вопрос об устойчивости динамики произвольной системы с обратными связями крайне сложен и до настоящего времени является открытым.Ниже мы остановимся на важном частном случае нейросетевой архитектуры, для которой свойства устойчивости подробно исследованы.

Нейродинамика в модели Хопфилда

Рассмотрим сеть из N формальных нейронов, в которой степень возбуждения каждого из нейронов Si, i=1..N, может принимать только два значения {-1, +1}. Любой нейрон имеет связь со всеми остальными нейронами Sj, которые в свою очередь связаны с ним. Силу связи от i-го к j-му нейрону обозначим как Wij. В модели Хопфилда предполагается условие симметричности связей Wij=Wji, с нулевыми диагональными элементами Wii=0. К сожалению, это условие имеет весьма отдаленное отношение к известным свойствам биологических сетей, в которых, наоборот, если один нейрон передает возбуждение другому, то тот, в большинстве случаев, непосредственно не связан с первым. Однако именно симметричность связей, как будет ясно из дальнейшего, существенно влияет на устойчивость динамики.Изменение состояния каждого нейрона Sj в модели Хопфилда происходит по известному правилу для формальных нейронов МакКаллока и Питтса. Поступающие на его входы сигналы Si в момент t взвешиваются с весами матрицы связей Wij и суммируются, определяя полный уровень силы входного сигнала:.Далее в момент t+1 нейрон изменяет состояние своего возбуждения в зависимости от уровня сигнала h и индивидуального порога каждого нейрона T:Изменение состояний возбуждения всех нейронов может происходить одновременно, в этом случае говорят о параллельной динамике. Рассматривается также и последовательная нейродинамика, при которой в данный момент времени происходит изменение состояния только одного нейрона. Многочисленные исследования показали, что свойства памяти нейронной сети практически не зависят от типа динамики. При моделировании нейросети на обычном компьютере удобнее последовательная смена состояний нейронов. В аппаратных реализациях нейросетей Хопфилда применятся параллельная динамика.Совокупность значений возбуждения всех нейронов Si в некоторый момент времени образует вектор состояния S сети. Нейродинамика приводит к изменению вектора состояния S(t). Конец вектора состояния описывает траекторию в пространстве состояний нейросети. Это пространство для сети с двумя уровнями возбуждения каждого нейрона, очевидно, представляет собой множество вершин гиперкуба размерности, равной числу нейронов N. Возможные наборы значений координат вершин гиперкуба (см. Рис.8.2) и определяют возможные значения вектора состояния.Рис. 8.2. Проекция 4-х мерного гиперкуба на плоскость. Указанные на рисунке три точки служат примерами возможных состояний нейронной сети из 4-х нейронов.Рассмотрим теперь проблему устойчивости динамики изменения состояний. Поскольку на каждом временном шаге некоторый нейрон i изменяет свое состояние в соответствии со знаком величины (hi - Ti), то приведенное ниже соотношение всегда неположительно:Таким образом, оответствующая величина E, являющаяся суммой отдельных значений Ei , может только убывать, либо сохранять свое значение в процессе нейродинамики.Введенная таким образом величина E является функцией состояния E=E(S) и называется энергетической функцией (энергией) нейронной сети Хопфилда. Поскольку она обладает свойством невозрастания при динамике сети, то одновременно является для нее функцией Ляпунова (А.М. Ляпунов, 1892). Поведение такой динамической системы устойчиво при любом исходном векторе состояния S(t=0) и при любой симметричной матрице связей W с нулевыми диагональными элементами. Динамика при этом заканчивается в одном из минимумов функции Ляпунова, причем активности всех нейронов будут совпадать по знаку с входными сигналами h. Поверхность энергии E(S) в пространстве состояний имеет весьма сложную форму с большим количеством локальных минимумов, образно напоминая стеганое одеяло. Стационарные состояния, отвечающие минимумам, могут интерпретироваться, как образы памяти нейронной сети. Эволюция к такому образу соотвествует процессу извлечения из памяти. При произвольной матрице связей W образы также произвольны. Для записи в память сети какой-либо осмысленной информации требуется определенное значение весов W, которое может получаться в процессе обучения.

Правило обучения Хебба

Правило обучения для сети Хопфилда опирается на исследования Дональда Хебба (D.Hebb, 1949), который предположил, что синаптическая связь, соединяющая два нейрона будет усиливатьося, если в процессе обучения оба нейрона согласованно испытывают возбуждение либо торможение. Простой алгоритм, реализующий такой механизм обучения, получил название правила Хебба. Рассмотрим его подробно.Пусть задана обучающая выборка образов , =1..p. Требуется построить процесс получения матрицы связей W, такой, что соответствующая нейронная сеть будет иметь в качестве стационарных состояний образы обучающей выборки (значения порогов нейронов T обычно полагаются равными нулю).В случае одного обучающего образа правило Хебба приводит к требуемой матрице:Покажем, что состояние S= является стационарным для сети Хопфилда с указанной матрицей. Действительно, для любой пары нейронов i и j энергия их взаимодействия в состоянии достигает своего минимально возможного значения Eij = -(1/2) i j i j = -1/2. При этом Е -полная энергия равна E=-(1/2)N2 , что отвечает глобальному минимуму.Для запоминания других образов может применяется итерационный процесс:который приводит к полной матрице связей в форме Хебба: Устойчивость совокупности образов не столь очевидна, как в случае одного образа. Ряд исследований показывает, что нейронная сеть, обученная по правилу Хебба, может в среднем, при больших размерах сети N, хранить не более чем p 0.14 N различных образов. Устойчивость может быть показана для совокупности ортогональных образов, когдаВ этом случае для каждого состояния произведение суммарного входа i-го нейрона hi на величину его активности Si=i оказывается положительным, следовательно само состояние является состоянием притяжения (устойчивым аттрактором):Таким образом, правило Хебба обеспечивает устойчивость сети Хопфилда на заданном наборе относительно небольшого числа ортогональных образов. В следующем пункте мы остановимся на особенностях памяти полученной нейронной сети.

Ассоциативность памяти и задача распознавания образов

Динамический процесс последовательной смены состояний нейронной сети Хопфилда завершается в некотором стационарном состоянии, являющемся локальным минимумом энергетической функции E(S). Невозрастание энергии в процессе динамики приводит к выбору такого локального минимума S, в бассейн притяжения которого попадает начальное состояние (исходный, пред'являемый сети образ) S0. В этом случае также говорят, что состояние S0 находится в чаше минимума S.При последовательной динамике в качестве стационарного состояния будет выбран такой образ S, который потребует минимального числа изменений состояний отдельных нейронов. Поскольку для двух двоичных векторов минимальное число изменений компонент, переводящее один вектор в другой, является расстоянием Хемминга H(S,S0), то можно заключить, что динамика сети заканчивается в ближайшем по Хеммингу локальном минимуме энергии.Пусть состояние S соответствует некоторому идеальному образу памяти. Тогда эволюцию от состояния S0 к состоянию S можно сравнить с процедурой постепенного восстановления идеального образа S по его искаженной (зашумленной или неполной) копии S0 . Память с такими свойствами процесса считывания информации является ассоциативной[21]. При поиске искаженные части целого восстанавливаются по имеющимся неискаженным частям на основе ассоциативных связей между ними.Ассоциативный характер памяти сети Хопфилда качественно отличает ее от обычной, адресной, компьютерной памяти. В последней извлечение необходимой информации происходит по адресу ее начальной точки (ячейки памяти). Потеря адреса (или даже отного бита адреса) приводит к потере доступа ко всему информационному фрагменту. При использовании ассоциативной памяти доступ к информации производится непосредственно по ее содержанию, т.е. по частично известным искаженным фрагментам. Потеря части информации или ее информационное зашумление не приводит к катастрофическому ограничению доступа, если оставшейся информации достаточно для извлечения идеального образа.Поиск идеального образа по имеющейся неполной или зашумленной его версии называется задачей распознавания образов. В нашей лекции особенности решения этой задачи нейронной сетью Хопфилда будут продемонстрированы на примерах, которые получены с использованием модели сети на персональной ЭВМ.В рассматриваемой модели сеть содержала 100 нейронов, упорядоченных в матрицу 1010. Сеть обучалась по правилу Хебба на трех идеальных образах - шрифтовых начертаниях латинских букв M, A и G (Рис. 8.3.). После обучения нейросети в качестве начальных состояний нейронов пред'являлись различные искаженные версии образов, которые в дальнейшем эволюционировали с последовательной динамикой к стационарным состояниям.Рис. 8.3. Идеальные образы обучающей выборки. Темные квадратики соответствуют нейронам в состоянии +1, светлые -1.Для каждой пары изображений на рисунках этой страницы, левый образ является начальным состоянием, а правый - результатом работы сети - достигнутым стационарным состоянием.Рис. 8.4. (A) - Один из идеальных образов является стационарной точкой. (Б) - Образ, заданный другим шрифтом, удачно распознается.Рис. 8.5. (A,Б) - Образы с информационным шумом удачно распознаются.Рис. 8.6. Образ может быть распознан по небольшому фрагменту.Рис. 8.7. (A) - Пример релаксации к ложному образу. (Б) - Добавление информации к левой картинке (А) приводит к правильному распознаванию.Образ на Рис. 8.4.(А) был выбран для тестирования адекватности поведения на идеальной задаче, когда пред'явленное изображение точно соотвествует информации в памяти. В этом случае за один шаг было достигнуто стационарное состояние. Образ на Рис. 8.4.(Б) характерен для задач распознавания текста независимо от типа шрифта. Начальное и конечное изображения безусловно похожи, но попробуйте это об'яснить машине!Задания на Рис. 8.5 характерны для практических приложений. Нейросетевая система способна распознавать практически полностью зашумленные образы. Задачи, соответствующие Рис. 8.6. и 8.7.(Б), демонстрируют замечательное свойство сети Хопфилда ассоциативно узнавать образ по его небольшому фрагменту. Важнейшей особенностью работы сети является генерация ложных образов. Пример релаксации к ложному образу показан на Рис. 8.7.(А). Ложный образ является устойчивым локальным экстремумом энергии, но не соответствует никакому идеальному образу. Он является в некотором смысле собирательным образом, наследующим черты идеальных собратьев. Ситуация с ложным образом эквивалентна нашему "Где-то я уже это видел".В данной простейшей задаче ложный образ является "неверным" решением, и поэтому вреден. Однако, можно надеяться, что такая склонность сети к обобщениям наверняка может быть использована. Характерно, что при увеличении об'ема полезной информации (сравните Рис. 8.7.(А) и (Б)), исходное состояние попадает в область притяжения требуемого стационарного состояния, и образ распознается. __________________________ Несмотря на интересные качества, нейронная сеть в классической модели Хопфилда далека от совершенства. Она обладает относительно скромным об'емом памяти, пропорциональным числу нейронов сети N, в то время как системы адресной памяти могут хранить до 2N различных образов, используя N битов. Кроме того, нейронные сети Хопфилда не могут решить задачу распознавания, если изображение смещено или повернуто относительно его исходного запомненного состояния. Эти и другие недостатки сегодня определяют общее отношение к модели Хопфилда, скорее как к теоретическому построению, удобному для исследований, чем как повседневно используемому практическому средству.На следующих лекциях мы рассмотрим развитие модели Хопфилда, модификации правила Хебба, увеличивающие об'ем памяти, а также приложения вероятностных обобщений модели Хопфилда к задачам комбинаторной оптимизации.

ЛЕКЦИЯ 9. Обобщения и применения модели Хопфилда.

Вероятностные обобщения модели Хопфилда и статистическая машина Больцмана. Двунаправленная ассоциативная память Коско. Представление информации в сети Хопфилда, решающей задачу комбинаторной оптимизации. Нейровычисления и нейроматематика. Принципы организации вычислительных процессов в нейроЭВМ.

Модификации правила Хебба.

Ограничения емкости синаптической памяти, а также проблема ложной памяти классической нейронной сети в модели Хопфилда, обученной по правилу Хебба, привели к появлению целого ряда исследований, целью которых было снятие этих ограничений. При этом главный упор делался на модификацию правил обучения.

Матрица Хебба с ортогонализацией образов.

На предыдущей лекции было установлено, что ортогональность образов обучающей выборки является весьма благоприятным обстоятельством, так как в этом случае можно показать их устойчивое сохранение в памяти. В случае точной ортогональности достигается максимальная емкость памяти, равная N - максимально возможному числу ортогональных образов из N компонент.На этом свойстве ортогональных образов и основан один из наиболее часто используемых способов улучшения правила Хебба: перед запоминанием в нейронной сети исходные образы следует ортогонализовать. процедура ортогонализации приводит к новому виду матрицы памяти:где B-1 - матрица, обратная к матрице B:Такая форма матрицы памяти обеспечивает воспроизведение любого набора из p<N образов. Однако, существенным недостатком этого метода является его нелокальность: обучение связи между двумя нейронами требует знания состояний всех других нейронов. Кроме того, прежде чем начать обучение, необходимо наперед знать все обучающие образы. Добавление нового образа требует полного переобучения сети. Поэтому данный подход весьма далек от исходных биологических оснований сети Хопфилда-Хебба, хотя на практике приводит к заметным улучшениям ее функционирования.

Отказ от симметрии синапсов.

Другим подходом для улучшения правила Хебба является отказ от симметрии синаптических соединений. Матрица памяти может выбираться в следующей форме:Элементы матрицы PijI{0,1} управляют наличием или отсутсвием связи от нейрона i к нейрону j. Увеличение емкости памяти в такой модели в принципе может быть достигнуто за счет появления новых степеней свободы, связанных с матрицей P. В общем случае, однако, трудно предложить алгоритм выбора этой матрицы. Следует также отметить, что динамическая система с несимметричной матрицей не обязана быть устойчивой

Алгоритмы разобучения (забывания).

Возможность забывания ненужной, лишней информации является одним из замечательных свойств биологической памяти. Идея приложения этого свойства к искусственной нейросети Хопфилда “удивительно” проста: при запоминании образов обучающей выборки вместе с ними запоминаются и ложные образы. Их-то и следует “забыть”.Соотвествующие алгоритмы получили название алгоритмов разобучения. Суть их сводится к следующему. На первой фазе происходит обучение сети по стандартному правилу Хебба. Память наполняется истинными образами и множеством ложной информации. На следующей фазе (фазе разобучения) сети пред’является некоторый (случайный) образ l(0). Сеть эволюционирует от состояния l(0) к некоторому состоянию l(f), которое при большом об’еме обучающей выборки чаще всего оказывается ложным. Теперь матрица связей может быть поправлена, с целью уменьшить глубину минимума энергии, отвечающего этому ложному состоянию:В качестве степени забывания e выбирается некоторое малое число, что гарантирует незначительное ухудшение полезной памяти, если состояние l(f) не окажется ложным. После нескольких “сеансов забывания” свойства сети улучшаются (J.J.Hopfield et al, 1983).Данная процедура далека от формального теоретического обоснования, однако на практике приводит к более регулярной энергетической поверхности нейронной сети и к увеличению об’ема бассейнов притяжения полезных образов.

Двунаправленная ассоциативная память.

Дальнейшее развитие нейросетевые архитектуры ассоциативной памяти получили в работах Барта Коско (B.Kosko, 1987). Им была предложена модель гетероассоциативной памяти, в которой запоминаяются ассоциации между парами образов. Запоминание происходит так, что при пред’явлении сети одного из образов восстанавливается второй член пары.Запоминание образов через ассоциаций между ними весьма характерно для памяти человека. Вспоминание (воспроизведение) нужной информации может происходить путем построения цепочки ассоциаций. Так, например, наблюдая на улице столб дым из заводской трубы, вы вполне можете вспомнить, что оставили дома чайник на включенной плите.Двунаправленная сеть в модели Коско состоит из двух слоев нейронов (слой A и слой B). Связи между слоями устроены таким образом, что каждый нейрон одного слоя связан с каждым нейроном другого слоя. Внутри слоев связи между нейронами отсутствуют, число нейронов на каждом слое может быть различным. Для запоминания предназначаются пары образов (xa,xb)(a), a=1..p. Обучение задается правилом Хебба:Динамика системы является параллельной и происходит по формулам:Здесь {aj}, j=1..Na - состояния активности нейронов слоя A, {bi}, i=1..Nb - слоя B. В качестве нейронной функции f может использоваться пороговая функция или сигмоид. В частном случае одинаковых слоев и одинаковых образов в обучающих парах сеть Коско полностью эквивалентна модели Хопфилда.В процессе итерационной динамики состояния нейронов слоя A вызывают изменения состояний нейронов слоя B, те, в свою очередь, модифицируют состояния нейронов A, и так далее. Итерации, также как и в сети Хопфилда, сходятся, поскольку матрица связей симметрична. При пред’явлении сети только образа на слое A будет восстановлен также и соотвествующий образ на слое B, и наоборот.Сеть Коско обладает также и свойством автоассоциативности: если одновременно известны некоторые фрагменты образов на слое A и B, то в процессе динамики будут одновременно восстановлены оба образа пары.

Детерминированная и вероятностная нейродинамика.

На предыдущей лекции была рассмотрена классическая модель Хопфилда с двоичными нейронами. Изменение состояний нейронов во времени описывалось детерминированными правилами, которые в заданный момент времени однозначно определяли степень возбуждения всех нейронов сети.Эволюция в пространстве состояний сети Хопфилда завершается в стационарной точке - локальном минимуме энергии. В этом состоянии любые изменения активности любого нейрона запрещены, так как они приводят к увеличению энергии сети. Если продолжать проводить аналогию между классической нейродинамикой и статистическими (динамическими) системами в физике, то можно ввести понятие температуры статистичекого ансамбля нейронов. Поведение сети Хопфилда соответствует нулевой температуре (полному замерзанию) статсистемы. При строго нулевой температуре (T=0) статистический Больцмановский фактор exp(-E/T) делает невозможным увеличение энергии.Переход к ненулевым температурам (T>0) значительно обогащает динамику системы, которая теперь может с ненулевой вероятностью делать переходы с возрастанием E и посещать новые статистические состояния.Вернемся к нейронным сетям. Для некоторого нейрона возможность перехода в состояние с большей энергией означает отказ от следования детерминированному закону изменения состояний. При ненулевых температурах состояние нейрона определяется вероятностным образом: Si(t+1) = sign( hi(t)-Q ), с вероятностью PiSi(t+1) = - sign( hi(t)-Q ), с вероятностью (1-Pi) Вероятность перехода в состояние с возрастанием энергии тем меньше, чем больше разница в энергиях конечного E2 и начального E1 состояний. В статистических системах эта вероятность определяется формулой Больцмана:Нетрудно заметить, что в пределе низких температур (T®0) вероятность P стремится к единице, и динамика переходит в обычную детерминированную нейродинамику. При высоких температурах (T >> DE) вероятность P=1/2, т.е. изменение состояния нейрона никак не связано ни с его предыдущим состоянием, ни со значением “нейронного поля” h(t). Состояния сети меняются полностью хаотично, и ситуация ничем не напоминает систему с памятью.Динамика нейронной системы при ненулевых температурах уже не является Ляпуновской, так как энергия сети не обязана теперь уменьшаться со временем. При этом, вообще говоря, полной стабилизации состояния сети не происходит - состояние быдет продолжать испытывать изменения, при которых DE µ T. Если теперь постепенно уменьшать температуру сети, большое увеличение энергии становится все менее вероятным, и система замерзает в окрестности минимума. Очень важно отметить, что замерзание с большой вероятностью будет происходить в чаше самого глубокого и широкого минимума, т.е. сеть преимущественно достигает глобального минимума энергии.Процесс медленного остывания и локализации состояния в области низких энергий аналогичен процессу отжига металлов, применяемому в промышленности для их закалки, поэтому он получил название имитации отжига.Введение отличной от нуля температуры в динамику нейросети улучшает свойства памяти, так как система перестает “чувствовать” мелкие локальные минимумы, отвечающие ложным образам. Однако за это приходится платить неточностями при воспроизведении образов вследствие отсутствия полной стабилизации системы в точке минимума.

Применения сети Хопфилда к задачам комбинаторной оптимизации.

Ассоциативность памяти нейронной сети Хопфилда не является единственным ее достоинством, которое используется на практике. Другим важным свойством этой архитектуры является уменьшение ее функции Ляпунова в процессе нейродинамики. Следовательно, нейросеть Хопфилда можно рассматривать, как алгоритм оптимизации целевой функции в форме энергии сети.Класс целевых функций, которые могут быть минимизированы нейронной сетью достаточно широк: в него попадают все билинейные и квадратичные формы с симметричными матрицами. С другой стороны, весьма широкий круг математических задач может быть сформулирован на языке задач оптимизации. Сюда относятся такие традиционные задачи, как дифференциальные уравнения в вариационной постановке; задачи линейной алгебры и системы нелинейных алгебраических уравнений, где решение ищется в форме минимизации невязки, и другие. Исследования возможности использования нейронных сетей для решения таких задач сегодня сформировали новую научную дисциплину - нейроматематику. Применение нейронных сетей для решения традиционных математических задач выглядит весьма привлекательным, так нейропроцессоры являются системами с предельно высоким уровнем параллельности при обработке информации. В нашей книге мы рассмотрим использование нейро-оптимизаторов для несколько иных задач, а именно, задач комбинаторной оптимизации.Многие задачи оптимального размещения и планирования ресурсов, выбора маршрутов, задачи САПР и иные, при внешней кажущейся простоте постановки имеют решения, которые можно получить только полным перебором вариантов. Часто число вариантов быстро возрастает с числом структурных элементов N в задаче (например, как N! - факториал N), и поиск точного решения для практически полезных значений N становится заведомо неприемлимо дорогим. Такие задачи называют неполиномиально сложными или NP-полными. Если удается сформулировать такую задачу в терминах оптимизации функции Ляпунова, то нейронная сеть дает весьма мощный инструмент поиска приближенного решения.Рассмотрим классический пример NP-полной проблемы - так называемую задачу комивояжера (бродячего торговца). На плоскости расположены N городов, определяемые парами их географических координат: (xi,yi), i=1..N. Некто должен, начиная с произвольного города, посетить все эти города, при этом в каждом побывать ровно один раз. Проблема заключается в выборе маршрута путешествия с минимально возможной общей длиной пути.Полное число возможных маршрутов равно , и задача поиска кратчайшего из них методом перебора весьма трудоемка. Приемлимое приближенное решение может быть найдено с помощью нейронной сети, для чего, как уже указывалось, требуется переформулировать задачу на языке оптимизации функции Ляпунова (J.J.Hopfield, D.W.Tank, 1985).Обозначим названия городов заглавными буквами (A, B, C, D...). Произвольный маршрут может быть представлен в виде таблицы, в которой единица в строке, отвечающей данному городу, определяет его номер в маршруте.

Таб. 9.1. Маршрут B-A-C-D ...

 

 

Номер

Город

1

2

3

4

...

A

0

1

0

0

...

B

1

0

0

0

...

C

0

0

1

0

...

D

0

0

0

1

...

...

...

...

...

...

...

Сопоставим теперь клетке таблицы на пересечении строки X и столбца i нейрон SxiI{0,1}. Возбужденное состояние данного нейрона сигнализирует о том, что город X в маршруте следует посещать в i-тую очередь. Составим теперь целевую функцию E(S) задачи поиска оптимального маршрута. Она будет включать 4 слагаемых:Первые три слагаемых отвечают за допустимость маршрута: каждый город должен быть посещен не более чем один раз (в каждой строке матрицы имеется не более одной единицы), под каждым номером должено посещаться не более одного города (в каждом столбце - не более одной единицы) и, кроме того, общее число посещений равно числу городов N (в матрице всего имеется ровно N единиц):Видно, что каждое из этих трех слагаемых обращается в нуль на допустимых маршрутах, и принимает значения больше нуля на недопустимых. Последнее, четвертое слагаемое минимизирует длину маршрута:Здесь за dXY обозначено расстояние между городами X и Y. Заметим, что отрезок пути X-Y включается в сумму только тогда, когда город Y является относительно города X либо предыдущим, либо последующим. Множители a, b, g и h имеют смысл относительных весов слагаемых.Общий вид функции Ляпунова сети Хопфилда дается выражением (см. предыдущую лекцию):Полученная целевая функция из четырех слагаемых представляется в форме функции Ляпунова, если выбрать значения весов и порогов сети в следующем виде:Теперь можно заменить обучение Хебба прямым заданием указанных весов и порогов для нейросети, и динамика полученной системы будет приводить к уменьшению длины маршрута комивояжера. В этой задаче целесообразно использовать вероятностную динамику с имитацией отжига, так как наибольший интерес представляет глобальный минимум энергии. Хопфилдом и Тэнком изложенная модель была опробована в вычислительном эксперименте. Нейронной сети удавалось находить близкие к оптимальным решения за приемлимые времена даже для задач с несколькими десятками городов. В дальнешем последовало множество публикаций о разнообразных применениях нейросетевых оптимизаторов. В завершении лекции рассмотрим одно из таких применений - задачу о расшифровке символьного кода.Пусть имеется некоторое (достаточно длинное) текстовое сообщение, написанное на некотором языке с использованием алфавита A, B, C ... z и символа “пробел”, отвечающего за промежуток между словами. Данное сообщение закодировано таким образом, что каждому символу, включая пробел, сопоставлен некоторый символ из ряда i,j,k, .... Требуется расшифровать сообщение.Данная задача также относится к числу NP-полных, общее число ключей шифра имеет факториальную зависимость от числа символов в алфавите. Приближенное нейросетевое решение может быть основано на том факте, что частоты появления отдельных символов и конкретных пар символов в каждом языке имеют вполне определенные значения (например, в русском языке частота появления буквы “а” заметно превосходит частоту появления буквы “у”, слог “во” появляется довольно часто, а, например, сочетание “йщ” вовсе не возможно). Частоты появления символов Pi и их пар Pij в закодированном сообщении можно вычислить непосредственно. Имея, далее, в распоряжении значения PA частот появления символов языка и их пар PAB , следует отождествить их с вычисленными значениями для кода. Наилучшее совпадение и даст требуемый ключ.Целевая функция этой задачи содержит пять слагаемых. Первые три слагаемых послностью совпадают с тремя первыми членами в выражении для энергии в задаче о комивояжере. Они определяют допустимость ключа (каждому символу языка соотвествует один символ кода). Остальные слагаемые отвечают за совпадение частот отдельных символов и частот пар в коде и языке. Полное выражение для целевой функции имеет вид:Целевая функция также, как и для задачи комивояжера, приводится к виду функции Ляпунова, после чего нейронная сеть выполняет требуемую расшифровку. Задачи

1. Непосредственным вычислением убедиться, что все образы обучающей выборки являются устойчивыми состояниями сети с ортогонализацией матрицы Хебба.

2. Для задачи комивояжера получить представление E(S) целевой функции в форме функции Ляпунова.

3. Вывести энергетическую функцию сети Хопфилда для задачи оптимального размещенния смесей кода и данных в многопроцессорной архитектуре “гиперкуб”.

Решение (Терехов С.А., Олейников П.В., 1994). В многопроцессорной ЭВМ этой архитектуры процессоры расположены в вершинах многомерного куба. Каждый процессор связан с ближайшими к нему узлами. На каждый процессор назначается некоторый фрагмент кода программы и локальные данные. В процессе вычислений процессоры обмениваются информацией, при этом скорость выполнения программ замедляется. Время, затрачиваемое на пересылку сообщения тем больше, чем дальше обменивающиеся процессоры расположены друг от друга.Требуется так разместить смеси кода и данных по реальным процессорам, чтобы максимально снизить потери на обмены информацией.

Как и в задаче комивояжера, обозначим процессоры заглавными буквами, а номера смесей - латинскими индексами. Если dXY - расстояние между процессорами, измеренное вдоль ребер гиперкуба (Хеммингово расстояние), а Dij - объем передаваемой информации между смесями i и j, то искомое решение должно минимизировать сумму adXYDij. Поэтому целевая функция представляется в виде:

E(S) = E1 +E2 +E3 + (h/2) ai aj aX aY (SXiSYjdXYDij)

Это выражение далее приводится к форме функции Ляпунова. Численные эксперименты с гиперкубами размерности 3, 4 и 5 показывают, что применение нейросетевого подхода позволяет получить умешение числа информационных обменов (и, соотвественно, повысить производительность ЭВМ) для некоторых задач в полтора раза.


ЛЕКЦИЯ 10. НЕОКОГНИТРОН Фукушимы.

КОГНИТРОН и НЕОКОГНИТРОН Фукушимы. Правила обучения. Инвариантное распознавание образов НЕОКОГНИТРОНОМ.В этой лекции мы переходим к рассмотрению некоторых относительно новых современных архитектур, среди которых прежде всего следует отметить НЕОКОГНИТРОН и его модификации. В следующей лекции будут обсуждаться варианты сетей, построенных на теории адаптивного резонанса (АРТ).

КОГНИТРОН: самоорганизующаяся многослойная нейросеть.

Создание КОГНИТРОНА (K.Fukushima, 1975) явилось плодом синтеза усилий нейрофизиологов и психологов, а также специалистов в области нейрокибернетики, совместно занятых изучением системы восприятия человека. Данная нейронная сеть одновременно является как моделью процессов восприятия на микроуровне, так и вычислительной системой, применяющейся для технических задач распознавания образов.КОГНИТРОН состоит из иерархически связанных слоев нейронов двух типов - тормозящих и возбуждающих. Состояние возбуждения каждого нейрона определяется суммой его тормозящих и возбуждающих входов. Синаптические связи идут от нейронов одного слоя (далее слоя 1) к следующему (слою 2). Относительно данной синаптической связи соотвествующий нейрон слоя 1 является пресинаптическим, а нейрон второго слоя - постсинаптическим. Постсинаптические нейроны связаны не со всеми нейронами 1-го слоя, а лишь с теми, которые принадлежат их локальной области связей. Области связей близких друг к другу постсинаптических нейронов перекрываются, поэтому активность данного пресинаптического нейрона будет сказываться на все более расширяющейся области постсинаптических нейронов следующих слоев иерархии. Вход возбуждающего постсинаптического нейрона (на Рис. 10.1 - нейрон i) определяется суммы E его возбуждающих входов (a1, a2 и a3) к сумме I тормозящих входов (b1 и вход от нейрона X):где u - возбуждающие входы с весами a, v-тормозящие входы с весами b. Все веса имеют положительные значения. По значениям E и I вычисляется суммарное воздействие на i-й нейрон: neti =((1+E)/(1+I))-1 . Его выходная активность ui затем устанавливается равной neti, если neti>0. В противном случае выход устанавливается равным нулю. Анализ формулы для суммарного воздействия показывает, что при малом торможении I оно равно разности возбуждающего и тормозящего сигналов. В случае же когда оба эти сигнала велики, воздействие ограничивается отношением. Такие особенности реакции соответствуют реакциям биологических нейронов, способных работать в широком диапазоне воздействий.

Рис. 10.1. Постсинаптический нейрон i слоя 2 связан с тремя нейронами в области связей (1,2 и 3) слоя 1 и двумя тормозящими нейронами (показаны темным цветом). Тормозящий нейрон X реализует латеральное торможение в области конкуренции нейрона i.

Пресинаптические тормозящие нейроны имеют ту же область связей, что и рассматриваемый возбуждающий постсинаптический нейрон i. При этом веса таких тормозящих нейронов (c1, c2 и c3) являются заданными и не изменяются при обучении. Их сумма равна единице, таким образом, выход тормозного пресинаптического нейрона равен средней активности возбуждающих пресинаптических нейронов в области связей:Обучение весов возбуждающих нейронов происходит по принципу "победитель забирает все" в области конкуренции - некоторой окрестности данного возбуждающего нейрона. На данном шаге модифицируются только веса ai нейрона с максимальным возбуждением:где cj - тормозящий вес связи нейрона j в первом слое, uj - состояние его возбуждения, q - коэффициент обучения. Веса тормозящего нейрона i второго слоя модифицируются пропорционально отношению суммы возбуждающих входов к сумме тормозящих входов:В случае, когда победителя в области конкуренции (на слое 2) нет, как это имеет место, например в начале обучения, веса подстраиваются по другим формулам:Данная процедура обучения приводит к дальнейшему росту возбуждающих связей активных нейронов и торможению пассивных. При этом веса каждого из нейронов в слое 2 настраиваются на некоторый образ, часто пред'являемый при обучении. Новое пред'явление этого образа вызовет высокий уровень возбуждения соответсвующего нейрона, при появлении же других образов, его активность будет малой и будет подавлена при латеральном торможении.Веса нейрона X, осуществляющего латеральное торможение в области конкуренции, являются немодифицируемыми, их сумма равна единице. При этом во втором слое выполняются итерации, аналогичные конкурентным итерациям в сети Липпмана-Хемминга, рассмотренной нами в 7-й лекции.Отметим, что перекрывающиеся области конкуренции близких нейронов второго слоя содержат относительно небольшое число других нейронов, поэтому конкретный нейрон-победитель не может осуществить торможение всего второго слоя. Следовательно, в конкурентной борьбе могут выиграть несколько нейронов второго слоя, обеспечивая более полную и надежную переработку информации.В целом КОГНИТРОН представляет собой иерархию слоев, последовательно связанных друг с другом, как было рассмотрено выше для пары слой 1 - слой 2. При этом нейроны слоя образуют не одномерную цепочку, как на Рис. 10.1, а покрывают плоскость, аналогично слоистому строению зрительной коры человека. Каждый слой реализует свой уровень обобщения информации. Входные слои чувствительны к отдельным элементарным структурам, например, линиям определенной ориентации или цвета. Последующие слои реагируют уже на более сложные обобщенные образы. В самом верхнем уровне иерархии активные нейроны определяют результат работы сети - узнавание определенного образа. Для каждого в значительной степени нового образа картинка активности выходного слоя будет уникальной. При этом она сохранится и при пред'явлении искаженной или зашумленной версии этого образа. Таким образом, обработка информации КОГНИТРОНОМ происходит с формированием ассоциаций и обобщений. Автором КОГНИТРОНА Фукушимой эта сеть применялась для оптического распознавания символов - арабских цифр. В экспериментах использовалась сеть с 4-мя слоями нейронов, упорядоченными в матрицы 1212 с квадратной областью связей каждого нейрона размером 55 и областью конкуренции в форме ромба с высотой и шириной 5 нейронов. Параметры обучения были равны q=16, q'=2. В результате было получено успешное обучение системы на пяти образах цифр (аналогичных картинкам с буквами, которые мы рассматривали для сети Хопфилда), при этом потребовалось около 20 циклов обучения для каждой картинки.Рис. 10.2. Смещенные друг относительно друга "одинаковые" образы требуют для установления их "одинаковости" инвариантного относительно произвольных сдвигов характера распознавания. Несмотря на успешные применения и многочисленные достоинства, как то соответствие нейроструктуры и механизмов обучения биологическим моделям, параллельность и иерархичность обработки информации, распределенность и ассоциативность памяти и др., КОГНИТРОН имеет и свои недостатки. По-видимому, главным из них является не способность этой сети распознавать смещенные или повернутые относительно их исходного положения образы. Так например, две картинки на Рис. 10.2 с точки зрения человека несомненно являются образами одной и той же цифры 5, однако КОГНИТРОН не в состоянии уловить это сходство.О распознавании образов независимо от их положения, ориентации, а иногда и размера и других деформации, говорят как об инвариантном относительно соотвествующих преобразований распознавании. Дальнейшие исследования группы под руководством К.Фукушимы привели к развитию КОГНИТРОНА и разработке новой нейросетевой парадигмы - НЕОКОГНИТРОНА, который способен к инвариантному распознаванию.

НЕОКОГНИТРОН и инвариантное распознавание образов.

Новая работа Фукушимы была опубликована в 1980 г. НЕОКОГНИТРОН хотя и имеет много общих черт с его прародителем КОГНИТРОНОМ, но одновременно он претерпел значительные изменения и усложнения, в соответствии с появлением новых нейробиологических данных (Hubel D.H., Wiesel T.N., 1977, и др.).НЕОКОГНИТРОН состоит из иерархии нейронных слоев, каждый из которых состоит из массива плоскостей. Каждый элемент массива состоит из пары плоскостей нейронов. Первая плоскость состоит из так называемых простых нейроклеток, которые получают сигналы от предыдущего слоя и выделяют определенные образы. Эти образы далее обрабатываются сложными нейронами второй плоскости, задачей которых является сделать выделенные образы менее зависимыми от их положения.Нейроны каждой пары плоскостей обучаются реагировать на определенный образ, представленный в определенной ориентации. Для другого образа или для нового угла поворота образа требуется новая пара плоскостей. Таким образом, при больших об'емах информации, НЕОКОГНИТРОН представляет собой огромную структуру с большим числом плоскостей и слоев нейронов.Простые нейроны чувствительны к небольшой области входного образа, называемой рецептивной областью (или что тоже самое, областью связей). Простой нейрон приходит в возбужденное состояние, если в его рецептивной области возникает определенный образ. Рецептивные области простых клеток перекрываются и покрывают все изображение. Сложные нейроны получают сигналы от простых клеток, при этом для возбуждения сложного нейрона достаточно одного сигнала от любого простого нейрона. Тем самым, сложная клетка регистрирует определенный образ независимо от того, какой из простых нейронов выполнил детектирование, и, значит, независимо от его расположения.По мере распространения информации от слоя слою картинка нейронной активности становится все менее чувствительной к ориентации и распололожению образа, и, в определенных пределах, к его размеру. Нейроны выходного слоя выполняют окончательное инвариантное распознавание.Рис. 10.3. Общая схема НЕОКОГНИТРОНА. Области связей показаны большими белыми кружками, а области конкуренции - маленькими темными.Обучение НЕОКОГНИТРОНА аналогично уже рассмотренному обучению КОГНИТРОНА. При изменяются только синаптические веса простых клеток. Тормозящие нейроны вместо средней активности нейронов в области связей используют квадратный корень из взвешенной суммы квадратов входов:Такая формула для активности тормозящей клетки менее чувствительна к размеру образа. После выбора простого нейрона, веса которого будут обучаться, он рассматривается в качестве представителя слоя, и веса всех остальных нейронов будут обучаться по тем же правилам. Таким образом, все простые клетки обучаются одинаково, выдавая при распознавании одинаковую реакцию на одинаковые образы.Для уменьшения об'ема обрабатываемой информации решептивные поля нейронов при переходе со слоя на слой расширяются, а число нейронов уменьшается. В выходном слое на каждой плоскости остается только один нейрон, рецептивное поле которого покрывает все поле образа предыдущего слоя. В целом функционирование НЕОКОГНИТРОНА происходит следующим образом. Копии входного изображения поступают на все плоскости простых клеток первого слоя. Далее все плоскости функционируют параллельно, передавая информацию следующему слою. По достижении выходного слоя, в котором каждая плоскость содержит один нейрон, возникает некоторое окончательное распределение активности. На результат распознавания указывает тот нейрон, активность которого оказалась максимальной. При этом существенно разным входным изображениям будут соответствовать разные результаты распознавания. НЕОКОГНИТРОН успешно проявил себя при распознавании символов. Нужно отметить, что структура этой сети необычайно сложна, и об'ем вычислений очень велик, поэтому компьютерные модели НЕОКОГНИТРОНА будут слишком дорогими для промышленных приложений. Возможной альтернативой является, конечно, переход на аппаратные или оптические реализации, однако их рассмотрение находится за рамками этой книги.
ЛЕКЦИЯ 11. Теория адаптивного резонанса.Проблема стабильности - пластичности при распознавании образов. Принцип адаптивного резонаса Стефана Гроссберга и Гейл Карпентер. Нейросетевые архитектуры AРT.

Дилемма стабильности-пластичности восприятия.

Проблема стабильности-пластичности является одной из самых сложных и трудно решаемых задач при построении искусственных систем, моделирующих восприятие. Характер восприятия внешнего мира живыми организмами (и, прежде всего, человеком) постоянно связан с решением дилеммы, является ли некоторый образ "новой" информацией, и следовательно реакция на него должна быть поисково-познавательной, с сохранением этого образа в памяти, либо этот образ является вариантом "старой", уже знакомой картиной, и в этом случае реакция организма должна соотвествовать ранее накопленному опыту. Специальное запоминание этого образа в последнем случае не требуется. Таким образом, восприятие одновременно пластично, адаптированно к новой информации, и при этом оно стабильно, то есть не разрушает память о старых образах.Рассмотренные на предыдущих лекциях нейронные системы не приспособлены к решению этой задачи. Так например, многослойный персептрон, обучающийся по методу обратного распространения, запоминает весь пакет обучающей информации, при этом образы обучающей выборки пред'являются в процессе обучения многократно. Попытки затем обучить персептрон новому образу приведут к модификации синаптических связей с неконтролируемым, вообще говоря, разрушением структуры памяти о предыдущих образах. Таким образом, персептрон не способен к запоминанию новой информации, необходимо полное переобучение сети.Аналогичная ситуация имеет место и в сетях Кохонена и Липпмана-Хемминга, обучающихся на основе самоорганизации. Данные сети всегда выдают положительный результат при классификации. Тем самым, эти нейронные сети не в состоянии отделить новые образы от искаженных или зашумленных версий старых образов.Исследования по проблеме стабильности-пластичности, выполненные в Центре Адаптивных Систем Бостонского университета под руководством Стефана Гроссберга, привели к построению теории адаптивного резонанса (АРТ) и созданию нейросетевых архитектур нового типа на ее основе. Мы переходим к рассмотрению общих положений АРТ, выдвинутых С.Гроссбергом в 1976 г. и подробно изложенных в основополагающей работе 1987 г (S.Grossberg, G.Carpenter, 1987).

Принцип адаптивного резонанса.

Привлекательной особенностью нейронных сетей с адаптивным резонансом является то, что они сохраняют пластичность при запоминании новых образов, и, в то же время, предотвращают модификацию старой памяти. Нейросеть имеет внутренний детектор новизны - тест на сравнение пред'явленного образа с содержимым памяти. При удачном поиске в памяти пред'явленный образ классифицируется с одновременной уточняющей модификацией синаптических весов нейрона, выполнившего классификацию. О такой ситуации говорят, как о возникновении адаптивного резонанса в сети в ответ на пред'явление образа. Если резонанс не возникает в пределах некоторого заданного порогового уровня, то успешным считается тест новизны, и образ воспринимается сетью, как новый. Модификация весов нейронов, не испытавших резонанса, при этом не производится.Важным понятием в теории адаптивного резонанса является так называемый шаблон критических черт информации. Этот термин показывает, что не все черты (детали), представленные в некотором образе, являются существенными для системы восприятия. Результат распознавания определяется присутствием специфичных критических особенностей в образе. Рассмотрим это на примере. Рис. 11.1. Иллюстрация к понятию критических черт образа. Обе пары картинок на Рис. 11.1 имеют общее свойство: в каждой из пар черная точка в правом нижнем углу заменена на белую, а белая точка левом нижнем углу - на черную. Такое изменение для нижней пары картинок (на рисунке - пара (b)), очевидно, является не более чем шумом, и оба образа (b) являются искаженными версиями одного и того же изображения. Тем самым, измененные точки не являются для этого образа критическими.Совершенно иная ситуация имеет место для верхней пары картинок (a). Здесь такое же изменение точек оказывается слишком существенным для образа, так что правая и левая картинки являются различными образами. Следовательно, одна и та же черта образа может быть не существенной в одном случае, и критической в другом. Задачей нейронной сети будет формирование правильной реакции в обоих случаях: "пластичное" решение о появлении нового образа для пары (a) и "стабильное" решение о совпадении картинок (b). При этом выделение критической части информации должно получаться автоматически в процессе работы и обучения сети, на основе ее индивидуального опыта.Отметим, что в общем случае одного лишь перечисления черт (даже если его предварительно выполнит человек, предполагая определенные условия дальнейшей работы сети) может оказаться недостаточно для успешного функционирования искусственной нейронной системы, критическими могут оказаться специфические связи между несколькими отдельными чертами.Вторым значительным выводом теории выступает необходимость самоадатации алгоритма поиска образов в памяти. Нейронная сеть работает в постоянно изменяющихся условиях, так что предопределенная схема поиска, отвечающая некоторой структуре информации, может в дальнейшем оказаться неэффективной при изменении этой структуры. В теории адаптивного резонанса это достигается введением специализированной ориентирующей системы, которая самосогласованно прекращает дальнейший поиск резонанса в памяти, и принимает решение о новизне информации. Ориентирующая система также обучается в процессе работы.В случае наличия резонанса теория АРТ предполагает возможность прямого доступа к образу памяти, откликнувшемуся на резонанс. В этом случает шаблон критических черт выступает ключем-прототипом для прямого доступа.Эти и другие особенности теории адаптивного резонанса нашли свое отражение в нейросетевых архитектурах, которые получили такое же название - АРТ.

Нейронная сеть AРT-1.

Имеется несколько разновидностей сетей АРТ. Исторически первой явилась сеть, в дальнейшем получившая название АРТ-1 (S.Grossberg, G.Carpenter, 1987). Эта сеть ориентирована на обработку образов, содержащих двоичную информацию. Дальнейший шаг - архитектура АРТ-2, опубликованная в том же 1987 году (S.Grossberg, G.Carpenter, 1987) - ориентирована на работу как с двоичными, так и с аналоговыми образами. В появившеемся относительно недавно сообщении о системе АРТ-3 (G.Carpenter, 1990) говорится о распространении адаптивной резонансной теории Гроссберга и Карпентер на многослойные нейроархитектуры. В нашей лекции мы остановимся на классической сети АРТ-1.Нейросистема АРТ-1 является классификатором входных двоичных образов по нескольким сформированным сетью категориям. Решение принимается в виде возбуждения одного из нейронов распознающего слоя, в зависимости от степени похожести образа на шаблон критических черт данной категории. Если эта степень похожести невелика, т.е. образ не соответствует ни одной из имеющихся категорий, то для него формируется новый класс, который в дальнейшем будет модифицироваться и уточняться другими образами, формируя свой шаблон критических признаков. Для описания новой категории отводится новый, ранее не задействованный нейрон в слое распознавания.Полное описание структуры сети адаптивного резонанса и теории ее работы, представленное в оригинальной публикации Гроссберга и Карпентер, является весьма громоздким, поэтому в своем изложении мы будем следовать более поздней книге Ф.Уоссермена , дополнив ее общим описанием особенностей АРТ-2 и новой архитектуры АРТ-3.Сеть АРТ-1 состоит из пяти функциональных модулей (Рис. 11.2): двух слоев нейронов - слоя сравнения и слоя распознавания, и трех управляющих специализированных нейронов - сброса, управления 1 и управления 2. Рис. 11.2. Общая схема нейронной сети АРТ-1. Начальное значение нейрона управления 1 полагается равным единице: G1=1. Входной двоичный вектор X поступает на слой сравнения, который первоначально пропускает его без изменения, при этом выходной вектор слоя сравнения C=X. Это достигается применением так называемого правила 2/3 для нейронов слоя сравнения. Каждый из нейронов этого слоя имеет три двоичных входа - сигнал от соответствующей компоненты вектора X, сигнал от нейрона управления 1 и сигнал обратной связи из слоя распознавания P (который в начальный момент равен нулю). Для активации нейрона в слое сравнения требуется, чтобы по крайней мере два из трех сигналов были равны единице, что и достигается в начальный момент входом от управления 1 и активными компонентами вектора X.Выработанный слоем сравнения сигнал C поступает на входы нейронов слоя распознавания. Каждый нейрон слоя распознавания имеет вектор весов bj - действительных чисел, при этом возбуждается только один нейрон этого слоя, вектор весов которого наиболее близок к C. Это может быть достигнуто, например, за счет механизма латерального торможения типа "Победитель забирает все" (Лекция 7). Выход нейрона-победителя устанавливается равным единице, остальные нейроны полностью заторможены. Сигнал обратной связи от нейрона-победителя поступает обратно в слой сравнения через синаптические веса T. Вектор T, по существу, является носителем критических черт категории, определяемой выигравшим нейроном.Выход нейрона управления 1 равен единице, только когда входной образ X имеет ненулевые компоненты, то есть этот нейрон выполняет функцию детекции факта поступления образа на вход. Однако, когда возникает ненулевой отклик нейронов слоя распознавания R, значение управления 1 зануляется G1=0.Сигнал нейрона управления 2 также устанавливается на единицу при ненулевом векторе X. Задачей этого нейрона является погашение активность на слое распознавания, если в сеть не поступило никакой информации.Итак, при генерации отклика R слоя распознавания выход G1=0, и теперь нейроны слоя сравнения активируются сигналами образа X и отклика R. Правило двух третей приводит к ативации только тех нейронов слоя сравнения, для которых и X, и R являются единичными. Таким образом, выход слоя сравнения C теперь уже не равен в точности X, а содержит лишь те компоненты X, которые соответствуют критическим чертам победившей категории. Этот механизм в теории АРТ получил название адаптивной фильтрации образа X.Теперь задачей системы является установить, достаточен ли набор этих критических черт для окончательного отнесения образа X к категории нейрона-победителя. Эту функцию осуществляет нейрон сброса, который измеряет сходство между векторами X и C. выход нейрона сброса определяется отношением числа единичных компонент в векторе C к числу единичных компонент исходного образа X. Если это отношение ниже некоторого определенного уровня сходства, нейрон выдает сигнал сброса, означающий что уровень резонанса образа X с чертами предлагаемой категории не достаточен для положительного заключения о завершении классификации. Условием возникновения сигнала сброса является соотношение , где <1 - параметр сходства.Сигнал сброса выполняет полное торможение нейрона-победителя-неудачника, который не принимает в дальнейшем участия в работе сети.Опишем последовательно события, происходящие в сети АРТ в процессе классификации.

Начальное состояние сети.

Нулевые значения компонент входного вектора X устанавливают сигнал нейрона управления 2 в нуль, одновременно устанавливая в нуль выходы нейронов слоя распознавания. При возникновении ненулевых значений X, оба сигнала управления (G1 и G2) устанавливаются равными единице. При этом по правилу двух третей выходы нейронов слоя сравнения C в точности равны компонентам X.Вектор C поступает на входы нейронов слоя распознавания, которые в конкурентной борьбе определяют нейрон-победитель, описывающий предполагаемый результат классификации. В итоге выходной вектор R слоя распознавания содержит ровно одну единичную компоненту, остальные значения равны нулю. Ненулевой выход нейрона-победителя устанавливает в нуль сигнал управления 1: G1=0. По обратной связи нейрон-победитель посылает сигналы в слой сравнения, и начинается фаза сравнения.

Фаза сравнения.

В слое сравнения веер сигналов отклика слоя распознавания сравнивается с компонентами вектора X. Выход слоя сравнения C теперь содержит единичные компоненты только в тех позициях, в которых единицы имеются и у входного вектора X и у вектора обратной связи P. Если врезультате сравнения векторов C и X не будет обнаружено значительных отличий, то нейрон сброса остается неактивным. Вектор C вновь вызовет возбуждение того-же нейрона-победителя[29] в слое распознавания, что и удачно завершит процесс классификации. В противном случае будет выработан сигнал сброса, который затормозит нейрон-победитель в слое распознавания, и начнется фаза поиска.

Фаза поиска.

В результате действия тормозящего сигнала сброса все нейроны слоя распознавания получат нулевые выходы, и, следовательно, нейрон управления 1 примет единичное значение активности. Снова выходной сигнал слоя сравнения C установится равным в точности X, как и в начале работы сети. Однако теперь в конкурентной борьбе в слое распознавания предыдущий нейрон-победитель не участвует, и будет найдена новая категория - кандидат. После чего опять повторяется фаза сравнения.Итерационный процесс поиска завершается двумя возможными способами. 1) Найдется запомненная категория, сходство которой с входным вектором X будет достаточным для успешной классификации. После этого происходит обучающий цикл, в котором модифицируются веса bi и ti векторов B и T возбужденного нейрона, осуществившего классификацию. 2) В процессе поиска все запомненные категории окажутся проверенными, но ни одна из них не дала требуемого сходства. В этом случае входной образ X об'является новым для нейросети, и ему выделяется новый нейрон в слое распознавания. Весовые вектора этого нейрона B и T устанавливаются равными вектору X.Важно понимать, почему вообще требуется фаза поиска и окончательный результат классификации не возникает с первой попытки. Внимательный читатель вероятно уже обнаружил ответ на это вопрос. Обучение и функционирование сети АРТ происходит одновременно. Нейрон-победитель определяет в пространстве входных векторов ближайший к заданному входному образу вектор памяти, и если бы все черты исходного вектора были критическими, это и было бы верной классификацией. Однако множество критических черт стабилизируется лишь после относительно длительного обучения. На данной фазе обучения лишь некоторые компоненты входного вектора принадлежат актуальному множеству критических черт, поэтому может найтись другой нейрон-классификатор, который на множестве критических черт окажется ближе к исходному образу. Он и определяется в результате поиска.Отметим, что после относительной стабилизации процесса обучения классификация выполняется без фазы поиска. В этом случае говорят, что формируется прямой доступ к памяти. Возникновение в процессе обучения прямого доступа доказывается в теории АРТ.

Обучение сети АРТ.

В начале функционирования все веса B и T нейронов, а также параметр сходства получают начальные значения. Согласно теории АРТ, эти значения должны удовлетворять условиюгде m - число компонент входного вектора X, значение L>1 (например L=2). Такой выбор весов будет приводить к устойчивому обучению. Уровень сходства выбирается на основе требований решаемой задачи. При высоких значениях этого параметра будет сформировано большое число категорий, к каждой из которых будут относиться только очень похожие вектора. При низком уровне сеть сформирует небольшое число категорий с высокой степенью обобщения.Процесс обучения происходит без учителя, на основе самоорганизации. Обучение производится для весов нейрона-победителя в случае как успешной, так и неуспеншной классификации. При этом веса вектора B стремятся к нормализованной величине компонент вектора C:При этом роль нормализации компонент крайне важна. Вектора с большим число единиц приводят к небольшим значениям весов b, и наоборот. Таким образом, произведение оказывается масштабированным. Масштабирование приводит к тому, что возможно правильное различение векторов, даже если один является подмножеством другого. Пусть нейрон X1 соответствует образу (100000), а нейрон X2 - образу (111100). Эти образы являются, очевидно, различными. При обучении без нормализации (т.е. bi ci ) при поступлении в сеть первого образа, он даст одинаковые скалярные произведения, равные 1, как с весами нейрона X1, так и X2. Нейрон X2, в присутствии небольших шумовых отклонений в значениях весов, может выиграть конкуренцию. При этом веса его вектора T устаноятся равными (100000), и образ (111100) будет безвозвратно "забыт" сетью.При применении нормализации исходные скалярные произведения будут равны единице для нейрона X1, и значению 2/5 для нейрона X2 (при L=2). Тем самым, нейрон X1 заслуженно и легко выиграет конкурентное соревнование.Компоненты вектора T, как уже говорилось, при обучении устанавливаются равными соответвующим значениям вектора C. Следует подчеркнуть, что это процесс необратим. Если какая-то из компонент tj оказалась равной нулю, то при дальнейшем обучении на фазах сравнения соотвествующая компонента cj никогда не получит подкрепления от tj=0 по правилу 2/3, и, следовательно, единичное значение tj не может быть восстановлено. Обучение, таким образом, сопровождается занулением все большего числа компонент вектора T, оставшиеся ненулевыми компоненты определяют множество критических черт данной категории. Эта особенность проиллюстрирована на Рис. 11.3.Рис. 11.3. Обучающие образы C и сформированный вектор критических черт T - минимальный набор общих элементов категории. Остановимся теперь кратко на основных теоремах теории АРТ, характеризующих обучение и функционирование сети. Некоторые из них нами уже упоминались в тексте.

Теоремы АРТ.

1. По достижении стабильного состояния обучения пред'явление одного из обучающих векторов будет сразу приводить к правильной классификации без фазы поиска, на основе прямого доступа.2. Процесс поиска устойчив (см. сноску на стр. 7).3. Процесс обучения устойчив. Обучение весов нейрона-победителя не приведет в дальнейшем к переключению на другой нейрон.4. Процесс обучения конечен. Обученное состояние для заданного набора образов будет достигнуто за конечное число итерации, при этом дальнейшее пред'явление этих образов не вызовет циклических изменений значений весов.

Дальнейшее развитие АРТ: архитектуры АРТ-2 и АРТ-3.

 

Нерешенные проблемы и недостатки АРТ-1.

Нейронные сети АРТ, при всех их замечательных свойствах, имеют ряд недостатков. Одним из них является большое количество синаптических связей в сети, в расчете на единицу запоминаемой информации. При этом многие из весов этих связей (например, веткора T) оказываются после обучения нулевыми. Эту особенность следует учитывать при аппаратных реализациях. Сеть АРТ-1 приспособлена к работе только с битовыми векторами. Это неудобство преодолевается в сетях АРТ-2 и АРТ-3. Однако в этих архитектурах, равно как и в АРТ-1, сохраняется главный недостаток АРТ - локализованность памяти. Память нейросети АРТ не является распределенной, некоторой заданной категории отвечает вполне конкретный нейрон слоя распознавания. При его разрушении теряется память обо всей категории. Эта особенность, увы, не позволяет говорить о сетях адаптивной резонансной теории, как о прямых моделях биологических нейронных сетей. Память последних является распределенной.

Сети АРТ-2 и АРТ-3.

Основной отличительной чертой нейронной сети АРТ-2 является возможность работы с аналоговыми векторами и сигналами. По сравнению с АРТ-1 в архитектуре сети сделаны некоторые изменения, позволяющие отдельным подсистемам функционировать асинхронно, что принципиально для аппаратных реализаций.Важным отличием аналоговых сигналов от битовых является принципиальная возможность аналоговых векторов быть сколь угодно близкими друг к другу (в то время как простанство битовых векторов дискретно). Это накладывает дополнительные требования на функционирование нейронов слоя сравнения - требуется более тонкий и чувствительный механизм для выделения областей резонанса. Общим решением здесь является переход к многослойной архитектуре, с все более точной настройкой при переходе от слоя к слою, что и применено в АРТ-2. Функционирование слоя распознавания принципиально не изменяется. Сети АРТ-2 применялись для распознавания движущихся изображений. Успешные эксперименты выполнены в Массачусетском Технологическом Институте (MIT). Поскольку нейросистемы АРТ не содержат механизма инвариантного распознавания (в отличие от НЕОКОГНИТРОНА, см. предыдущую лекцию), то в сочетании с ними применяются специализированные (часто не нейросетевые) системы инвариантного представления образов, например двумерное преобразование Фурье, или более сложные алгоритмы. Более подробное рассмотрение особенностей и применений АРТ-2 требует профессионального изучения и не входит в наши цели.Следующим шагом в развитии АРТ явилась сеть АРТ-3. Особенности обучения нейронов сетей АРТ-1 и АРТ-2 не позволяют использовать эти сети, как элементы более крупных иерархических нейросистем, в частности, компоновать из них многослойные сети. Это затрудняет представление в АРТ иерархически организованной информации, что характерно для систем восприятия человека и животных. Эти проблемы решены в сети АРТ-3, которая выступает как многослойная архитектура. При переходе от слоя к слою происходит контрастирование входных образов и запоминание их в виде все более общих категорий. При этом основной задачей каждого отдельного слоя является сжатие входящей информации.Образ входит в адаптирующийся резонанс между некоторой парой слоев, в дальнейшем этот резонанс рапространяется на следующие слои иерархии. В АРТ-1 и АРТ-2 недостаточный уровень резонанса приводил к генерации сигнала сброса, что приводило к полному торможению слоя распознавания. В случае многослойной сети АРТ-3 это недопустимо, так как это разрывает поток информации. Поэтому в АРТ-3 введен специальный механизм зависимости активности синапсов обратных связей от времени, аналогичный рефрактерному торможению биологического нейрона после передачи возбуждения. Поэтому вместо полного сброса сигнала происходит торможение синаптических сигналов обратной связи, и слой сравнения получает исходное состояние возбуждения для выполнения фазы поиска нового резонанса.Интересным предложением является также использование в многослойной иерархии слоев, которые не являются слоями АРТ, а принадлежат некоторой другой архитектуре. В этом случае система получается гибридной, что может привести к возникновению новых полезных свойств.Развитие теории АРТ продолжается. По высказыванию авторов теории, АРТ представляет собой нечто существенно более конкретное, чем философское построение, но намного менее конкретное, чем законченная программа для компьютера. Однако уже в современном виде, опираясь на свою более чем 20-летнюю историю, сети АРТ демонстрируют свои успешные применения в различных областях. АРТ сделала также важный шаг в общей проблеме моделирования пластично-стабильного восприятия.

ЛЕКЦИЯ 12. Черты современных архитектур.

Современные архитектуры нейронных сетей. Актуальные направления фундаментальных исследований. Программные и аппаратные реализации нейронных сетей. Нейропроцессоры. Научные и промышленные приложения.

Черты современных архитектур.

Классические исследования, выполненные в послевоенные годы и дальнейших бурный прогресс в нейроинформатике в 80-е годы определили некоторые общие черты перспективных архитектур и направления исследований. И, хотя любые оценки в этой области весьма суб'ективны, автор счел возможным изложить свою точку зрения на наблюдающиеся тенденции. Остановимся на некоторых из них.1) Плотное сопряжение теоретических исследований с поиском новых физических принципов и физических сред для аппаратной реализации нейронных сетей. Здесь прежде всего следует отметить оптичекие системы, как линейные, так и нелинейные: фурье-оптика, голограммы, нелинейные фоторефрактивные кристаллы, оптические волноводные волокна, электронно-оптические умножители и другие. Перспективными также являются среды с естественными автоволновыми свойствами (химические и биологические). Все эти среды реализуют важное свойство массивной параллельности при обработке информации. Кроме того, они, как правило, содержат механизмы "саморегулирования", позволяющие организовывать обучение без учителя.2) Иерархичность архитектур и разделение функций нейронов. В современных архитектурах используются слои или отдельные нейроны нескольких различных типов: командные нейроны-переключатели, пороговые нейроны, нейронные слои с латеральным торможением, работающие по принципу "победитель забирает все". Априорное разделение функций нейронов значительно упрощает обучение, так как сеть изначально структурно соответствует задаче3) Преимущественное использование методов обучения без учителя, за счет самоорганизации. Эти методы имеют глубокие биологические основания, они обеспечивают локальный характер обучения. Это позволяет не применять глобальную связность сети. С учителем обучаются только внешние, выходные слои нейронов, причем роль учителя часто сводится только к общей эксперной оценке качества работы сети. 4) Ориентация исследований и архитектур непосредственно на приложения. Модели общего характера, такие как сеть Хопфилда или многослойный персептрон, в основном представляют научный интерес, так как допускают относительно полное теоретическое исследование. Этот список является, разумеется, далеко не полным. В него не включены, наприме, современные исследования в области гибридных неронно-экспертных систем, использующих как формальную логику, так и ассоциативное узнавание. Читатель также может и сам проанализировать рассматриваемые типы нейронных сетей на предмет выявления общих свойств и тенденций.

Сегодняшний день нейронауки.

Некоторые сведения из истории нейронауки читатель уже почерпнул во введении. Фундаментальные исследования в теории нейронных сетей и интеллектуальных методов обработки информации достигли новой фазы после ряда состоявшихся начиная с 1986 г. специализированных конференций, непосредственно посвященных нейронауке. Осенью 1988 г. было учреждено Международное общество нейросетей (INNS - International Neural Networks Society), которое координирует мировую "нейроактивность".Предстоящий летом 1994 г. Всемирный конгресс по нейронным сетям, организуемый этим обществом, подведет основные итоги и проявит современное состояние фундаментальных исследований. Для охвата тенденций развития нейронауки в целом мы остановимся на основных тематических вопросах программы этого конгресса. 1. Биологическое зрение. Этот раздел возглавляет С.Гроссберг.2. Машинное зрение. Раздел охватывает аспекты моделирования зрительных функций в технических системах. Особое внимание будет уделено принципам избирательного внимания к объектам зрительной сцены.3. Речь и язык. Различные аспекты синтеза и распознавания речи.4. Биологические нейронные сети. Тематика раздела охватывает свойства отдельных нейронов, нейронных сетей управления движением и слухом, аспекты обучения в биологических сетях, а также пути перехода от биологических нейронов к искусственным (кремниевым).5. Нейроуправление и робототехника.6. Обучение с учителем.7. Обучение без учителя.8. Распознавание образов.9. Прогноз и идентификация систем. Рассматриваются методы кибернетического моделирования сложных систем на базе нейронных сетей.10. Нейронаука о сознании. Аспекты организации и моделирования высшей нервной деятельности.11. Связь науки о сознании с искусственным интеллектом.12. Нечеткие нейронные системы. Построение нейромоделей нечеткой логики.13. Обработка сигналов. Одна из старейших областей приложений нейронных сетей и теории распознавания образов - выделение и анализ свойств сигнала из шума.14. Нейродинамика и хаос. Сюда относятся свойства нейронных сетей, как нелинейных динамических систем.15. Аппаратные реализации. Ключевой вопрос перспективных приложений - новые физические принципы и среды для обработки информации.16. Ассоциативная память.17. Приложения. Данный раздел будет, по-видимому, наиболее широко представлен.18. Нейровычисления и виртуальная реальность. Здесь рассматривается возможность применения нейронных сетей и высокопараллельных вычислений на них для создания искусственной реальности. Сложная аппаратно-программная система виртуальной реальности моделирует основные сигналы, воспринимаемые человеком от внешнего мира, и реагирует на его действия, подменяя собой реальный мир.19. Сети и системная нейронаука. Основное внимание в этом разделе будет уделено временному поведению сигналов в нейронных контурах как биологических, так и искусственных сетей.20. Математические основания. Некоторые разделы, такие, например, как обучение с учителем и без учителя, нейродинамика и ассоциативная память, распознавание образов, решение математических задач на нейронных сетях, в виде основных классических результатов были затронуты в этой книге. Другие, возможно, знакомы читателю из других книг (в том числе, и из научно-фантастических). Некоторые показались совершенно новыми. По всем из них мы с нетерпением будем ждать результатов работы конгресса.

Программное и аппаратное обеспечение. Нейро-ЭВМ.

К настоящему времени сформировался обширный рынок нейросетевых продуктов. Подавляющее большинство продуктов представлено в виде моделирующего программного обеспечения. Ведущие фирмы разрабатывают также и специализированные нейрочипы или нейроплаты в виде приставок к обычным ЭВМ (как правило, персональным ЭВМ линии IBM PC AT). При этом программы могут работать как без нейро-приставок, так и с ними. В последнем случае быстродействие гибридной ЭВМ возрастает в сотни и тысячи раз.Перечислим некоторые наиболее извесные и популярные нейросистемы и их производителей.Пакет программ NeuralWorks Professional II Plus. Это одна из последних версий программного продукта NeuralWorks, разработаного фирмой NeuralWare. Пакет содержит программные модели десятков архитектур нейронных сетей (в том числе, некоторые из рассмотренных в этой книге). Фирма объявила также о выпуске версии пакета для рабочих станций типа SUN и параллельных процессоров nCUBE.Пакет программ ExploreNet 3000. Разработка фирмы HNC, основанной профессором Робертом Хехт-Нильсеном. Пакет предоставляет широкие фозможности по моделированию и управлению данными. В качестве ускорителя используется аппаратные разработки фирмы HNC - нейропроцессоры ANZA и ANZA+, являющиеся одними из первых аппаратных решений. Фирма предложила также средство для разработки прикладных программ - специализированный язык программирования AXON, основанный на языке C.Оболочка NeuroShell 2.0. Достоинством этой программы является совместимость с популярным пакетом управления данными MicroSoft Excel, что делает продукт удобным для массового использования.В России известны также разработки НИИ многопроцессорных вычислительных систем, г.Таганрог (СБИС для цифровых нейрокомпьютеров, имеющая около 100000 вентилей и работающая на частоте 20 МГц), Московского центра нейрокомпьютеров (аппаратные системы на основе транспьютеров). Среди программных систем следует отметить разработки кафедры нейрокибернетики Красноярского университета, системы распознавания образов НИИ нейрокибернетики Ростовского университета и Института прикладной физики в Нижнем Новгороде.В 1993 немецкая фирма Simens объявила о выпуске самого быстродействующего на сегодняшний день нейрокомпьютера, названного SYNAPSE-I. Этот нейрокомпьютер в целом представляет собой систему из управляющей (host) машины и специализированного нейропроцессора с локальной памятью для синаптических весов. В каждой нейросетевой парадигме можно выделить относительно небольшой набор операций, специфических для нейронных сетей, который может быть очень эффективно в параллельном режиме выполнен на специализированном процессоре. К таким операциям относятся, например, умножение и сложение матриц и векторов, транспонирование матриц, вычисление пороговых преобразований, параллельное вычисление табличных функций и другие. Оставшиеся фрагменты алгоритма, имеющие развитую логику, но требующие обычно лишь несколько процентов от общего времени вычислений, могут быть успешно выполнены и на обычной ЭВМ. В нейрокомпьютере SYNAPSE-1 в качестве такой host-машины выступает рабочая станция Sun Sparc Station II. Плановое ускорение на нейро-операциях в SYNAPSE-1 будет составлять 8000 раз (!) по сравнению с host-станцией. Для пользователя предусмотрены удобный проблемно-ориентированный на нейросети язык программирования nAPL, среда программирования на языке C++ и удобная UNIX-совместимая операционная система. Перечисленные выше нейросистемы являются относительно дорогими и предназначены в основном для профессионального использования. В учебно-исследовательских целях в приложении к этой книге приведена простая программа, реализующая алгоритмы обучения и распознавания однослойного персептрона. Читатель, знакомый с языком программирования Паскаль, может использовать эту программу, снабдив ее модулями ввода-вывода, для экспериментирования с нейроной сетью, а также в качестве введения в технологию создания нейропрограммного обеспечения.

Итоги.

Эта книга завершена, но в нейронауке, разумеется, рано ставить точку. Автор надеется, что этот учебник не только выполнит свою основную функцию - систематическое введение в теорию нейронных сетей - но и поможет приблизиться к ответу на важный вопрос: являются ли искусственные нейронные сети долгожданным магистральным направлением, в котором будет продолжаться развитие методов искусственного интеллекта, или же они окажутся веянием своеобразной моды, как это ранее было с экспертными системами и некоторыми другими аппаратами научных исследований (например, диаграммами Фейнмана), от которых вначале ожидали революционных прорывов. Постепенно, однако, эти методы обнаруживали свои ограничения и занимали соответсвующее (но достойное!) место в общей структуре науки.Сегодня нейронные сети уже не являются уделом небольшой группы теоретиков. К нейросетевым приложениям подключаются инженеры и исследователи разных специальностей. Особенно радует прогресс в построении удачных нейросетевых моделей исследуемых явлений, полностью базирующихся на экспериментальных данных. Здесь наиболее полно проявляются замечательные свойства искусственных нейронных систем: массивная параллельность обработки информации, ассоциативность памяти и возможность к обучению на опыте. Это открывает новые перспективы для систематизации многочисленной экспериментальной информации в таких областях знаний, где традиционно трудно приживается математический формализм, например, в медицине, психологии и истории.



Среди них - дифференциальные уравнения, применяемые для анализа нейронных сетей в непрерывном времени, а также для построения детальных моделей нейрона; Фурье-анализ для описания поведения системы при кодировании в частотной области; теория оптимизации как основа для разработки алгоритмов обучения; математическая логика и булева алгебра - для описания двоичных сетей, и другие.

 

Ф.Г.Гантмахер. Теория матриц. М.Наука, 1988.

Н.Грин, У.Стаут, Д.Тейлор. Биология. Под.ред. Р.Сопера.Тт.1-3, М.Мир, 1990.

Г.Шеперд. Нейробиология. Тт. 1-2, М.Мир, 1987.

Ф.Блум, А.Лейзерсон, Л.Хофстедтер. Мозг, разум и поведение. М.Мир, 1988.

Здесь мы полностью следуем изложенному в книге Ф.Блума, А.Лейзерсона и Л.Хофстедтера.

W.S.McCulloch and W.Pitts. A logical calculus of the ideas immanent in nervous activity. Bull. Math. Biophys., 5, 115-133 (1943). Имеется русский перевод этой статьи в книге "Автоматы" под редакцией К.Э.Шеннона и Дж.Маккарти, Москва, Издательство иностранной литературы, 1956 г.

Дискуссионные вопросы, касающиеся возможности моделирования психики, сознания и т.п. находятся за рамками этой книги.

 В качестве учителя может выступать другая, уже обученная, нейронная сеть. При этом для оценки ошибки сравниваются выходы обеих сетей.

При рассмотрении соответсвующих пространств предполагается использование обычных векторных операций сложения и умножения на скаляр (подробнее см. лекцию 2).

 Термин “фазовое пространство” пришел из статистической физики систем многих частиц, где под ним понимается совокупность координат и импульсов всех частиц, составляющих систему.

При условии, конечно, если функция не задана явно, например, формулой. Однако для явно заданных функций обычно не возникает потребности представления их нейросетевыми моделями.

 Б.Банди. Методы оптимизации. М. Радио и связь, 1988

 Здесь не рассматривается ситуация, когда топология сети меняется в процессе обучения.

 В том же 1986 г. аналогичный (и даже более общий) метод обучения - метод двойственного функционирования - был предложен русским ученым В.А.Охониным.

 В соотвествии с принятой в лекции 4 терминологией, такую сеть мы будем называть двухслойной, по числу слоев обрабатывающих нейроподобных элементов.

 Хотя индексы в формулах являются “немыми”, введенные обозначения не вызовут недоразумений.Нужно отметить, что последовательная динамика в сети Хопфилда всегда приводит к одному устойчивому состоянию, токда как параллельная динамика может закончиться циклом из пары сменяющих друг друга состояний.

Функция E также является и ограниченной, в силу конечности каждого из сомножителей и слагаемых.

Это утверждение составляет содержание теоремы Коэна-Гроссберга (M.Cohen, S.Grossberg, 1983).

Точнее здесь термин авто-ассоциативность, поскольку более общее понятие ассоциативности включает также и гетеро-ассоциативность, т.е. способность к восстановления одного образа пары по известному другому на основе связывающих их ассоциаций. Под ассоциативной связью вообще понимается такая связь между частями сложной системы, природа которой не устанавливается из рассмотрения этих частей по отдельности. Более подробную информацию можно найти в монографии Г.Николис, И.Пригожин. Познание сложного.М.Мир, 1990.

 Набор из N ортогональных образов составляет базиз пространства образов с N компонентами (см. лекцию 2).

 Трудности при построении теоретического обоснования увеличесния об’ема памяти связаны, по-видимому, с тем, что при разобучении используются не исходные, а некоторые, вообще говоря, неизвестные результирующие состояния.

 Более точно, NP-полной называется задача, вычислительные алгоритмы для решения которой требуют затрат, возрастающих быстрее, чем любая степень числа переменных или элементов N.

 Необходимо отметить, что для надежной расшифровки длина закодированного сообщения должна быть достаточно большой. В противном случае расчетные частоты появления символов и пар могут значительно отличаться от средних для данного языка значений.

Предложены также и безитерационные механизмы латерального торможения.

В оригинальной работе - critical feature pattern.

Ф.Уоссермен. Нейрокомпьютерная техника. М.: Мир, 1992.

то утверждение об устойчивости поиска следует из теории АРТ.

В оригинальной работе обучение рассматривается в терминах дифференциальных уравнений, из которых указанные нами значения получаются в виде предельных.

Это замечание, конечно, не относится к сетям, выполняющим заданные функциональные отображения.

 Аббревиатура SYNAPSE в данном случае означает SYnthesis of Neural Algorithms on a Parallel Systolic Engine (синтез нейронных алгоритмов на параллельном систолическом устройстве)

Обновлено 08.10.2009 18:15