Прикладное применение комплексных нейронных сетей

Введение

Алгоритмы обучения оказали огромное влияние на многие области компьютерных наук и нашли множество применений в различных областях, таких как компьютерное зрение, биоинформатика, передвижение роботов и распознавание речи. Эти алгоритмы избегают ручного решения конкретных проблем, предпочитая вместо этого «учиться» и адаптироваться в соответствии с набором примеров, называемых обучающим набором.

Алгоритм обучения состоит из грубой модели и метода настройки параметров в соответствии с обучающим набором. Нейронные сети являются примером такой модели. Они состоят из множества взаимосвязанных простых вычислительных блоков, комбинация которых приводит к сложной функции. Эта модель была впервые представлена в 1940-х годах и периодически изучалась в последующие годы.

Мы же рассмотрим вариацию модели СНН (свёрточная нейронная сеть) с комплексными входными параметрами. Комплексные числа уже давно доказали свою полезность для обработки изображений (например, преобразование Фурье является комплексным) и были рассмотрены в контексте, связанном с нейронной сетью. Например, эффекты синхронизации существуют в человеческом мозге и, как предполагается, играют ключевую роль в зрительной системе. Такие эффекты отсутствуют в основных реализациях нейронных сетей. Так или иначе, комплексные нейронные сети имеют большое значение в наше время.

В этой работе предлагается вариация модели свёрточной нейронной сети (СНН) с комплексными входными параметрами.

Основная часть

Предпосылки работы

На данный момент практическое применение комплексных нейронных сетей не ограничивается одним коротким списком. Существует множество причин, по которым комплексные сети сильно востребованы.

Во многих областях применения, таких как беспроводная связь или обработка звука, где комплексные числа возникают естественным образом, существует корреляция между реальной и мнимой частями сложного сигнала. Такие задачи можно решить только используя области частот, для определения которых потребуется комплексная нейронная сеть, обычная вещественная не подойдёт. Также на данный момент нет другого метода для описания фазовых явлений без комплексных чисел.

Если значение величины и фазы для цели обучения известны априори, то разумнее использовать комплекснозначную модель, поскольку в ней ограничений вводится больше, чем в модели с реальным значением.

Также комплексные нейроны превосходят вещественные тем, что они могут обучаться линейно в N-мерном пространстве, в котором они определены. Это очень важно, так как позволяет обойтись без нелинейных проекций на пространство, которое определено с большей размерностью.

А если оценить эффективность обучения одного нейрона, вещественного и комплексного, то победит в этом сравнении комплексный нейрон. Это связано с тем, что функциональность одного комплексного нейрона намного больше, нежели у вещественного. Поэтому комплексная нейронная сеть того же размера, что и вещественная, будет обучаться быстрее.

Основная идея

Комплекснозначная или просто комплексная нейронная сеть (КНС) – это сеть, которая основывается на комплексных числах: комплексными являются входные данные, веса и функция активации.

Процесс обучения с комплексным методом (backpropagation) предметной области аналогичен процессу обучения в реальной предметной области. Также ошибка, вычисленная после прохода (forward pass) НС, передаётся обратно каждому нейрону в сети, а веса корректируются в обратном проходе.

Рассмотрим комплексную модель как обобщение вещественных СНН, которая обрабатывает комплексные входные данные и веса. Также разберём простой пример преимущества комплексных нейронных сетей над обычными.

Методика работы

Для упрощения преобразований будут использованы в примере следующие методы.

Преобразования Фурье.
Разложение функций в ряд Фурье (формулы):
• комплексный ряд Фурье от одной переменной:

• формула ряда Фурье от двух независимых переменных:

Общая формула ряда Фурье для функций от «k» переменных:
Прогнозирование временны́х рядов с заданной точностью.

Одна из первых работ по описанию комплексной функции активации была выполнена Наумом Айзенбергом. Согласно его концепции, многозначный нейрон (МН) – это нейронный элемент с n входами и одним выходом, лежащим на единичном круге (пример на рис. 1), и с комплекснозначными весами.
Рис. 1. Пример комплексной функции активации
Отображение описывается следующим образом:

Здесь x_i – это комплексные переменные.

Краткое содержание

В литературе нет единого мнения о наиболее подходящей функции активации для КНС. Основное требование состоит в том, чтобы иметь нелинейную функцию, которая не подвержена взрыву или исчезновению градиентов во время обучения.

Если взять функцию сигмовидной активации прямого распространения (forward pass), то окажется, что она неоптимальна для многих видов прикладных задач. Возьмём пример распознавания двоичных растровых изображений с использованием преобразований Фурье.

После таких преобразований изображение будет инвариантным к следующим трансформациям: изменению положения, изменению размера и вращению, что позволит нам правильно обучить комплексную нейронную сеть.

В результате расчётов получается комплексный вектор.

Другой пример – прогноз временны́х рядов с определённой точностью. Сети прямого распространения с функцией сигмоидальной активации не позволяют предсказать ошибку по количеству скрытых нейронов. Чтобы предсказать эту ошибку, потребуется использовать некоторый ряд для скорости сходимости, для которой уже выведены формулы расчёта. В этом примере будет использоваться в качестве такового ряд Фурье.

Архитектура

Разберём архитектуру КНС, её слои, веса и их смысл.

На изображении (рис. 2) схематично показываются составляющие искусственной КНС Фурье. После входных данных x_1, x_2, …, x_n находится скрытый слой, который является, по сути, матрицей из m × n комплексных нейронов. Где m – это кол-во дескрипторов (нормированные коэффициенты в результате преобразования Фурье), а n – это размер вектора входных данных.
Рис. 2. Схематичное отображение составляющих искусственной КНС Фурье
На рис. 3 показана схема отдельного комплексного нейрона скрытого слоя. Где xi – входные данные, ωi – веса, f(net) – функция активации, out(xi) – выходные данные.
Рис. 3. Схема отдельного комплексного нейрона скрытого слоя
Веса, расположенные в первом слое, подразумевают под собой физический смысл частот, а веса, расположенные во втором, имеют значение коэффициентов для ряда Фурье. Следовательно, количество входов для каждого нейрона в выходном слое равно m × n, что совпадает с количеством коэффициентов для ряда Фурье.

Оптимизация структуры

Само создание матрицы – затраты большого количества вычислительных ресурсов. Но мы сможем уменьшить количество нейронов в скрытом слое в n раз. Тогда каждый нейрон в скрытом слое имеет n выходов, если в КНС n входов. Это приводит к изменению количества связей, и именно оно уменьшается в n2 раз без потери качества аппроксимации функций. Результат составления такой матрицы комплексной нейронной сети можно увидеть на рис. 4.
Рис. 4. Результат составления матрицы КНС с уменьшенным количеством нейронов

Принцип работы КНС

Разберём работу этой КНС, записанной в матричной форме (формуле).

Матричная запись функций активаций комплексных нейронов, расположенных в скрытом слое, показана в выражениях 5…7.

В этих выражениях n является размером входного вектора x, m – это размер выходного вектора скрытого слоя y_1, f – вектор-функция активации, j – это мнимая единица, ω – это матрица весов, k – кол-во выходов КНС.

Пример использования

Возьмём, к примеру, классификацию фотографий.

Перед тем как приступить к распознаванию, лучше применить алгоритмы бинаризации, чтобы решение было приведено к общему виду, после чего вектор полностью подаётся в НС. В нашем случае с сигмоидальной функцией активации вещественная и мнимая составляющие подавались отдельно, после чего вектор распознавался.

Использовались нейронные сети двух типов: сеть прямого распространения с сигмоидальной функцией активации и КНС.

В результате объём полученной обучающей выборки составил 660 комплексных векторов, разделённых на 33 класса, что соответствует количеству символов кириллицы.

Перейдём к самой реализации на языке программирования.

Полученные результаты

Код полученной комплексной нейронной сети показан на рис. 5.
Рис. 5. Код полученной комплексной нейронной сети
Разработан класс KNN_Simple, в котором реализованы следующие методы:

KNN_Simple – параметризованный конструктор, на вход: количество входных нейронов, количество выходных нейронов и количество нейронов скрытого слоя соответственно;
functionActivate1Layer – функция активации первого слоя;
OutputFirstLayer – получение результата активации первого слоя;
OutputOutLayer – вывод последнего (выходного) слоя;
NetworkOut – проход (forward pass) и вывод результата прохода.

Для использования написанной комплексной нейронной сети использовался набор данных из открытого доступа, предусмотрен графический интерфейс, созданный на C# (рис. 6).
Рис. 6. Графический интерфейс для использования КНС, созданный на C#
Элементы интерфейса: 1 – поле распознанных символов, 2 – поле для рисования символа, 3 – поле распознанного символа.

Кнопки: «Очистить» – очищает рисунок, «Распознать» – распознаёт рисунок, «Учить» – если сеть неправильно дала ответ, нужно скорректировать значение и нажать на эту кнопку для обучения.

Заключение

Даны определения комплексным нейронным сетям (КНС). Доказана необходимость КНС на разных прикладных примерах. Проведены этапы разработки нейронной сети и её работы, реализация её кода на языке программирования C#.

Достоинства КНС

Комплексная нейронная сеть имеет огромную сферу прикладного применения: её можно использовать для работы с сигналами, заданными в комплексном виде, также она очень хорошо подойдёт для распознавания бинарных изображений. Она может аппроксимировать функцию, оставляя все свойства преобразования Фурье, что делает её работу легко анализируемой. Ведь именно неанализируемость работы нейронных сетей приводит к тому, что в научных проектах от них иногда отказываются, решая задачи другими методами. Также физический смысл весов позволит использовать эту нейронную сеть для численного разложения функции многих переменных в ряд Фурье. Разновидность применений комплексных нейронных сетей сильно растёт, особенно в последнее десятилетие.

Недостатки КНС

Существенным недостатком данной нейронной сети является наличие большого количества связей, намного превышающего количество связей сетей, основанных на вещественных числах.

Литература

Фихтенгольц Г.М. Курс дифференциального и интегрального исчисления. Т. 3. М.: ФИЗМАТЛИТ, 2001.
Осовский C. Нейронные сети для обработки информации / пер. с польск. И.Д. Рудинского. М.: Финансы и статистика, 2004.
Brouwer Friso C.G., Tingdahl Kristofer M., Connolly David. A guide to the Practical Use Of Neural Network // URL: https://www.researchgate.net/publication/289828233_A_Guide_to_the_Practical_Use_of_Neural_Networks.
Guberman N. On Complex Valued Convolutional Neural Networks // URL: https://deepai.org/publication/on-complex-valued-convolutional-neural-networks.

Если вам понравился материал, кликните значок — вы поможете нам узнать, каким статьям и новостям следует отдавать предпочтение. Если вы хотите обсудить материал —не стесняйтесь оставлять свои комментарии : возможно, они будут полезны другим нашим читателям!