The paper observes the similarity between the stochastic optimal control over discrete dynamical systems and the
lear ning multilayer neural networks. It focuses on contemporary deep networks with nonconvex nonsmooth loss and
activation functions. The machine learning problems are treated as nonconvex nonsmooth stochastic optimization
ones. As a model of nonsmooth nonconvex dependences, the so-called generalized differentiable functions are used.
A method for calculating the stochastic generalized gradients of a learning quality functional for such systems is
substantiated basing on the Hamilton—Pontryagin formalism. This method extends a well-known “backpropagation”
machine learning technique to nonconvex nonsmooth networks. Stochastic generalized gradient learning algorithms
are extended for training nonconvex nonsmooth neural networks.
Простежується аналогія між задачами оптимального керування дискретними стохастичними динамічними системами та задачами навчання багатошарових нейронних мереж. Увага концентрується на вивченні
сучасних глибоких мереж з негладкими цільовими функціоналами і зв'язками. Показано, що задачі машинного навчання можуть трактуватися як задачі стохастичного програмування, і для їхнього аналізу застосовано теорію неопуклого негладкого стохастичного програмування. Як модель негладких неопуклих
залежностей використано так звані узагальнено диференційовані функції. Обґрунтовано метод обчислення стохастичних узагальнених градієнтів функціонала якості навчання для таких систем на основі формалізму Гамільтона—Понтрягіна. Цей метод узагальнює відомий метод “зворотного просування похибки” на задачі навчання негладких неопуклих мереж. Узагальнені (стохастичні) градієнтні алгоритми навчання
поширено на неопуклі негладкі нейронні мережі.
Прослеживается аналогия между задачами оптимального управления дискретными стохастическими динамическими системами и задачами обучения многослойных нейронных сетей. Внимание концентрируется на изучении современных глубоких сетей с негладкими целевыми функционалами и связями. Показано, что задачи машинного обучения могут трактоваться как задачи стохастического программирования,
и для их анализа применена теория невыпуклого негладкого стохастического программирования. В качестве модели негладких невыпуклых зависимостей использованы так называемые обобщенно дифференцируемые функции. Обоснован метод вычисления стохастических обобщенных градиентов функционала качества обучения для таких систем на основе формализма Гамильтона—Понтрягина. Этот метод обобщает известный метод “обратного распространения ошибки” на задачи обучения негладких невыпуклых сетей. Обобщенные (стохастические) градиентные алгоритмы обучения распространены на невыпуклые негладкие нейронные сети.