Ефект зникнення градієнтів є спільною проблемою навчання рекурентних і глибоких нейромереж. У статті розроблено метод для оцінки внеску кожного прикладу з навчальної вибірки у градієнт цільової функції навчання. Запропоновано новий універсальний метод, який дозволяє утримувати норму градієнтів у задовільних межах. Для експериментальної перевірки нашого підходу використано спеціальні синтетичні бенчмарки для тестування нейромереж на здатність виявляти довготривалі залежності. Навчена з використанням даного методу рекурентна нейромережа з одиничними затримками може знаходити залежності між подіями в часових послідовностях довжиною до 100 і більше тактів.
Эффект исчезновения градиентов является общей проблемой обучения рекуррентных и глубоких нейросетей. В статье разработан метод для оценки вклада каждого обучающего примера из выборки в градиент целевой функции обучения. Предложен новый универсальный метод, который позволяет удерживать норму градиентов в приемлемых пределах. Для экспериментальной проверки нашего подхода использованы специальные синтетические бенчмарки для тестирования нейросетей на способность выявлять долговременные зависимости. Рекуррентная нейросеть с единичной линией задержек, обученная с использованием данного метода, может находить зависимости между событиями во временных последовательностях длиной до 100 и более тактов.
Vanishing gradients effect is a common problem for recurrent and deep neural networks. In this paper we construct a method to estimate a contribution of each training example to the norm of the long-term components of the target functions gradient. We propose a novel universal technique that makes the norm of the gradient stay in the suitable range. To check our framework experimentally we use a special synthetic benchmarks for testing RNNs on ability to capture long-term dependencies. Our recurrent network can detect links between events in the (temporal) sequence at the range 100 and longer.