Впровадження нових методів та підходів до оброблення даних, які отримали назву «Big Data», особливо актуально для систем з високою завантаженістю. В умовах швидкого потоку даних традиційні пакетні методи моделювання не завжди дають точні та стійкі результати, бракує ефективних методів відбору важливих параметрів. Розглянуто онлайновий підхід до моделювання та прогнозування в умовах «Big Data» та методи оцінювання і відбору параметрів моделі прогнозування ймовірності вибору продукту за їх інформативною важливістю. Для визначення інформативності параметра розглянуто підхід до побудови моделі із використанням регуляризації L1 (LASSO), L2 (RIDGE) та модель Follow-The-Regularized-Leader. Теоретичні та математичні викладки супроводжуються програмною реалізацією методу мовою програмування Python. Методи online-learning дозволяють отримати оцінки параметрів моделі у режимі реального часу, що дає змогу використовувати їх у високонавантажених системах оброблення даних, у прогнозуванні та прийнятті рішень.
Внедрение новых методов и подходов к обработке данных, получивших название «Big Data», особенно актуально для систем с высокой загруженностью. В условиях быстрого потока данных традиционные пакетные методы моделирования не всегда дают точные и устойчивые результаты и не имеют эффективных алгоритмов отбора важных переменных. Рассмотрен онлайновый подход к моделированию и прогнозированию в условиях «Big Data» среды, а также методы оценки и отбора переменых модели по их информативности. Для определения информативности параметра рассмотрен метод построения модели с использованием регуляризаций L1(LASSO) и L2 (RIDGE), а также модель Follow-The-Regularized-Leader. Теоретические и математические результаты сопровождены программной реализацией описанного метода на языке программирования Python. Методы online-learning позволяют получить оценки информативности параметров модели в режиме реального времени, что дает возможность использовать их для высоконагруженных систем обработки данных, прогнозирования и принятия решений.
Introduction. Fast growth of collected and stored data due to IT bumming caused a problem called “Big Data Problem”. Most of the new data are unstructured and this is the core reason why traditional relational data warehouse are so inefficient to deal with Big Data. Predicting and modeling based on Big Data also can be problematic because of high volume and velocity. To avoid some problems online learning algorithms can be successful for high-load systems. The purpose of the article is to develop an approach to feature selection and modeling in case of Big Data with using online learning algorithm. Method. Online learning algorithm for FTRL (Follow-The-Regularized-Leader) model with L1 and L2 regularization to select only important features was used. Results. The approaches of modeling in cases of using batch and online learning algorithms are described on the example of online auction system. The online learning algorithm has very strong preferences in case of high load and high velocity. Mathematical background for modification of linear discriminator of FTL (Follow-The-Leader) model with adding regularization was described. L1 and L2 regularization allows us to select important features in real time. If the feature becomes useless, the regularization will set the corresponding coefficient equal to 0. But it does not remove the feature from training process and the coefficient can be restored with some value in case of its importance for model. The full process is prepared as a program in Python and can be used in practice. The results may be applied for modeling and forcasting in projects with high volume or velocity of data, for example — social networks, online auctions, online gaming, recommendation systems and others.