Визначення iнформативностi параметрiв моделi прогнозування ймовiрностi вибору продукту в умовах «Big Data»

Домашня сторінка
→
Фізико-технічні та математичні науки
→
Відділення інформатики
→
Кибернетика и вычислительная техника
→
Кибернетика и вычислительная техника, 2017
→
Кибернетика и вычислительная техника, 2017, вип. 4 (190)
→
Переглянути статтю

dc.contributor.author	Гриценко, В.І.
dc.contributor.author	Онищенко, І.М.
dc.date.accessioned	2018-03-23T15:49:56Z
dc.date.available	2018-03-23T15:49:56Z
dc.date.issued	2017
dc.identifier.citation	Визначення iнформативностi параметрiв моделi прогнозування ймовiрностi вибору продукту в умовах «Big Data» / В.І. Гриценко, І.М. Онищенко // Кибернетика и вычисл. техника. — 2017. — Вип. 4 (190). — С. 5-18. — Бібліогр.: 20 назв. — укр.	uk_UA
dc.identifier.issn	0452-9910
dc.identifier.other	DOI: https://doi.org/10.15407/kvt190.04.005
dc.identifier.uri	http://dspace.nbuv.gov.ua/handle/123456789/131493
dc.description.abstract	Впровадження нових методів та підходів до оброблення даних, які отримали назву «Big Data», особливо актуально для систем з високою завантаженістю. В умовах швидкого потоку даних традиційні пакетні методи моделювання не завжди дають точні та стійкі результати, бракує ефективних методів відбору важливих параметрів. Розглянуто онлайновий підхід до моделювання та прогнозування в умовах «Big Data» та методи оцінювання і відбору параметрів моделі прогнозування ймовірності вибору продукту за їх інформативною важливістю. Для визначення інформативності параметра розглянуто підхід до побудови моделі із використанням регуляризації L1 (LASSO), L2 (RIDGE) та модель Follow-The-Regularized-Leader. Теоретичні та математичні викладки супроводжуються програмною реалізацією методу мовою програмування Python. Методи online-learning дозволяють отримати оцінки параметрів моделі у режимі реального часу, що дає змогу використовувати їх у високонавантажених системах оброблення даних, у прогнозуванні та прийнятті рішень.	uk_UA
dc.description.abstract	Внедрение новых методов и подходов к обработке данных, получивших название «Big Data», особенно актуально для систем с высокой загруженностью. В условиях быстрого потока данных традиционные пакетные методы моделирования не всегда дают точные и устойчивые результаты и не имеют эффективных алгоритмов отбора важных переменных. Рассмотрен онлайновый подход к моделированию и прогнозированию в условиях «Big Data» среды, а также методы оценки и отбора переменых модели по их информативности. Для определения информативности параметра рассмотрен метод построения модели с использованием регуляризаций L1(LASSO) и L2 (RIDGE), а также модель Follow-The-Regularized-Leader. Теоретические и математические результаты сопровождены программной реализацией описанного метода на языке программирования Python. Методы online-learning позволяют получить оценки информативности параметров модели в режиме реального времени, что дает возможность использовать их для высоконагруженных систем обработки данных, прогнозирования и принятия решений.	uk_UA
dc.description.abstract	Introduction. Fast growth of collected and stored data due to IT bumming caused a problem called “Big Data Problem”. Most of the new data are unstructured and this is the core reason why traditional relational data warehouse are so inefficient to deal with Big Data. Predicting and modeling based on Big Data also can be problematic because of high volume and velocity. To avoid some problems online learning algorithms can be successful for high-load systems. The purpose of the article is to develop an approach to feature selection and modeling in case of Big Data with using online learning algorithm. Method. Online learning algorithm for FTRL (Follow-The-Regularized-Leader) model with L1 and L2 regularization to select only important features was used. Results. The approaches of modeling in cases of using batch and online learning algorithms are described on the example of online auction system. The online learning algorithm has very strong preferences in case of high load and high velocity. Mathematical background for modification of linear discriminator of FTL (Follow-The-Leader) model with adding regularization was described. L1 and L2 regularization allows us to select important features in real time. If the feature becomes useless, the regularization will set the corresponding coefficient equal to 0. But it does not remove the feature from training process and the coefficient can be restored with some value in case of its importance for model. The full process is prepared as a program in Python and can be used in practice. The results may be applied for modeling and forcasting in projects with high volume or velocity of data, for example — social networks, online auctions, online gaming, recommendation systems and others.	uk_UA
dc.language.iso	uk	uk_UA
dc.publisher	Міжнародний науково-навчальний центр інформаційних технологій і систем НАН України та МОН України	uk_UA
dc.relation.ispartof	Кибернетика и вычислительная техника
dc.subject	Информатика и информационные технологии	uk_UA
dc.title	Визначення iнформативностi параметрiв моделi прогнозування ймовiрностi вибору продукту в умовах «Big Data»	uk_UA
dc.title.alternative	Определение информативности параметров модели прогнозирования вероятности выбора продукта в условиях "Big Data"	uk_UA
dc.title.alternative	Determining the Informativity of Parameters in a Prognostic Model for Evaluating the Probability of Product Selection in Case of Big Data	uk_UA
dc.type	Article	uk_UA
dc.status	published earlier	uk_UA
dc.identifier.udc	330.4:004.22