Відкриття знань у даних та каузальні моделі в аналітичних інформаційних технологіях

Відкриття знань у даних та каузальні моделі в аналітичних інформаційних технологіях

Інші назви: Открытие знаний в данных и каузальные модели в аналитических информационных технологиях
Knowledge discovery in data and causal models in analytical informatics

Тема: Інтелектуальні інформаційні технології

УДК: 004.855:519.216

URI: http://dspace.nbuv.gov.ua/handle/123456789/144497

Посилання: Відкриття знань у даних та каузальні моделі в аналітичних інформаційних технологіях / О.С. Балабанов // Проблеми програмування. — 2017. — № 3. — С. 96-112. — Бібліогр.: 20 назв. — укр.

Дата: 2017

Завантажень: 408

Відкриття знань у даних та каузальні моделі в аналітичних інформаційних технологіях

Анотація:

Оглянуто методологію індуктивного виведення каузальних моделей. Аргументовано, що каузальні мережі, відтворені з даних спостережень (без апріорних знань), адекватно відображають структури зв’язків та впливів у середовищі і придатні для прогнозування наслідків керування. Окреслено передумови та вимоги до статистичних даних і процесу їх збору для успішного виведення адекватної каузальної мережі. Розглянуто підхід до виведення каузальних мереж, базований на незалежності. Підхід підтримує розробку швидких та асимптотично-коректних методів, які здатні працювати в умовах прихованих факторів. Аргументовано, що модель, виведена з даних, зазвичай має деякі зв’язки з невизначеною спрямованістю. Така невизначеність об’єктивно зумовлена й дозволяє зберігати адекватність моделі. Показано засоби підвищення ефективності виведення моделі за рахунок озброєння алгоритмів набором резолюцій, які забезпечують усікання простору пошуку сепараторів (фокусуючи процес верифікації зв’язків). Пропонована модернізація методів ґрунтується на систематичному застосуванні концепції локально-мінімального сепаратора та марковських властивостей моделей. Ефективність нових алгоритмів «Razor» продемонстрована контрольними експериментами та предметним прикладом. Роз’яснюється відмінність каузального прогнозу (що оцінює наслідки планованого втручання) від традиційного «пасивного» прогнозу. Показано можливості оцінювати каузальний ефект на основі неповно ідентифікованої моделі.

Описана методология индуктивного вывода каузальных моделей. Аргументировано, что каузальные сети, восстановленные из данных наблюдений (без априорных знаний), адекватно отображают структуры связей и влияний в среде. Очерчены предпосылки и требования к статистическим данным и процессу их сбору для успешного вывода адекватной каузальной сети. Рассмотрен подход к выводу каузальных сетей, основанный на независимости. Подход поддерживает разработку быстрых и асимптотически-корректных методов, которые способны работать в условиях скрытых факторов. Аргументировано, что модель, выведенная из данных, обычно имеет некоторые связи с неопределенной направленностью. Такая неопределенность объективно предопределена и позволяет сохранять адекватность модели. Показаны способы повышения эффективности вывода модели за счет оснащения алгоритмов набором резолюций, которые обеспечивают усечение пространства поиска сепараторов (фокусируют процесс верификации связей). Предложная модернизация методов базируется на систематическом использовании понятия локально-минимального сепаратора и марковських свойств моделей. Эффективность новых алгоритмов «Razor» продемонстрирована контрольными экспериментами и предметным примером. Разъясняется отличие каузального прогноза (который оценивает последствия планированного вмешательства) от традиционного «пассивного» прогноза. Показаны возможности оценивания каузального эффекта на основе неполно идентифицированной модели.

The methodology of inductive inference of causal models is briefly overviewed. We argue that causal networks, being recovered from data, are able to describe adequately a structure of influences in environment (object) at hand. It’s a causal model that is required when predicting the effect of intervention in object. We outlined the preconditions and requirements on data collection process in aiming to reach an adequate causal network. A multivariate statistical data sample (measured under unified scheme) is needed in the input of inference method. We consider an independence-based approach to causal inference. Methods of this approach are correct, and can perform well in presence of hidden variables. The method’s output usually contains some edges not exactly oriented. Uncertainty of such kind is predetermined by problem setting and allows retaining model adequacy. We suggest a way to enforce an inference algorithm due to set of resolutions which reduce a space for searching separating sets (so focusing a process of edge verification). The modification proposed is based on systematic utilization of concept of locally–minimal separating set and Markov properties. An efficiency of developed algorithms (‘Razor’ series) is demonstrated by control experiments and case study. A distinction between a prediction of causal effect (i.e. effect of active experiment) and traditional prediction in data analysis is illuminated. Some problems of parameter estimation are presented. Some opportunities to predict causal effect when model is incompletely identified are illustrated. We point out a few ideas and new research trends which can enrich analyst’s ability to verify or identify a model.

Показати повний запис статті