Засоби та методи аналізу неструктурованих даних

Засоби та методи аналізу неструктурованих даних

Рогушина, Ю.В.

Інші назви: Средства и методы анализа неструктурированных данных
Means and methods of the unstructured data analysis

Тема: Моделі та засоби систем баз даних і знань

УДК: 004.853, 004.55

Інший ID: DOI: https://doi.org/10.15407/pp2019.01.057

URI: http://dspace.nbuv.gov.ua/handle/123456789/150922

Посилання: Засоби та методи аналізу неструктурованих даних / Ю.В. Рогушина // Проблеми програмування. — 2019. — № 1. — С. 57-77. — Бібліогр.: 25 назв. — укр.

Дата: 2019

Завантажень: 2230

Засоби та методи аналізу неструктурованих даних

Анотація:

Проаналізовано сучасні засоби аналізу неструктурованих даних (НСД) та вплив Big Data на актуальність цього напрямку досліджень. Розглянуто перспективи використання фонових знань для такого структурування. Обґрунтовано доцільність застосування для цього таких стандартів W3C, як RDF та OWL. Використання семантичних Wiki-технологій для створення розподілених інформаційних ресурсів не тільки дозволяє досить легко додавати структурування до НСД, але й є джерелом фонових знань для аналізу довільних природномовних текстів відповідної предметної області. Запропоновані в роботі моделі та методи дозволяють вдосконалити процес генерації таких знань.

Проанализированы современные средства анализа неструктурированных данных и влияние Big Data на актуальность этого направления исследований. Рассмотрены перспективы использования фоновых знаний для такого структурирования. Обоснована целесообразность применения для этого таких стандартов W3C, как RDF и OWL. Использование семантических Wiki-технологий для создания распределенных информационных ресурсов не только позволяет довольно легко добавлять структурирование к НСД, но и является источником фоновых знаний для анализа произвольных естественноязыковых текстов соответствующей предметной области. Предложенные в работе модели и методы позволяют усовершенствовать процесс генерации таких знаний.

Analysis of the current trends in the unstructured text data wide usage and the development of software tools for their processing causes the high urgency of this research direction and the necessity of intelligent information systems in such processing. A signigicant part of Big Data consists of unstructured texts that require the further development of specific Text Mining and algorythms of machine learning. Unstructured data consisting of natural language text in the general case, do not have a predetermined data model. Their ambiguity, heterogeneity and context dependence considerably complicate the classification of documents, the identification of their components and the automated obtaining of user-oriented knowledge from their content, while the large volumes and dynamism of such data do not involve efficient manual processing. The means and methods of data structuring, their various software implementations are considered. The prospects of using background knowledge for such structuring are analyzed. The feasibility of application such W3C standards as RDF and OWL is substantiated. The use of semantic Wiki-technologies for development of distributed information resources simplifies the process of natural text structuring by users and also generates the source of background knowledge for the analysis of arbitrary texts of the corresponding domains. The models and methods proposed in the work allow to improve this process.

Показати повний запис статті