Метод побудови текстового шаблону для екстракції інформації зі слабоструктурованих даних

Метод побудови текстового шаблону для екстракції інформації зі слабоструктурованих даних

Інші назви: Method of constructing a text template for extracting information from semistructured data

Тема: Системи розпізнавання і сприйняття образів

УДК: 004.9:371.261

URI: http://dspace.nbuv.gov.ua/handle/123456789/133664

Посилання: Метод побудови текстового шаблону для екстракції інформації зі слабоструктурованих даних / Н.Б. Шаховська, І.Б. Швороб // Штучний інтелект. — 2017. — № 2. — С. 60-69. — Бібліогр.: 6 назв. — укр.

Дата: 2017

Завантажень: 407

Метод побудови текстового шаблону для екстракції інформації зі слабоструктурованих даних

Анотація:

80% світових даних є неструктурованими або слабоструктурованими. У зв’язку з цим, актуальною є проблема екстракції інформації та її подальше збереження у зручній для опрацювання формі. Для зручності екстракції даних у роботі запропоновано використання текстових шаблонів на основі словника ключових слів. Основною метою є розроблення методу виділення складових елементів для побудови текстового шаблону, а також розроблення методу кластеризації текстового шаблону. Проведено аналіз розроблених методів на прикладі роботи бібліотечної системи.

80% of world data is unstructured or semistructured. In this regard, the main task is the problem of extraction of information and its further preservation in a form suitable for processing. For the convenience of data extraction, we suggest using text templates based on the dictionary of keywords. The main goal is to develop a method for selecting component elements for constructing a text template, as well as developing a method for clustering a text template. The analysis of the developed methods on the example of work of the library system is carried out.

Показати повний запис статті