80% світових даних є неструктурованими або слабоструктурованими. У зв’язку з цим, актуальною є проблема екстракції інформації та її подальше збереження у зручній для опрацювання формі. Для зручності екстракції даних у роботі запропоновано використання текстових шаблонів на основі словника ключових слів. Основною метою є розроблення методу виділення складових елементів для побудови текстового шаблону, а також розроблення методу кластеризації текстового шаблону. Проведено аналіз розроблених методів на прикладі роботи бібліотечної системи.
80% of world data is unstructured or semistructured. In this regard, the main task is the problem of extraction of information and its further preservation in a form suitable for processing. For the convenience of data extraction, we suggest using text templates based on the dictionary of keywords. The main goal is to develop a method for selecting component elements for constructing a text template, as well as developing a method for clustering a text template. The analysis of the developed methods on the example of work of the library system is carried out.