Здійснено порівняльний аналіз основних автоматизованих методів пошуку іменних груп та іменованих сутностей в англомовних та україномовних текстах; обґрунтовано доцільність використання моделі Universal Dependencies. Запропоновано комплексний метод на основі аналізу деревовидної синтаксичної структури речення та моделі виявлення іменованих сутностей. Здійснено експериментальну перевірку ефективності пропонованого методу та показано доцільність його використання для пошуку іменних груп в україномовних текстах.
Цель статьи. Сравнительный анализ основных методов поиска именных групп в англоязычных и украиноязычных текстах. Создание комплексного метода определения именных групп в текстах соответственно с особенностями украинского языка. Осуществление экспериментальной проверки предложенного метода на корпусе украиноязычных статей. Результаты. Проанализированы методы поиска именных групп в тексте и обоснована целесообразность использования древовидной синтаксической структуры предложения. Недостатком многих методов поиска именных групп в тексте является зависимость эффективности их определения от свойств конкретного языка. Решено использовать модель Universal Dependencies в связи с унифицированным форматом обработки предложения для разных языков и наличием обученной модели построение древовидной структуры предложений украиноязычных текстов. Предложен комплексный метод определения именных групп в украиноязычных текстах с использованием средств Universal Dependencies и модели распознавания именованных сущностей. Осуществлена экспериментальная проверка эффективности предложенного метода на корпусе украиноязычных новостей и рассчитаны метрики точности метода.
Purpose. Comparative analysis of the main methods of noun phrases detection in English and Ukrainian texts. The creation of a complex method for the detection of noun phrases in texts according to the features of the Ukrainian language. The performing of experimental examination of the suggested method on the corpus of Ukrainian articles. Results. The different methods of noun phrases detection have been analyzed. The expediency of the representation of sentences as a tree structure has been justified. The key disadvantage of many methods of noun phrase detection is the severe dependence of the effectiveness of their detection from the features of a certain language. Taking into account the unified format of sentence processing and the availability of the trained model for the building of sentence trees for Ukrainian texts, the Universal Dependency model has been chosen. The complex method of noun phrases detection in Ukrainian texts utilizing Universal Dependencies means and named-entity recognition model has been suggested. Experimental verification of the effectiveness of the suggested method on the corpus of Ukrainian news has been performed. Different metrics of method accuracy have been calculated.