Описано построение и применение модели отсеивания нерелевантной информации в рамках решения задачи повышения эффективности поиска научно-технической информации в условиях присутствия в выдаче поисковых систем большого количества поискового спама и искусственно раскручиваемых сайтов. Рассмотрены основные группы сайтов, генерирующих поисковый спам. Показана эффективность построенной модели при отсеивании поискового спама.
Описано побудову і застосування моделі відсіювання нерелевантної інформації в рамках розв’язання задачі підвищення ефективності пошуку науково-технічної інформації в умовах присутності у видачі пошукових систем великої кількості пошукового спаму та штучно розкручуваних сайтів. Розглянуто основні групи сайтів, що генерують пошуковий спам. Показано ефективність побудованої моделі при відсіюванні пошукового спаму.
During the analysis of commercial sites content there were identified a number of characteristic features, allowing uniquely identify them. Based on the identified features it was built a new model of automatic information classification to relevant and commercial. A new model of automatic information classification to the relevant and commercial by the set of characteristic features was developed. This technology allows to increase the percentage of relevant information in search results to 83-92%.