Алгоритм прямого поиска.Например в течении многих лет человек покупает журнал про компьютеры и ложит их на полку. Он знает, что статья про Рено Лагуна находится в каком -то номере, но не помнит в каком.Читатель берет первый номер пролистывает - нет статьи, ложит на полку. Затем второй - нет, на полку. В третьем нашел. Т.е. последовательный перебор. Достоинством этого алгоритма является то, что при поиске информается не искажается. Недостатки- длительное время поиска.Алгоритм инвертированных индексов.На сегодняшний день используется любыми поисковыми системами. Идея в следующем. С каждого документа создается образ, текстовый файл, содержащий список всех слов документа в алфавитном порядке с указанием позиции вхождения слова в документ.Преимущества - быстродействие(поиск в текстовом файле), минусы- потеря информации.Пример работы алгоритма обратного индекса: Таким образом индексируются все слова текста в текстовом файле.Когда документов становится много, возникает необходимость обработки с помощью математических моделей, которых три.Булевская(логическая) модель.Если слово поисковое есть в документе ,то он считается найденным и наоборот. Но как известно самое популярное слово предлог в в русском языке , а на втором месте союз или. Таким образом пользователю необходимо выдать несколько миллионов документов, которые пользователь не сможет осознать.Поэтому появилась векторная математическая модель( ).То есть, как часто встречается данное слово в документ
» | Разместил: CornHolio | 26-08-2011, 22:41 |
Принцип работы поисковых систем. Особенности индексирования документов.
» » » » » » » » » »
Имя пользователя:
Загрузка. Пожалуйста, подождите...
Принцип работы поисковых систем. Особенности индексирования документов.
Комментариев нет:
Отправить комментарий