Поисковые
машины представляют собой специализированные серверы, предназначенные
для поиска и аккумуляции информации по запросам пользователя.
Следует различать тематические каталоги и собственно поисковые
системы. Каталоги содержат обширный список ссылок на другие
сайты, разбитых на несколько рубрик по тематической направленности.
Общее число таких рубрик может достигать нескольких десятков.
Процесс регистрации нового ресурса в информационном каталоге
в общем случае выглядит следующим образом: владелец web-страницы
заполняет соответствующую интерактивную форму, включающую
в себя сведения о тематике сайта, его названии, URL и ключевых
словах, с помощью которых осуществляется поиск, после чего
эта информация заносится в базу данных каталога. В ряде
случаев модераторы сервера - сотрудники, призванные следить
за соответствием регистрируемых ресурсов общим правилам
данной интерактивной службы, - в течение нескольких дней
проверяют страничку на предмет отсутствия в ее содержании
запрещенной тематики, например, порнографии или призывов
к насилию. Если запретные темы обнаружатся, ссылка на ваш
ресурс будет безжалостно удалена из базы данных сервера,
о чем вы получите соответствующее уведомление по электронной
почте. Поиск по запросам пользователей ведется только в
пределах базы данных самого информационного каталога. Результат
работы системы отображается в файле отчета, который автоматически
генерируется установленным на сервере сценарием CGI и содержит
ссылки на найденные ресурсы, их названия и краткое описание.
Поисковые
системы работают по совершенно иному принципу Используемый
поисковой машиной CGI-скрипт, получив пользовательский запрос,
обращается к независимым ресурсам Интернета и осуществляет
поиск информации в самой Сети по тексту опубликованных на
web-серверах html - документов, последовательно проходя
все обнаруженные гиперсвязи. Найденные таким образом web-страницы
некоторое время сохраняются на диске серверного компьютера
на случай, если кто-либо из посетителей подаст поисковой
службе аналогичный запрос.
Разумеется,
поисковые серверы также располагают собственной базой данных,
которая содержит в основном лишь ссылки на ресурсы Интернета.
Интерактивные сценарии системы самостоятельно обращаются
к каждому сайту, ссылка на который имеется в базе данных,
разыскивают в его тексте введенные автором запроса ключевые
слова и включают ссылки на данную страницу в файл отчета.
Затем робот последовательно проходит по всем гиперссылкам,
обнаруженным на этой странице, и если связанные с ней ресурсы
отсутствуют в базе данных(индексе) поискового сервера, информация
о них автоматически заносится в индекс. Этот процесс называется
индексацией сайта. Смысл регистрации в поисковой машине
сводится не только к тому, чтобы ссылка на ваш ресурс была
внесена в базу данных сервера и прошла процедуру индексации.
Желательно, чтобы информация о вашей страничке попала в
кэш серверного компьютера, поскольку поиск осуществляется
в первую очередь по хранящимся на его дисках данным, затем
- по имеющимся в базе ссылкам и лишь в последнюю очередь
- непосредственно в Интернете.
Для
повышения релевантности поиска, то есть максимального соответствия
отчета введенному пользователем запросу, многие поисковые
машины применяют так называемые эвристические методы обработки
информации. Например, получив пользовательский запрос Куда
пойти сегодня вечером?, поисковая машина самостоятельно
просклоняет глагол пойти, создаст все возможные варианты
слова (идти, иду, идет, идешь, пойдет и т. д.) и продолжит
поиск уже по расширенному подобным образом запросу. Именно
поэтому нет смысла указывать в перечне ключевых слов, записываемых
в МЕТА-теге вашего документа, решительно все варианты. Этим
вы лишь перегрузите суммарный объем html-файла, не добившись
никаких премуществ. Пользователь может пожеланию ограничить
диапазон поиска, исключив из него ресурсы какого-либо домена
или определив в тексте запроса специальные директивы для
поисковой машины. Набор таких директив может варьироваться
в зависимости от алгоритмов обработки информации, используемых
каждым поисковым сервером.