Поисковики или каталоги?
Чтобы
получить информацию или услуги в WWW, их надо,
прежде всего, разыскать, а поиск информации
- непростая задача. По состоянию на начало
2000 г. ресурсов Web оцениваются более чем в
850 миллионов Web - страниц.
Для
поиска информации в Сети используются
специальные поисковые службы. Обычно
поисковая служба - это компания, имеющая
свой сервер , на котором работая некая
поисковая система. Услуги абсолютного
большинства поисковых служб бесплатны , но,
тем не менее, по темпам роста сегодня это
самый эффективный бизнес в мире. Всего за
несколько лет такие службы как Yahoo!, Alta Vista,
Inktomi и некоторые другие развились от
лабораторных проектов с бюджетом в десяток
- другой тысяч долларов до компаний,
стоимость которых составляет 10 - 15
миллиардов долларов. Такого темпа
приращения капитала мир еще не знал,
особенно для бесплатных (для конечного
пользователя) услуг.
Основные
поисковые службы
Сегодня
пользователь Word Wide Web оказывается в той
ситуации, что и читатель крупной библиотеки.
Чем больше фонды библиотеки, тем труднее
найти именно ту книгу, которая сейчас нужна.
Для упрощения поиска в библиотеке
существуют каталоги: систематический,
алфавитный, предметный и другие. Существуют
и специализированные каталоги, например каталоги
новых поступлений.
В
Сети поиск обеспечивают специальные
поисковые службы. Умение пользоваться ими,
собственно говоря, и составляет умение
пользоваться Интернетом. Все поисковые
системы WWW основаны на гиперссылках.
Обращаться к поисковой службе, мы
формулируем запрос, в котором формально
описываем то, что хотим найти. Проведя
нужные операции, служба формирует Web -
документ, состоящий из гиперссылок, ведущих
к ресурса WWW, соответствующим нашему
запросу. какой из этих гиперссылок мы
воспользуемся - дело наше.
Несмотря
на то, что результат всегда един, принцип
действия у различных поисковых служб может
быть различен. Поисковые службы
классифицируются по типам предоставляемых
услуг, а также по способам формирования
своих ресурсов. Последнее очень важно для
эффективной работы не только пользователей,
но и Web - мастеров.
Мощная поисковая система
принимает в сутки 30 - 50 миллионов
посетителей и демонстрирует им сотни
миллионов баннеров. При том, что каждый
щелчок пользователем на рекламном
баннере оплачивается не менее чем одним
центом, совокупных доходов только от
демонстрации рекламных баннеров может составить
до 100 000 $ в сутки. Это одна из причин
огромной прибыльности "бесплатных"
услуг. |
Сбор
информации поисковыми роботами
Поисковые
указатели (индексы) работают в три этапа.
Создание поисковых системы начинаются с
разработки специальной агентской
программы, которая способна путешествовать
по Web-узлам Интернета, просматривать Web-
страницы и копировать их содержание на
центральный сервер поисковой системы.
Такие агентские программы называют "червяками",
"пауками", "поисковыми роботами" (сокращенно
"ботами"), "поисковыми машинами",
"краулерами" и т.п. Многообразие
названий связано с тем, что каждая
поисковая система создает свою собственную,
неповторимую программу и дает ей свое имя,
которое впоследствии становится
нарицательным.
Если
при чтении Web-страницы поисковый робот
находит на ней ссылки на другие страницы
того же Web-узла, он переходит по этим
ссылкам, читает их содержание и так далее.
Как червяк, он проникает в самые отдаленные
закоулки WWW.
Индексация
ресурсов
Второй
этап работы поисковой системы - индексация.
Процесс преобразования данных из той формы,
в которой они хранятся на Web- страницах, в
другие формы, удобные для быстрого
просмотра, называется индексацией. в
результате индексации и образуется база
данных, которую называют поисковым
указанием.
У
каждой поисковой системы свои приемы и
методы индексации. В частности, перед
индексацией большинство систем очищает
документ от зарезервированных слов (stop-
words), к которым относятся артикли, предлоги,
союзы, местоимения и другие слова, имеющие
менее 4 символов.
На
этапе подготовки к индексации может
происходить нормализация слов (stemming) за
счет отбрасывания суффиксов и окончаний.
На
основе "зачищенного" документа
готовится индекс. Индекс - это особая база
данных, созданная специальным образом,
чтобы ускорить поиск.
Исполнение
запроса клиента
Третий
этап - ответ на запрос клиента. Лучшие
поисковые системы в ответ на запрос
просматривают свои индексы за десятки доли
секунды и немедленно возвращают список
ссылок, ведущих к затребованным ресурсам.
У
каждой поисковой системы своя политика
формирования результирующего списка.
Если
найдено очень много ссылок на ресурсы,
удовлетворяющие запросу, то встает
проблема их упорядочения. Здесь важно,
какие ссылки дать в начале, а какие - в конце,
то есть, надо вводить рейтинг. Разные
поисковые системы имеют разные рейтинговые
системы. положительный рейтинг начинается,
в частности, при следующих обстоятельствах:
- если
разыскиваемые слова встречаются на Web-
странице неоднократно (но не слишком
часто, и не подряд);
- если
они расположены близко к началу
страницы;
- если
эти слова присутствуют в заголовке
страницы;
- eсли
Web-страница имеет иллюстрацию,
альтернативный текст который тоже
содержит слова, введенные пользователем.
- К
современным относятся и коммерческие
хитрости. Относительно недавно некоторые
поисковые системы начали повышать рейтинг
тем, кто готов за это платить. Они заявляют,
что для потребителя ценность информации на
странице солидной фирмы, готовой нести
расход на свою рекламу в Сети, все - таки
выше, чем ценность доморощенной страницы
никому не известного студента.
- Сравнение
поисковых каталогов и указателей
- Поисковые
каталоги формируются с помощью живых людей.
Поэтому, как правило, если мы находим в них
нужный нам ресурс, то этот ресурс - один из
лучших в Сети.
- Если
надо быстро найти лучший источник по какой -
то теме, надо начинать поискового каталога.
- Поисковые
указатели черпают свою исходную информацию
от поисковых роботов, день и ночь ползающих
по пространствам WWW. Процесс сбора
информации полностью автоматизирован,
поэтому объем проиндексированного
пространства намного больше, чем у
поисковых каталогов. Сегодня этот
показатель превышает 25% общего
пространства Сети. С другой стороны,
отсутствие человеческого фактора
сказывается на качестве того, что можно
найти через поисковые указатели.
- Поисковые
каталоги лучше использовать для
ознакомительного поиска, когда тема
известна, а поисковые указатели стоит
использовать для более глубоких или
экзотических розысков.
- Отечественные
поисковые службы
- С
большим удовлетворением мы должны отметить,
что российский сектор Интернена
развивается очень бурно.
- Важную
роль в становлении и развитии
отечественного сектора Интернета
сыграли отечественные поисковые службы
(за что им БОЛЬШОЕ спасибо):
- "АПОРТ"
— один из первых поисковых указателей
российского Инетернета - детище компании
"Агама";
- "АТРУС"
— популярнейший отечественный поисковый каталог,
известный в прошлом под именем "Ау!";
- "RAMBLER"
— это рейтинговая система, обладающая всеми
основными системами поисковых указателей;
- "ЯНДЕКС"
— мощная поисковая служба, основанная на
указателях.
Что
происходит на самом деле
- Любой
поисковой системе, как и любому бизнесу в
Интернете нужен прежде всего доход!
- На
самом деле крупнейшие мировые поисковые
системы сейчас бьются за рекламодателей, и
им по большомй счету глубоко наплевать на
то, какое качество поиска они предоставляют.
До тех пор, пока количество посетителей у
них растет (а оно растет хотя бы потому, что
к Интернету подключается все больше и
больше), им, по большому счету, ничего не
надо делать.
- Все
идет к коммерциализации. Началось выборочное
повышение рейтинга Web-страниц тем, кто
платит за это деньги. Явным проявлением
коммерциализации стало бурное развитие
идеи порталов. Поисковые системы все дальше
уходят от индексации Web и сосредотачиваются
на обслуживании клиентов последними
новостями, сводками погоды, курсами
валют и прочим аналогичным контентом,
который проще разбавляются рекламой, чем
скупые страницы с результатами поиска.
- В
Интернете появляется все больше и больше
рекламы и все меньше и меньше полезной
информации!