Приложение А. Роботы поисковых систем.

А.1. Определения и терминология
В английском языке существует несколько вариантов названий поисковых роботов: robots, web bots, crawlers, spiders; в русском языке фактически прижился один термин — роботы, или сокращенно — боты.
На сайте www.
robotstxt. org дается следующее определение роботам:
"Веб-робот — это программа, которая обходит гипертекстовую структуру WWW, рекурсивно запрашивая и извлекая документы".
Ключевое слово в этом определении — рекурсивно, т.е. имеется в виду, что после получения документа робот будет запрашивать документы по ссылкам из него и т.д.
А.2. Имена роботов
Большинство поисковых роботов имеют свое уникальное имя (кроме тех роботов, которые по каким-то причинам маскируются под пользовательские браузеры).
Имя робота можно увидеть в поле User-agent серверных лог-файлов, отчетах систем серверных статистик, а также на страницах помощи поисковых систем.
Так, робота Яндекса собирательно называют Yandex, робота Рамблера — StackRambler, робота Yahoo! — Slurp и т.д. Даже пользовательские программы, собирающие контент для последующего просмотра, могут специальным образом представляться с помощью информации в поле User-agent.
Кроме имени робота, в поле User-agent может находиться больше информации: версия робота, предназначение и адрес страницы с дополнительной информацией.
А.З. Немного истории
Еще в первой половине 1990-х годов, в период развития Интернета, существовала проблема веб-роботов, связанная с тем, что некоторые из первых роботов могли существенно загрузить веб-сервер, вплоть до его отказа, из-за того, что делали большое количество запросов к сайту за слишком короткое время. Системные администраторы и администраторы веб-серверов не имели возможности управлять поведением робота в пределах своих сайтов, а могли лишь полностью закрыть доступ роботу не только к сайту, а и к серверу.
В 1994 году был разработан протокол robots.txt, задающий исключения для роботов и позволяющий пользователям управлять поисковыми роботами в пределах своих сайтов. Об этих возможностях вы читали в главе 6 "Как сделать сайт доступным для поисковых систем". В дальнейшем, по мере роста Сети, количество поисковых роботов увеличивалось, а функциональность их постоянно расширялась. Некоторые поисковые роботы не дожили до наших дней, оставшись только в архивах серверных лог-файлов конца 1990-х. Кто сейчас вспоминает робота T-Rex, собирающего информацию для системы Lycos? Вымер, как динозавр, по имени которого назван. Или где можно найти Scooter — робот системы Altavista? Нигде! А ведь в 2002 году он еще активно индексировал документы.
Даже в имени основного робота Яндекса можно найти эхо минувших дней: фрагмент его полного имени "compatible; Winl6;" был добавлен для совместимости с некоторыми старыми веб-серверами.
А.4. Что делают роботы поисковых систем
Какие же функции могут выполнять роботы?
В поисковой машине функционирует несколько разных роботов, и у каждого свое предназначение. Перечислим некоторые из задач, выполняемых роботами:
- обработка запросов и извлечение документов;
- проверка ссылок;
- мониторинг обновлений;
- проверка доступности сайта или сервера;
- анализ контента страниц для последующего размещения контекстной рекламы;
- сбор контента в альтернативных форматах (графика, данные в форматах RSS и Atom).
В качестве примера приведем список роботов Яндекса. Яндекс использует несколько видов роботов с разными функциями. Идентифицировать их можно по строке User-agent.
1. Yandex/1.01.001 (compatible; Win 16; I) —основной индексирующий робот.
2. Yandex/1.01.001 (compatible; Win 16; P) —индексатор картинок.
3. Yandex/1.01.001 (compatible; Win 16; H) —робот, определяющий зеркала сайтов.
4. Yandex/1.03.003 (compatible; Win 16; D) —робот, обращающийся к странице при добавлении ее через форму "Добавить URL".
5. Yandex/1.03.000 (compatible; Win 16; M) — робот, обращающийся при открытии страницы по ссылке "Найденные слова".
6. YandexBlog/0.99.101 (compatible; DOS3.30; Mozilla/5.0; В; robot ) — робот, индексирующий xml-файлы для поиска по блогам.
7. YandexSomething/1. 0 — робот, индексирующий новостные потоки партнеров Яндекс.Новостей и файлы robots. txt для робота поиска по блогам.
Кроме того, в Яндексе работает несколько проверяющих роботов — "просту- кивалок", которые только проверяют доступность документов, но не индексируют их.
1. Yandex/2 . 01. ООО (compatible; Win 16; Dyatel; С) — "просту- кивалка" Яндекс.Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в каталоге.
2. Yandex/2.01.000 (compatible; Win 16; Dyatel; Z) — "просту- кивалка" Яндекс.Закладок. Ссылки на недоступные сайты выделяются серым цветом.
3. Yanciex/2 . 01 . 000 (compatible; Win 16; Dyatel; D) —"простуки- валка" Яндекс.Директа. Она проверяет корректность ссылок из объявлений перед модерацией.
И все-таки наиболее распространенные роботы — это те, которые запрашивают, получают и архивиру ют документы для последующей обработки другими механизмами поисковой системы. Здесь уместно будет отделить робота от индексатора.
Поисковый робот обходит сайты и получает документы в соответствии со своим внутренним списком адресов. В некоторых случаях робот может выполнять базовый анализ документов для пополнения списка адресов.
Дальнейшей обработкой документов и построением индекса поисковой системы занимается уже индексатор поисковой машины. Робот в этой схеме является всего лишь "курьером" по сбору данных.
A.5. Поведение роботов на сайте
Чем отличается поведение робота на сайте от поведения обычного пользователя?
1. Управляемость. Прежде всего "интеллигентный" робот должен запросить с сервера файл robots . txt с инструкциями по индексации.
2. Выборочное выкачивание. При запросе документа робот четко указывает типы запрашиваемых данных, в отличие от обычного браузера, готового принимать все подряд. Основные роботы популярных поисковиков в первую очередь будут запрашивать гипертекстовые и обычные текстовые документы, оставляя без внимания файлы стилей оформления CSS, изображения, видео. ZIP-архиЕы и т.п. В настоящее время также востребована информация в форматах PDF, Rich Text, MS Word, MS Excel и некоторых других.
3. Hепредсказуемость. Невозможно отследить или предсказать путь робота по сайгу, поскольку он не оставляет информации в гюле Referer — адрес страницы, откуда он пришел; робот просто запрашивает список документов, казалось бы, в случайном порядке, а на самом деле в соответствии со своим внутренним списком или очередью индексации.
4. Скорость. Небольшое время между запросами разных документов. Здесь речь идет о секундах или долях секунды между запросами двух разных документов. Для некоторых роботов есть даже специальные инструкции, которые указываются в файле robots . txt, по ограничению скорости запроса документов, чтобы не перегрузить сайт.
Как может выглядеть HTML-страница в глазах робота, мы не знаем, но можем попытаться себе это представить, отключая в браузере отображение графики и стилевого оформления.
1. Вид главной страницы сайта "Энциклопедия поисковых систем" в обычном браузере показан на рис. А.2.
Роботы ПОИСКОВЫХ систем
2. Вид той же страницы, когда в браузере выключена графика и стили, а таблицы представлены обычным (нормальным) потоком, показан на рис. А.З.
3. Вид той нее самой страницы, полученной из базы поисковой системы Рамблер по ссылке Восстановить текст в результатах поиска, показан на рис. А.4.
Таким образом, можно сделать вывод, что поисковые роботы закачивают в свой индекс HTML-структуру страницы, но без элементов оформления и без картинок.
А.6. Управление роботами
Как же вебмастер может управлять поведением поисковых роботов на своем сайте?
Как уже было сказано выше, в 1994 году в результате открытых дебатов вебмастеров был разработан специальный протокол исключений для роботов. До настоящего времени этот протокол так и не стал стандартом, который обязаны соблюдать все без исключения роботы, оставшись лишь в статусе строгих рекомендаций. Не существует инстанции, куда можно пожаловаться на робота, не соблюдающего правила исключений, можно лишь запретить доступ к сайту уже с помощью настроек веб-сервера или сетевых интерфейсов для IP-адресов, с которых "неинтеллигентный" робот отсылал свои запросы.
Однако роботы крупных поисковых систем соблюдают правила исключений, более того, вносят в них свои расширения.
Об инструкциях специального файла reb-w s . Lxt и о специальном мета-теге robot s подробно рассказывалось в главе 6 "Как сделать сайт доступным для поисковых систем".
С помощью дополнительных инструкций в robot:;. t xt, которых нет в стандарте, некоторые поисковые системы позволяют более гибко управлять поведением своих роботов. Так, с помощью инструкции С>: w I - del j у вебмастер может устанавливать временной промежуток между последовательными запросами двух документов для роботов Yahoo! и MSN, а с помощью инструкции Но-1 указать адрес основного зеркала сайта для Яндекса. Однако работать с нестандартными инструкциями в robots . txt следует очень осторожно, поскольку робот другой поисковой системы может проигнорировать не только непонятную ему инструкцию, но и весь набор правил, связанных с ней.
Управлять посещениями поисковых роботов можно и косвенно, например, робот поисковой системы Google чаще будет повторно забирать те документы, на которые много ссылаются с других сайтов.
Рис. А.З. Та же страница при отключенном отображении графики и стилей
Рис. А.4. Та же станица, восстановленная из базы данных Рамблера
А.7. Выводы
Роботы — необходимая и очень ваяшая составная часть поисковых систем. Если представить поисковую систему как "черный ящик", где выдача результатов поиска — это "выход" системы, то поисковые роботы это "вход", на который поступают документы.
Если грамотно подавать свои страницы на этот "вход", управляя поведением поискового робота, можно добиться лучших результатов индексации — периодичности, полноты и лучшего ранжирования.
A.8. Полезные ссылки
1. Принципы функционирования и описания работы поисковых роботов важно изучать из первоисточников. Мы советуем читать материалы разделов помощи на сайтах по-исковиков. Ответы на вопросы о работе поискового робота Яндекса доступны по адресу h r.tp : / /webmaster . yandex . ru/' faq . xmi ? i d=502 4 99.
2. Материал "Как управлять индексированием сайта роботом Рамблера" вы найдете по адресу http : / / www . rarribJ er . ru/doc/ robots . shtml.
3. Ответы на некоторые вопросы, связанные с индексированием сайта и работой Google-бота, читайте на сайте http://www.googie.ru/support/bin/topic. ру ? Lop. i с =3 65.
<< | >>
Источник: И. Ашманов А. Иванов. ПРОДВИЖЕНИЕ САЙТА В ПОИСКОВЫХ СИСТЕМАХ. 2007

Еще по теме Приложение А. Роботы поисковых систем.:

  1. ПРИЛОЖЕНИЕ 1. Интервью с представителями поисковых систем
  2. Анонсирование в поисковых системах и поисковая оптимизация
  3. Приложение Б. Словарь терминов и жаргонизмов поисковой оптимизации.
  4. Поисковые системы
  5. Оптимизация под поисковые системы
  6. 1.3.1. Индексирование сайта в поисковых системах
  7. Обман поисковых систем. Спамдексинг. Клоакинг. Дорвеи. Свопинг
  8. 14.2. Ссылки для продвижения в поисковых системах
  9. Общие принципы работы поисковых систем
  10. 8.2. Видимость сайта в поисковых системах
  11. Создание веб-страниц с учетом пожеланий поисковых систем
  12. 2.1. Создание веб-страниц с учетом пожеланий поисковых систем
  13. Часть III/1. Региональный поиск в поисковых системах
  14. 15.1. Использование опечаток и ошибок для продвижения в поисковых системах
  15. И. Ашманов А. Иванов. ПРОДВИЖЕНИЕ САЙТА В ПОИСКОВЫХ СИСТЕМАХ, 2007
  16. П4.2. Поисковая система Google
  17. 2.4.2. Роботы и люди (два крыла интернета). История возникновения и сущность SMO.
  18. 3. Особенности продвижения в поисковых системах
  19. Часть 11/14. Что влияет на продвижение сайта в поисковых системах
  20. Глава 3. Особенности продвижения в поисковых системах