5.4. Некоторые важные вопросы. Какие слова индексирует поисковая машина. Как мы уже говорили, для индексации слов на страницах поисковику нужно знать, что именно считается словом.

Что такое слово
Например, слова с дефисом (красно синий, что-нибудь) — это одно слово или два? А числа — это тоже слова, или их следует выбрасывать как "мусор"? А слова на другом языке — выбрасывать или оставлять? Что делать с комбинацией букв и цифр (с названиями моделей электроники, например)? Индексируются ли адреса электронной почты, интернет-адреса или даты, и если да, то как?
Все эти вопросы решаются разработчиками каждой поисковой машины по- своему.
Более того, нам здесь нет смысла пытаться точно указать правила выделения слов для Яндекса или Google — они могут меняться хоть раз в месяц, с каждым вводом "в бой" очередной версии поискового механизма. Гораздо проще это проверять самостоятельно, когда требуется.
Как проверить
Вы можете сами легко проверить, как разработчики Яндекса, Google или Рамблера обрабатывают, например, слова с дефисом или числа. Для этого достаточно ввести в поисковик такой запрос и посмотреть, что именно найдет и как покажет результаты поиска данная поисковая машина. Поскольку найденные слова отображаются и подсвечиваются в цитатах (аннотациях) страниц, будет сразу видно, как эти слова хранятся в индексе данного поисковика.
Разделители
Конечно, поисковики не индексируют всякие служебные символы, так называемые разделители — пробелы, знаки препинания, а также различные теги и другие конструкции языка HTML. Например, если ввести в Яндекс или Google запрос из одной точки (.), они откажутся искать по такому запросу, а Яндекс еще и сообщит о "синтаксической ошибке". Действительно, точка есть в любом тексте, так что искать ее нет смысла, да и накладно по затратам серверной мощности.
Стоп-слова
А есть ли "ненужные слова", которые поисковики не индексируют вовсе?
Поисковый индекс представляет собой пусть хорошо упакованную, максимально сжатую, вывернутую "наизнанку", но все же копию всех страниц Интернета, известных поисковику. А поисковики стремятся получить данные о максимально большем количестве страниц, т.е. в идеале поисковый индекс должен представлять собой копию всего Интернета, а это огромный объем данных.
Поэтому раньше поисковые машины старались экономить место на дисках и время работы сервера и отбрасывали при индексации некоторые неважные, служебные слова, так называемые стоп-слова, например предлоги, союзы, числа, сокращения и т.п. Отбрасывали они также и цифры.
В дальнейшем оказалось, что пользователи все-таки достаточно часто запрашивают такие слова, поэтому их нужно хранить (особенно для поиска точных цитат, включающих эти служебные слова). А стоимость хранения мегабайта данных к настоящему времени существенно снизилась — жесткие диски стали дешевы. Так что сейчас большинство популярных поисковиков индексируют все слова в текстах, в том числе и стоп-слова — предлоги, союзы, междометия. Индексируют они также и цифры, и буквенно-цифровые комбинации (т.е. считают их словами).
Так что сейчас вы можете поискать в Яндексе или Рамблере, например, предлог "в". Это, кстати говоря, хороший способ понять, сколько всего страниц в индексе поисковика, поскольку предлог "в" есть в любом русскоязычном тексте.
Индексация ссылок
В текстах веб-страниц во множестве присутствуют ссылки на другие страницы Интернета — гипертекстовые ссылки. Для пользователя они выглядят как подчеркнутые или подсвеченные особым цветом слова, на которых можно щелкнуть мышью и перейти на другую страницу. Для поискового робота выделить в тексте страницы гипертекстовые ссылки нетрудно, потому что они всегда имеют формальный вид — начинаются и заканчиваются специальными метками языка HTML.
Но ссылки — это не текст, не слова. Нужно ли их индексировать?
Да, безусловно. Индексируя ссылки, поисковики преследуют сразу несколько целей.
1. Пополнение списка страниц. С помощью ссылок поисковики пополняют свой список веб-страниц для индексации.
2. Поиск ссылок на заданный сайт. Большинство современных поисковиков позволяют искать по ссылкам на заданный сайт или страницу, как по обычным словам.
3. Вычисление ранга авторитетности страницы. С помощью ссылок поисковые машины анализируют структуру ссылок сайтов друг на друга, чтобы определить наиболее авторитетные в Интернете страницы и сайты. Правило тут простое: на кого много ссылаются, тот, очевидно, более известен и авторитетен, чем тот, на кого поставили мало ссылок. Авторитетность страницы, вычисленная по количеству ссылок на нее с других страниц, называется ссылочным рангом страницы (по-английски — PageRank). Об этом методе ранжирования подробно рассказано ниже в этой главе.
4. Использование текста ссылки. С помощью текста ссылок можно получить тематическую классификацию страниц. Ведь ссылка обычно содержит не только адрес страницы, но и текст ссылки, т.е. те слова, которые подчеркиваются на веб-странице и на которых можно щелкнуть.
Этот текст поисковики индексируют специальным образом, так как он является фактически кратким смысловым описанием той страницы, на которую ведет ссылка. Это описание можно использовать для поиска вебстраниц (обычно такие страницы помечают в результатах поиска как "найдено по ссылке"), а также для тематического ранжирования веб-страниц при выдаче результатов поиска. Об использовании текста ссылок мы подробнее расскажем в главе 11 "Внутренние факторы, от которых зависит положение сайта в результатах поиска" и главе 13 "Авторитетность сайта и ссылочное ранжирование".
Графический текст
Хотя это покажется совершенно очевидным опытному человеку, стоит все- таки сказать, что поисковые машины не индексируют текст, написанный графически, т.е. в виде картинки. Оформлять заголовки рубрик сайта, лозунги, название фирмы красивым шрифтом в виде картинки — довольно распространенный прием, но нужно понимать, что поисковая машина фактически "не видит" этого текста.
В последнее время поисковики научились индексировать графику в формате Flash (но только потому, что текст все-таки скрыто присутствует в объектах Flash также и в исходном текстовом виде). А вот текст, представленный в растровом виде (нарисованный с помощью цветных точек, или пикселей), поисковикам еще долго будет недоступен.
Что такое машинная морфология
Как уже говорилось выше, при индексировании текстов и поиске запросов поисковая машина волей-неволей должна производить лингвистическую обработку слов. Причина этого — в устройстве языка.
Проблема окончаний
Во многих языках слова имеют несколько различных окончаний (в так называемых флективных языках; от лат. флексия — окончание). Поэтому у каждого слова очень много различных форм, которые называются словоформами. Бывают, конечно, во флективных языках и неизменяемые слова (предлоги, наречия, союзы и пр.), но их меньшинство.
Словоформы по смыслу являются одним и тем же словом, но по форме могут очень сильно различаться из-за окончаний, а также чередований букв в основе (например, видеть — вижу, бобер — бобры, fight — fought). А в некоторых особых случаях (так называемый супплетивизм) словоформы одного и того же слова могут вообще не иметь ни единой общей буквы (например, идти — шел', go — went).
Как видно из примеров, русский и английский языки — флективные. Однако окончаний и разных словоформ в английском языке сравнительно мало. Лингвистическая обработка окончаний в английском очень проста, а часто и вовсе не делается поисковиками.
А вот русский язык, напротив,— высокофлективный язык, так как его слова имеют очень много форм. Например, существительное в общем случае имеет двенадцать словоформ (шесть падежей единственного числа и шесть падежей множественного). Есть и неизменяемые существительные, например кофе, пальто, но их мало. У прилагательного — почти двадцать словоформ, а уж глаголы со всеми своими причастиями могут иметь до сотни форм.
Таким образом, если хранить в индексе все встречающиеся в Интернете слова русского языка во всех их формах, словарь получится просто огромным, размером в десятки миллионов словоформ. Что, естественно, неудобно и неэффективно.
Кроме того, есть еще вопрос правильного поиска слов. Ведь хотелось бы, чтобы поисковая машина знала, что стол и столы — одно и то же слово! Таким образом, поисковику нужно отождествлять между собой словоформы, являющиеся грамматическими формами одного и того же слова, чтобы при поиске не пропускать вхождений искомого слова.
Как это делается?
Отбрасывание окончаний и работа с основами
Естественным решением этой проблемы изменчивости слов является решение хранить только основы слов, а окончания и чередования — отбрасывать и хранить отдельно. Это дает не только значительную экономию, но и позволяет объединять при поиске разные грамматические формы одного и того же слова, что довольно важно для качества поиска.
Для этого в ходе индексации веб-страниц слова приводятся к своим начальным формам (условно говоря, к именительному падежу или инфинитиву), а чаще — вообще к основам (корням слов), и уже в таком виде добавляются в индекс поисковой машины. Для этого поисковик обычно применяет словарь, т.е. работает только с известными ему словами. (Об обработке неизвестных слов рассказывается во врезке ниже в данной главе.)
Если все словоформы слова сводятся к его основе на этапе создания индекса, то потом, при задании любой словоформы слова в запросе, она также будет сведена к основе и будут найдены все вхождения этой основы в тексте.
Зачем нужно знать о машинной морфологии
Все три российских поисковика — Апорт, Рамблер и Яндекс — уже много лет применяют машинную морфологию при индексировании и поиске. С весны 2006 года русская машинная морфология подключена также и в Google . У каждой поисковой машины машинная морфология своя, особенная. Впрочем, обычные слова, наподобие кондиционер, все они склоняют практически одинаково.
Для владельца сайта понимание того, что поисковик считает разные формы слова одним и тем же словом, довольно важно при составлении текстов сайта, управлении ссылками, а также при планировании продвижения сайта и контекстных рекламных кампаний в системах контекстной рекламы Бегун и Яндекс.Директ.
Неизвестные слова и "нечеткая" морфология
Аккуратно отбросить окончание и найти основу можно только у известного с лова, которое есть в словаре поисковика. А в языке и особенно в Интернете постоянно появляются новые слова, ибо словотворчество веб-мастеров не знает границ. Как же поступает поисковик с неизвестными ему словами?
С ними делают то же самое, что и с прочими несловарными элементами — числами, буквенно- цифровыми последовательностями, словами неизвестных языков: поисковик хранит их в индексе "как есть", как иероглиф, в той фиксированной форме, в которой они встретились в тексте при
Правда, в отличие от российских поисковиков, Google применяет машинную морфологию не на этапе индексирования, а только во время обработки запроса. Это означает, что Google записывает в индекс все словоформы отдельно, "как есть", а при обработке запроса применяет так называемое расширение запроса: слова запроса, превращаются в веер словоформ и все словоформы ищутся в индексе.
Интересно, что делается это не каждый раз, а только тогда, когда поисковик сочтет это обоснованным, на основе анализа статистики вхождений заданного слова на веб страницы..
индексации. То же самое происходит и с опечатками — они хранятся "как есть". Это довольно очевидный факт, но он ведет к важному выводу: если нужно, чтобы слова на странице распозна-вались поисковиками во всех своих грамматических формах, их следует писать без ошибок и по возможности использовать общеупотребительные слова, которые наверняка известны машинной морфологии поисковиков.
Иногда поисковик пытается как-то разобраться со словоизменением неизвестного ему слова — выдвинуть гипотезу о его возможных окончаниях по форме слова. Например, если у вас на сайте использовано слово "квазистул", то можно предположить, что оно склоняется так же, как слово "стул". Этот алгоритм называется нечеткой морфологией. Такой алгоритм, в частности, применяют Яндекс и Google. Но этот процесс во многом вероятностный, и рассчитывать на него при написании текстов сайта не стоит.
Какие сайты индексирует поисковая машина Домены
Очень важно понимать, где находятся пределы зоны индексирования поисковика, какие сайты можно в нем найти, а какие нет, какие сайты можно добавить в поисковик, а какие нет. Хотя Яндекс и Рамблер — поисковые машины по русскоязычным сайтам, т.е. по Рунету, это не значит, что они индексируют только сайты с именами в зоне . ru. В оба поисковика можно добавить сайт с расширением . com, . info и другими, но при этом он должен быть на русском языке. До сайтов из этих и других доменных зон Яндекс и Рамблер добираются и сами, если на них ведут ссылки с сайтов, уже известных этим поисковикам.
Google, который позиционирует себя, как мировую поисковую машину, естественно, индексирует вообще любые сайты во всех доменных зонах.
Какие документы индексируют поисковики
Изначально целью поисковиков было проиндексировать веб-страницы, т.е. тексты в формате HTML, выложенные на сайт и отображаемые веб-сервером по протоколу HTTP . Позже обнаружилось, что много полезной информации выложено в Интернете в виде статей, прейскурантов, документации, руководств и т.п. в разных "офисных" форматах. Поэтому большинство поисковиков 2-3 года назад начали индексировать выложенные на сайт документы в форматах MS Word, PDF и MS Excel. Широкое распространение динамических страниц в формате Flash заставило поисковики индексировать и тексты, скрытые в этом формате файлов.
Однако не стоит рассчитывать на индексацию вашей информации в этих экзотических для Интернета форматах, поскольку нет гарантии, что поисковик заиндексирует их хорошо. Если есть возможность, всегда следует дублировать на сайте любые важные тексты в формате HTML.
Протокол HTTP ( HyperText Transfer Protocol) --- методика передачи веб страниц по сети Интернет.
Например, нужно всегда иметь прейскурант в виде обычной веб-страницы, потому что до прейскуранта в формате Excel поисковик может не добраться, а если и доберется, то индексация, поиск и показ его в результатах поиска будут обязательно хромать, поскольку поисковики не умеют разбирать структуру Excel-файлов так же хорошо, как HTML-страниц.
Заметим, что поисковики не индексируют тексты, которые выводятся на экран пользователя динамически разными программными средствами наподобие сценариев на языке JavaScript. Они так же невидимы для поисковика, как и тексты в графическом виде, о которых говорилось выше.
Глубина и объем индексации
А насколько глубоко поисковик "зарывается" в сайт, есть ли какие-то ограничения?
Теоретически таких ограничений нет, однако на практике поисковик не станет выкачивать с вашего сайта миллионы страниц (если они там есть). Ведь у поисковика в очереди на индексацию кроме вашего сайта стоят миллионы других сайтов, поэтому он старается за один раз, за один проход взять с каждого сайта некоторое разумное количество страниц. На следующем цикле индексации поисковик может взять еще какое-то количество ваших страниц и т.д. Чтобы не брать каждый раз слишком много, поисковик старается не погружаться слишком глубоко по ссылкам внутрь вашего сайта.
Это означает, что даже при большом количестве страниц сайт должен быть разумно организован, скажем, не должно быть страниц, до которых можно добраться только по цепочке из десяти ссылок. В главе б "Как сделать сайт доступным для поисковых систем" и главе 12 "Коррекция сайта с целью продвижения в поисковых системах" мы расскажем об этом подробнее.
Индексация баз данных
Очень часто сайты с большим объемом данных хранят свои страницы в какой-либо базе данных (например, MySQL или Microsoft SQL Server). Это гораздо удобнее для хранения и обновления сайта, поскольку база данных позволяет легко добавлять, модифицировать и удалять информацию.
Как поисковики обращаются с такими сайтами, могут ли они их индексировать?
Ответ тут простой: если страницы сайта выдаются из базы данных при переходе по ссылкам внутри сайта, то поисковику в принципе все равно, откуда они берутся при подобном переходе. Находится ли страница на сайте или генерируется динамически при переходе по ссылке — для индексации неважно. А вот если для получения страницы пользователь должен обязательно ввести какой- то запрос к базе данных, то поисковик таких страниц просто "не видит".
Поясним вышесказанное на примере. Допустим, у вас есть онлайновая энциклопедия по фильмам и актерам, содержащая 100 тысяч статей в алфавитном порядке. Конечно, хранить и редактировать такое количество страниц "россыпью", в виде НТМЬ-файлов, крайне неудобно. Поэтому статьи энциклопедии будут, скорее всего, храниться в базе данных, где их достаточно просто свести в одну таблицу и хранить в нескольких файлах базы данных.
Пусть теперь вы подали свой сайт на индексацию в поисковиках. Если у вас на сайте будет полное оглавление статей энциклопедии, в виде иерархического оглавления (скажем, по буквам алфавита) или в виде простого линейного списка заголовков статей, то поисковик пройдет по этому оглавлению, как по обычным ссылкам, и проиндексирует всю вашу энциклопедию. Сделает он это, скорее всего, не сразу, а в несколько проходов (так как статей много), но в конце концов все статьи энциклопедии попадут в индекс.
Если же у автора сайта не хватило сил и времени сделать такое оглавление для доступа к отдельным статьям энциклопедии (а это большая работа — сделать 100 тысяч аккуратных ссылок в том или ином виде), то пользователь сможет найти статью только с помощью поиска в базе данных по ключевым словам, входящим в заголовок или тело статьи. Такие средства есть практически в любой базе данных, и вебмастера ими активно пользуются.
Но поисковик — не пользователь, он ведь не будет специально перебирать и подставлять все слова русского языка в окошко для поиска на вашем сайте! Он зайдет на страницу поиска, ссылок на статьи энциклопедии не обнаружит и отправится дальше индексировать Интернет по своему расписанию. Окошко поиска, так называемая форма поиска, не является ссылкой на другие страницы и интереса у поисковика не вызовет. Следовательно, в данном случае он проиндексирует только одну страницу — страницу поиска по энциклопедии, а сама энциклопедия останется для него невидимой.
Таким образом, при создании сайта нужно помнить, что поисковик индексирует на вашем сайте только то, на что есть гипертекстовая ссылка. Большие базы данных с единственным способом доступа к их содержимому в виде окна поиска — для поисковика невидимы. Таких баз в Интернете много, именно поэтому говорят о "глубинном Интернете", который невидим поисковикам и который больше видимого в десятки или даже сотни раз.
Как часто поисковая машина обходит Интернет
Более точно этот вопрос можно сформулировать так: как быстро новые страницы появляются в индексе поисковика и как часто поисковик их потом обновляет?
Безусловно, идеальный поисковик должен иметь всякую страницу в своем индексе сразу же, как только она появилась. И существующие поисковики к этому стремятся. Однако огромный объем Интернета ставит здесь свои препятствия и ограничения.
От обхода раз в месяц в начале текущего века Яндекс и Рамблер к настоящему времени добрались до еженедельной индексации. Однако, поскольку есть такие типы информации (новости, цены, курсы валют), для которых обновление раз в неделю — это чрезвычайно медленно, поисковики имеют специального "быстрого робота", который может обходить быстро изменяющиеся сайты по нескольку раз в день.
Каким образом сайты попадают в списки такого быстрого робота — отдельный разговор. Поисковик имеет механизмы "самообучения" быстрого робота. Если ваш сайт уже достаточно авторитетен (имеет высокий ссылочный ранг) и при этом имеет много страниц, которые часто изменяются, у него довольно много шансов быть замеченным "быстрым роботом".
Что такое язык запросов
Как правило, у любой поисковой машины есть возможность так называемого расширенного поиска. Расширенным он называется потому, что имеет расширенные возможности задания запроса. В первую очередь это касается возможности использовать при поиске логические операторы наподобие И, ИЛИ и НЕ, чтобы задать, например, поиск кондиционера или очистителя воздуха в Москве, но не в Петербурге. Также широко распространен оператор буквального поиска заданного словосочетания — обычно для этого искомую фразу заключают в кавычки.
Правила употребления этих и других поисковых операторов и называются языком запросов. Язык запросов, как правило, значительно отличается в разных поисковых машинах — по способам записи операторов, алгоритмам их применения в поиске и т.п.
Обычно при описании поисковой машины в научной литературе или компьютерной периодике считается хорошим тоном посвятить одну-две страницы ее языку запросов и показать, какой он мощный.
Мы здесь этого делать не будем по одной очень простой причине — это не имеет практического смысла для владельца сайта, желающего продвинуть свой сайт в поисковых машинах.
Дело в том, что, несмотря на богатые возможности языка запросов современных поисковых машин, пользуются им на практике 1-2% наиболее опытных и технически грамотных пользователей. Следовательно, какой бы ни был язык запросов у Яндекса, это практически никак не повлияет на посещаемость вашего сайта.
Более того, согласно статистике самих же поисковых машин, обычный пользователь по мере получения опыта в Интернете движется не в сторону овладения языком запросов, а в сторону использования естественного языка, т.е. более длинных словосочетаний и фраз в запросе. По сути, язык запросов — это анахронизм, оставшийся от тех времен, когда пользователями Интернета были в основном люди с техническим образованием, инженеры и математики, готовые программировать и отлаживать свои запросы для достижения наилучшего результата.
А обычный, массовый пользователь вводит запросы, как ему Бог на душу положит. Поэтому чуть ниже мы разберемся подробнее, какие вообще бывают запросы.
<< | >>
Источник: И. Ашманов А. Иванов. ПРОДВИЖЕНИЕ САЙТА В ПОИСКОВЫХ СИСТЕМАХ. 2007

Еще по теме 5.4. Некоторые важные вопросы. Какие слова индексирует поисковая машина. Как мы уже говорили, для индексации слов на страницах поисковику нужно знать, что именно считается словом.:

  1. Что такое поисковые машины и как они работают?
  2. 1.1. Что такое поисковые машины и как они работают?
  3. Чтобы говорить правду, нужно знать, что такое правда и что такое ложь — прежде всего, в самом себе.
  4. 5.3. Как устроен индекс поисковой машины
  5. 5.2. Как работает поисковая машина
  6. 40. Загляни в мою машину – когда слова ни о чем не говорят
  7. Что такое рейтинг с точки зрения поисковой машины?
  8. 2.5. Что такое рейтинг с точки зрения поисковой машины?
  9. 4.3. Оптимизация сайта для поисковых машин
  10. 12.1. Что нужно править на страницах сайта
  11. Что нужно знать о презентациях
  12. Часть II/5. Что нужно знать начинающему сеошнику?
  13. ВСЕ, ЧТО НУЖНО ЗНАТЬ О СТАРТОВОМ КАПИТАЛЕ
  14. Все, что вам нужно знать о циклах
  15. Именно поэтому кризис 2008 года совсем иной, он – по всему миру, и выбрать какую-то одну валюту для хранения сбережений, либо одну страну для вложений уже невозможно.