Googlebot игнорирует <meta name=”robots” content=”noarchive”/>

У Google свой подход

Я на днях поставил эксперимент с целью выяснить, понимает ли Googlebot указание на запрет архивирования страницы (<meta name="robots" content="noarchive"/>). Идея заключалась в том, чтобы разрешить поисковикам индексировать контент, доступный не всем пользователям, но при этом не сохранять его в архиве. Это позволило бы сайтам, имеющие защищённые страницы, появляться в результатах поиска по релевантному содержимому, но при этом закрывать (возможно, частично) контент от неавторизованных пользователей. Возможно, это не совсем этично, но это не обсуждается.

Результаты показаны на скриншоте (для просмотра в полном разрешении его нужно кликнуть):

Google и noarchive

Yahoo! Slurp поддерживает <meta name="robots" content="noarchive"/>, Teoma тоже, и даже Bing/MSNBot поддерживает данный синтаксис (справедливости ради, я не проверял, следуют ли они инструкциям в тэге или нет).

Я очень надеялся, что Googlebot тоже поддерживает подобный синтаксис (и следует инструкциям), но, как видим, нет. Осталось проверить, как он отреагирует на <meta name="googlebot" content="noarchive"/>.

Добавить в закладки

Связанные записи

Автор: Vladimir; опубликовано в: SEO; метки: Google
24
Ноя
2009

RSS Комментарии к статье «Googlebot игнорирует <meta name=”robots” content=”noarchive”/>» (5)  »

  1. hayk

    Гугление показывает что для Гугла надо использовать
    <meta name="googlebot" content="noarchive">

  2. hayk

    В справке же Гугла пишут:

    Чтобы запретить всем поисковым системам выводить ссылку “Сохранено в кэше” для сайта, добавьте в раздел <HEAD> своей страницы следующий тег:

    <meta name=”robots” content=”noarchive”>

    Чтобы запретить отображение этой ссылки только в Google, используйте следующий тег:

    <meta name=”googlebot” content=”noarchive”>

    Странно как-то.

  3. hayk

    А как сайты, имеющие защищённые страницы, появляются в результатах поиска? Как они позволяют Гуглу получить доступ к защищенному контенту?

    • Проверка на то, кем является посетитель — ботом или человеком. Способов много — от проверки User-Agent (самый ненадёжный) до сложного поведенческого анализа. Если система определила, что пользователь является известным ботом, она его как бы логинит, и бот получает право просматривать защищённый контент.

Оставить комментарий к записи «Googlebot игнорирует <meta name=”robots” content=”noarchive”/>»

Вы можете использовать данные тэги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Изображения должны быть включены!

Оставляя комментарий, вы выражаете своё согласие с Правилами комментирования.

Подписаться, не комментируя