Googlebot игнорирует <meta name=”robots” content=”noarchive”/>
У Google свой подход
Я на днях поставил эксперимент с целью выяснить, понимает ли Googlebot указание на запрет архивирования страницы (<meta name="robots" content="noarchive"/>). Идея заключалась в том, чтобы разрешить поисковикам индексировать контент, доступный не всем пользователям, но при этом не сохранять его в архиве. Это позволило бы сайтам, имеющие защищённые страницы, появляться в результатах поиска по релевантному содержимому, но при этом закрывать (возможно, частично) контент от неавторизованных пользователей. Возможно, это не совсем этично, но это не обсуждается.
Результаты показаны на скриншоте (для просмотра в полном разрешении его нужно кликнуть):
Yahoo! Slurp поддерживает <meta name="robots" content="noarchive"/>, Teoma тоже, и даже Bing/MSNBot поддерживает данный синтаксис (справедливости ради, я не проверял, следуют ли они инструкциям в тэге или нет).
Я очень надеялся, что Googlebot тоже поддерживает подобный синтаксис (и следует инструкциям), но, как видим, нет. Осталось проверить, как он отреагирует на <meta name="googlebot" content="noarchive"/>.
Связанные записи
Автор: Vladimir; опубликовано в: SEO; метки: GoogleНоя
2009
Комментарии к статье «Googlebot игнорирует <meta name=”robots” content=”noarchive”/>» (6) »
Оставить комментарий к записи «Googlebot игнорирует <meta name=”robots” content=”noarchive”/>»
Вы должны быть авторизованы, чтобы иметь возможность оставить комментарий.


Меня зовут Владимир, я программист-фрилансер, специализирующийся на Web-программировании и програмировании под Linux.
По совместительству занимаюсь администрированием LAMP/LNMP-серверов и техническим переводом.






Гугление показывает что для Гугла надо использовать
<meta name="googlebot" content="noarchive">В справке же Гугла пишут:
Странно как-то.
Вот и я удивился, найдя страницу в кэше. Хотя в результатах поиска ссылки на кэш не было.
А как сайты, имеющие защищённые страницы, появляются в результатах поиска? Как они позволяют Гуглу получить доступ к защищенному контенту?
Проверка на то, кем является посетитель — ботом или человеком. Способов много — от проверки User-Agent (самый ненадёжный) до сложного поведенческого анализа. Если система определила, что пользователь является известным ботом, она его как бы логинит, и бот получает право просматривать защищённый контент.
С этим тегом у меня на сайте Google что-то намудрил вплоть до того что главной страницы в поиске нет. С Яндексом – всё хорошо. Сижу вот и гадаю на кофейной гуще – убирать чтоли…