Googlebot игнорирует <meta name=»robots» content=»noarchive»/>
У Google свой подход
Я на днях поставил эксперимент с целью выяснить, понимает ли Googlebot указание на запрет архивирования страницы (<meta name="robots" content="noarchive"/>). Идея заключалась в том, чтобы разрешить поисковикам индексировать контент, доступный не всем пользователям, но при этом не сохранять его в архиве. Это позволило бы сайтам, имеющие защищённые страницы, появляться в результатах поиска по релевантному содержимому, но [...]
← Вернуться к полной версии записи «Googlebot игнорирует <meta name=»robots» content=»noarchive»/>»…
Вложения:
- Google и noarchive (image/png)
Ноя
2009
Комментарии к статье «Googlebot игнорирует <meta name=»robots» content=»noarchive»/>» (8) »
Пожалуйста, не используйте эту форму для комментирования! Данная форма предназначена исключительно для ботов.
Оставить комментарий к записи «Googlebot игнорирует <meta name=»robots» content=»noarchive»/>»
गते गते पारगते पारसंगते बोधि स्वाहा
Меня зовут Владимир, я программист-фрилансер, специализирующийся на Web-программировании и програмировании под Linux.
По совместительству занимаюсь администрированием LAMP/LNMP-серверов и техническим переводом.


Гугление показывает что для Гугла надо использовать
<meta name="googlebot" content="noarchive">В справке же Гугла пишут:
Странно как-то.
Вот и я удивился, найдя страницу в кэше. Хотя в результатах поиска ссылки на кэш не было.
А как сайты, имеющие защищённые страницы, появляются в результатах поиска? Как они позволяют Гуглу получить доступ к защищенному контенту?
Проверка на то, кем является посетитель — ботом или человеком. Способов много — от проверки User-Agent (самый ненадёжный) до сложного поведенческого анализа. Если система определила, что пользователь является известным ботом, она его как бы логинит, и бот получает право просматривать защищённый контент.
С этим тегом у меня на сайте Google что-то намудрил вплоть до того что главной страницы в поиске нет. С Яндексом – всё хорошо. Сижу вот и гадаю на кофейной гуще – убирать чтоли…
вот бы узнать, зачем на конце слешъ: »/>… А то везде просто »>
В HTML правильно без слэша:
<meta name="" content="">В XHTML правильно со слэшом:
<meta name="" content=""/>