Как правильно составлять и проверять файл robots.txt

robots.txt - обыкновенный текстовый файл, лежащий в корневой папке на вашем хостинге. Он включает в себя список ссылок (или их частей), шаблонов (используется звёздочка ). Этот файл нужен поисковым роботам («паукам»). Пример файла robots.txt можно посмотреть перейдя по следующей ссылке.

Как было сказано выше, файл robots.txt должен лежать в корневой папке хостинга. Следовательно, если Ваш сайт имеет домен www.yourdomain.ru , то этот файл расположен по ссылке www.yourdomain.ru/robots.txt .Только в этом месте поисковые роботы смогут его обнаружить. Для того, чтобы посмотреть Ваш файл, Вам достаточно прописать в строке браузера путь, указанный выше.

Перед тем, как размещать составленный Вами robots.txt, нужно его тщательно проверить. Вы могли случайно поставить лишнюю ссылку на запрет индексации, или наоборот, позволили роботу индексировать то, что должно быть заблокировано. Для того, чтобы проверить это, в Интернете существует множество программ, симулирующих поисковых роботов. Вы можете воспользоваться ими и посмотреть какие страницы вашего сайта отображаются, а какие нет. Одной из таких программ является GSiteCrawler. GSiteCrawler может маскироваться под различных поисковых ботов, включая Googlebot.

Вы можете сказать, что вам не нужно ничего запрещать для индексации, пусть поисковый робот имеет доступ ко всем страницам моего сайта. Однако учтите, что Ваш сайт может содержать на своих страницах «тяжёлый» JavaScript или скрипты написанные на других языках программирования; динамические страницы и т.д.

Фактически, поисковые роботы перемещаются по всем ссылкам на вашем сайте, которые не запрещены в robots.txt . Давайте представим следующее - Вы считаете, что робот должен индексировать все страницы Вашего сайта. Допустим, у Вас на сайте есть календарь, в котором показываются запланированые, текущие и прошедшие новости. Робот проиндексирует и его, и тогда любой пользователь будет иметь доступ к ещё ненаписанным новостям на сайте или к уже прошедшим. Однако есть такие типы календарей, которые оставляют пустые записи на каждый день, и робот индексируя такой календарь попадает в «ловушку».

Конечно же, через некоторое время он покинет Ваш сайт. Однако, если робот первым делом перешёл по ссылке календаря, то остальной контент может остаться непроиндексированным. На индексацию ставить лучше только важный контент.

Правильное использование файла robots.txt может существенно помочь в поисковой оптимизации.


Источник: www.masterseo.org





Если вы хотите разместить свою статью или новость - присылайте ее по адресу .