Файл robots.txt — это инструкция для поисковых роботов. В нем указывается, какие разделы и страницы сайта могут посещать роботы, а какие должны пропускать. В данном материале разберем, зачем нужен этот файл, как делать анализ robots.txt с помощью стандартных инструментов Яндекс и Google, а также с помощью программ и онлайн сервисов.
Поисковые роботы, краулеры, начинают знакомство с сайтом с чтения файла robots.txt. В нем содержится вся важная для них информация. Владельцам сайтов следует создать и периодически проводить анализ robots.txt. От корректности его работы зависит скорость индексации страниц и место в поисковой выдачи.
Поисковые роботы — это программы, которые сканируют содержимое сайтов и заносят их в базы поисковиков Яндекс, Google и других систем. Этот процесс называется индексацией.
Файл robots.txt содержит информацию о том, какие разделы нельзя посещать поисковым роботам. Это нужно для того, чтобы в выдачу не попадало лишнее: служебные и временные файлы, формы авторизации и т. п. В поисковой выдаче должен быть только уникальный контент и элементы, необходимые для корректного отображения страниц (изображения, CSS- и JS-код).
Если на сайте нет robots.txt, роботы заходят на каждую страницу. Это занимает много времени и уменьшает шанс того, что все нужные страницы будут проиндексированы корректно.
Если же файл есть в корневой папке сайта на хостинге, роботы сначала обращаются к прописанным в нём правилам. Они узнают, куда нельзя заходить, а какие страницы/разделы обязательно нужно посетить. И только после этого начинают обход сайта по инструкции.
Как сделать robots.txt для Wordpress, читайте в нашем материале.
Веб-разработчикам следует создать файл, если его нет, и наполнить его правильными директивами (командами) для поисковых роботов.
Чтобы убедиться в том, что файл составлен грамотно, можно использовать веб-инструменты Яндекс, Google, онлайн-сервисы, программы для seo-анализа текстов. В Яндекс и Google есть собственные правила для проверки robots.txt.
Проводите анализ robots.txt с помощью инструментов для разработчиков: через Яндекс.Вебмастер и Google Robots Testing Tool.
Важно! Яндекс и Google проверяют только соответствие файла собственным требованиям. Если для Яндекса файл корректный, это не значит, что он будет корректным для роботов Google, поэтому проверяйте в обоих системах.
Если вы найдете ошибки и исправите robots.txt, краулеры не считают изменения мгновенно. Обычно переобход страниц осуществляется один раз в день, но часто занимает гораздо большее время. Проверьте через неделю файл, чтобы убедиться, что поисковики используют новую версию.
Если вы впервые пользуетесь сервисом Яндекс.Вебмастер, сначала добавьте свой сайт и подтвердите права на него. После этого вы получите доступ к инструментам для анализа SEO-показателей сайта и продвижения в ПС Яндекс.
Чтобы проверить robots.txt с помощью валидатора Яндекс:
Шаг 1. Зайдите в личный кабинет Яндекс.Вебмастер.
Шаг 2. Выберите в левом меню раздел Инструменты → Анализ robots.txt.
Шаг 3. Содержимое нужного файла подставиться автоматически. Если по какой-то причине этого не произошло, скопируйте код, вставьте его в поле и нажмите Проверить:
Шаг 4. Ниже будут указаны результаты проверки.
Если в директивах есть ошибки, сервис покажет, какую строку нужно поправить, и опишет проблему
Чтобы сделать проверку robots.txt с помощью инструмента Google Search Console:
Шаг 1. Перейдите на страницу инструмента проверки Google Robots Testing Tool.
Шаг 2. Если на открывшейся странице отображается неактуальная версия robots.txt, нажмите кнопку Отправить и следуйте инструкциям Google:
Шаг 3. В следующем окне есть три варианта на выбор:
Шаг 4. Ну а если отображается актуальная версия, то в поле будут отображаться актуальные директивы. Предупреждения/ошибки (если система найдет их) будут перечислены под кодом.
Важно! Правки, которые вы вносите в сервисе проверки, не будут автоматически применяться в robots.txt. Вам нужно внести исправленный код вручную на хостинге или в административной панели CMS и сохранить изменения.
Рассмотрим несколько сервисов для проверки роботса.
Шаг 1. Перейдите на сайт сервиса Website planet →
Шаг 2. Вставьте URL-адрес по которому открывается robots.txt и нажмите Проверить.
Шаг 3. Через некоторое время получите результаты анализа.
Шаг 1. Перейдите на сайт сервиса Majento →
Шаг 2. Вставьте URL-адрес по которому открывается robots.txt и нажмите Анализировать robots.txt.
Шаг 3. Через некоторое время получите результаты анализа.
Шаг 1. Перейдите на сайт сервиса Technicalseo →
Шаг 2. Вставьте URL-адрес по которому открывается robots.txt, выберите тип бота Googlebot и нажмите TEST.
Шаг 3. Через некоторое время получите результаты анализа.
Шаг 1. Перейдите на сайт сервиса Ryte →
Шаг 2. Вставьте URL-адрес, по которому открывается robots.txt, выберите тип бота Googlebot и нажмите Evaluate.
Шаг 3. Через некоторое время, получите результаты анализа.
Расширение для браузера Chrome.
Шаг 1. Перейдите чтобы скачать расширение Robots.txt Validator →
Шаг 2. Вставьте URL-адрес, по которому открывается robots.txt, выберите тип бота Googlebot и нажмите Evaluate.
Шаг 3. Через некоторое время получите результаты анализа.
Рассмотрим два варианта проверки через краулеры.
Шаг 1. Перейдите чтобы скачать SEO Spider Tool →
Шаг 2. Откройте программу, в верхнем меню выберите раздел Configuration→ robots.txt→ Custom
Шаг 3. Далее нужно добавить свой домен. Для этого нажмите на кнопку Add и введите адрес в строку. Нажмите ОК.
Шаг 4. После этого можем увидеть директивы роботса, отредактировать его здесь и скачать. Нажимаем кнопку Test.
И получаем мгновенно результат анализа и проверки.
Встроенная функция «Виртуальный robots.txt» позволяет протестировать новый или обновлённый robots.txt, не меняя действующий файл в корневой директории сканируемого сайта.
Шаг 1. Чтобы настроить виртуальный robots.txt, необходимо перейти в «Настройки» → вкладка «Виртуальный robots.txt», отметить галочкой «Использовать виртуальный robots.txt», задать свои инструкции и сохранить настройки, нажав ОК.
Чтобы приступить к тестированию составленного вами виртуального файла robots.txt, в поле «Начального URL» на панели управления введите адрес сайта и запустите сканирование кнопкой «Старт».
Вы можете воспользоваться функциями:
Значения, актуальные для прописанного вами виртуального файла, отобразятся в колонках основной таблицы:
Чтобы краулер следовал указанным инструкциям, необходимо активировать учёт инструкций в robots.txt на вкладке «Продвинутые» в настройках программы.
Важно! Если опция «Виртуальный robots.txt» отключена, то программа будет следовать инструкциям и отображать их из настоящего файла robots.txt. На результат сканирования будет также влиять выбранный вами User Agent.
Что нужно запомнить:
Читайте также наш материал, как проверить карту сайта sitemap.xml на ошибки.