SEO-комьюнити Collaborator в Telegram Присоединиться

Как проверить карту сайта sitemap.xml на ошибки

Вы создали карту сайта, загрузили ее в Google Search Console и Яндекс.Вебмастер, но файл не получил статус «Успешно» или «Ок»? А, может, отчет о файлах Sitemap выглядит хорошо, но поисковики игнорируют ваш файл Sitemap и не собираются индексировать многие страницы из карты сайта. Возникает вопрос, можно ли что-нибудь сделать для улучшения статистики индексирования. Отвечаем — можно, и расскажем, как это сделать.

Если у вас еще нет карты сайта и вы хотите узнать, зачем она нужна, ознакомьтесь с нашим вводным материалом по созданию файла Sitemap. Здесь мы расскажем о преимуществах использования карты сайта, как проверить ее на ошибки и о рекомендациях по работе с ней. Если вы пока не знаете, для чего используют теги <loc> и <lastmod>, что такое карта сайта или файл индекса Sitemap, то вводное руководство вам точно пригодится.

Также, мы перечислим все ошибки, с которыми вы можете столкнуться в отчетах о файлах Sitemap в Google Search Console и Яндекс.Вебмастере.

Какие есть способы проверки карты сайта на ошибки?

Карту сайта проверяют, чтобы исключить проблемы с индексацией ресурса. К примеру, если случайная страница стала выдавать ошибку или была ранее вами удалена. После внесенных изменений нужно обновить sitemap.  

Если у вас небольшой сайт и вы редко обновляете информацию на страницах — достаточно делать плановую проверку раз в полгода. А если вы постоянно меняете или добавляете данные на ресурс — нужно проверять карту чаще и отправлять новые страницы на индексацию.

Проверить карту сайта на ошибки можно с помощью доступного ПО, такими как:

А также с помощью инструментов для вебмастеров:

Разберем каждый вариант детально и по-порядку.

Screaming Frog SEO Spider Tool

Шаг 1. Скачайте и установите программное обеспечение по ссылке выше. 

Шаг 2. Откройте программу, найдите в верхнем меню раздел «Mode» и переключите тип сканирования на «List».

Проверка карты сайта sitemap.xml на ошибки. Инструкция

Шаг 3. В верхней части экрана, появится кнопка «Upload». Нажмите и выберите пункт «Download XML Sitemap».

Проверка карты сайта sitemap.xml на ошибки. Руководство

Шаг 4. Вводим в строку адрес, по которому открывается карта сайта и жмем ОК.

Инструкция по проверке карты сайта sitemap.xml на ошибки

Шаг 5. Когда карта сайта будет загружена и проверена, жмем в верхнем меню раздел «Sitemap», и справа в сайдбаре смотрим есть ли ошибки.

Руководство по проверке карты сайта sitemap.xml на ошибки

Netpeak Spider

Шаг 1. Скачайте и установите программное обеспечение по ссылке выше. 

Шаг 2. Если на проекте уже подключена карта сайта XML, но с ней возникают проблемы, проверьте существующий файл на ошибки. Перейдите в меню «Инструменты» → «Валидатор XML Sitemap». Укажите URL-адрес карты и нажмите «Старт».

Методы проверки карты сайта на ошибки

После валидации файла отобразятся ошибки с указанием их критичности. Инструмент проверяет карту сайта на соответствие требованиям Standard Sitemap Protocol, который поддерживают поисковые системы. Анализируется более 30 возможных ошибок. Если Netpeak Spider обнаружил ошибки в Sitemap, исправьте их и проведите валидацию повторно.

Screaming Frog SEO Spider Tool

При возникновении сложностей с исправлением ошибок воспользуйтесь генератором — иногда проще создать новый sitemap, а затем загрузить его на хостинг.

Google Search Console

Шаг 1. Зайдите в консоль, выберите нужный проект и перейдите в раздел «Файлы Sitemap». Если карта сайта еще не была отправлена на проверку и индексацию то вставьте адрес в поле и нажмите «Отправить». 

Если же, карта ранее была отправлена — увидите статус «Успешно» или «ОК» когда все хорошо.

Netpeak Spider

Шаг 2. Можно зайти на карту сайта, нажав на нее и увидеть детальную информацию. 

Google Search Console

Если карта сайта имеет проблемы, то увидете  — «Не получено» или «Обнаружены проблемы».

Яндекс.Вебмастер

Наиболее популярные ошибки карты сайта и их устранение

Яндекс.Вебмастер

Шаг 1. Чтобы проверить карту в Яндекс.Вебмастер, зайдите в раздел «Инструменты» — «Анализ файлов Sitemap».  

Шаг 2. В открывшемся блоке выберите способ добавления файла: вставить текст, ссылку или прикрепить документ.

Ошибки в файле индекса Sitemap

После проверки перед вами откроются результаты, из которых станет понятно, были ли обнаружены какие-либо ошибки.

Недопустимый размер файла Sitemap и ошибки сжатия

Важно! Еще в Яндекс Вебмастере есть такая фишка, что в карте сайте он может видеть ошибки (если это карта сайта для картинок). Но здесь не нужно спешить удалять ее. Яндекс пишет это как предупреждение, с этим не нужно ничего делать, это нормальное явление.

Самые популярные ошибки и их устранение

Ошибки в файле индекса Sitemap

1. Файл индекса Sitemap содержит ссылки на несколько карт сайта — поисковой системе необходимо обработать их все, чтобы наконец получить доступ к URL-адресам вашего сайта. В Google Search Console вы получите ошибку «Неполные URL в файле индекса Sitemap», если поисковик не сможет обработать URL-адреса, перечисленные в файле индекса Sitemap. Обычно это означает, что Google не удалось найти одну или несколько ваших карт сайта, потому что вы использовали относительные URL-адреса. Все URL-ы, которые указывают на отдельные карты сайта в файле индекса Sitemap, должны быть абсолютными, иначе Google не сможет их найти.

2. Кроме того, в вашем файле индекса Sitemap не должны быть указаны другие файлы индекса Sitemap, а только карты сайта. Если вы сделаете так, то получите сообщение «Вложенные файлы индекса Sitemap» в Google Search Console и «Файл Sitemap index не может содержать ссылки на файлы Sitemap index» в Яндексе.

3. И последняя ошибка. В Google она звучит так «Слишком много файлов Sitemap в файле индекса», а в Яндексе — «Число файлов Sitemap превышает заданный предел». Это происходит с огромными сайтами, которые содержат более 50 000 карт сайта в одном файле.

Недопустимый размер файла Sitemap и ошибки сжатия

Ограничения по размеру применяются как к файлам индекса Sitemap, так и к отдельным картам сайта. Размер файла Sitemap в несжатом виде не должен превышать 50 МБ, а в карте сайта не должно быть более 50 000 URL-адресов. Если вы не соблюдаете эти правила, то получите ошибку «Превышен максимальный размер файла Sitemap» в Google и «Размер файла превышает заданный предел» в Яндексе. 

Карта сайта должна не только не превышать допустимые размеры, но и не быть пустой. Если вы загрузите пустой Sitemap, то получите соответствующую ошибку в Google. В Яндексе она звучит так — «Ответ не содержит данных».

Мы говорили, что допустимый размер карты сайта в несжатом виде должен быть меньше 50 МБ, но часто файлы Sitemap сжимают для экономии пропускной способности канала. Обычно для этой цели используют инструмент gzip, который добавляет расширение gz к файлу. Сообщение об ошибке сжатия или разархивирования в отчете означает, что что-то пошло не так во время процесса сжатия, и вам нужно сделать это еще раз.

Проблемы со сканированием URL-адресов в карте сайта

По ряду причин поисковики могут не просканировать некоторые URL-адреса, которые указаны в карте сайта. Давайте разберемся со всеми подобными ошибками.

1. «Файл Sitemap содержит URL, доступ к которым заблокирован в файле robots.txt» в Google и аналогичная «URL запрещен в файле robots.txt» в Яндексе — ошибка довольно простая, поскольку поисковики укажут вам на заблокированные URL-адреса. Все зависит от того, хотите ли вы, чтобы эти URL-ы были проиндексированы. Если да, то вам придется снять блокировку, в другом случае необходимо удалить адреса из карты сайта.

2. Еще одна довольно очевидная проблема, которая не позволяет Google и Яндекс сканировать страницу, — это код ответа, отличный от 200 ОК. В отчете поисковиков это называется ошибкой HTTP, и точный код указывается для каждой отдельной страницы. 

Google и Яндекс также выделяют другие не такие очевидные и простые ошибки. Кратко пройдемся по каждой из них.

1. Ошибка в Google «URL недоступны» означает, что поисковик обнаружил вашу карту сайта в указанном месте, но не смог получить все URL-адреса из списка. В этом случае вам снова нужно использовать «Инструмент проверки URL» и проверять доступность для сканирования каждого проблемного URL-а.

2. Ошибка в Google «Переход по URL не выполнен» возникает либо из-за того, что вы использовали относительные URL-адреса в карте сайта вместо абсолютных, либо из-за проблем с редиректами. Цепочки и циклы редиректов, временные редиректы, которые используют вместо постоянного перенаправления, а также HTML- и JS-редиректы могут привести к этим ошибкам.

Google Search Console не указывает, что именно может быть причиной проблемы. Поэтому вам нужно использовать другие инструменты, чтобы понять, какие ошибки необходимо исправить. 

3. Ошибка «Нельзя использовать URL» в Google и аналогичная «Некорректный URL» в Яндексе означает, что ваша карта сайта содержит URL-адреса, которые находятся на более высоком уровне или в другом домене по сравнению с файлом Sitemap. Например, если ваша карта сайта находится по адресу: example.com/category1/sitemap.xml и вы добавили в нее страницу, адрес которой: example.com/stranitsa1, поисковики не смогут получить к ней доступ.

Что касается разных доменов, помните, что для Google и Яндекс версии сайта на HTTP и HTTPS, а также с www и без www считаются разными. Поэтому, если ваша карта сайта находится по адресу http://www.example.com/sitemap.xml, URL вида https://example.com/stranitsa1 будет считаться некорректным. 

4. Яндекс.Вебмастер отдельно выделяет ошибку «Много некорректных URL в начале файла». Эта ошибка сообщает, что стоящие подряд URL-ы расположены за пределами каталога, в котором находится файл Sitemap. Скорее всего весь файл имеет неправильный формат, поэтому Яндекс не будет продолжать сканировать такую карту. 

5. Наконец не забывайте, что длина каждого URL в файле не должна превышать установленный предел в 1024 символа. Иначе Яндекс.Вебмастер выдаст ошибку «Слишком длинный URL»

Синтаксические ошибки в карте сайта

В большинстве случаев вам не нужно беспокоиться о синтаксических ошибках в карте сайта — создав файл Sitemap с помощью одного из специальных сервисов, вы можете быть уверены, что с тегами и атрибутами не будет проблем. Однако, если вы самостоятельно сделали карту сайта, то можете столкнуться с одной из ниже описанных ошибок. 

Также напоминаем, что Яндекс распознает не все теги, с которыми работает Google. Из-за этого часто возникают проблемы в отчете Яндекс.Вебмастера. 

Давайте рассмотрим все подобные ошибки детально.

1. «Недопустимое значение тега» в Google Search Console. Значение тега — это то, что вы указываете между начальным и конечным тегами — URL-адрес между тегами <loc>, или дата, которую вы определяете с помощью тега <lastmod>. Ошибка возникает, когда вы указываете недопустимое значение в карте сайта, например, устанавливаете приоритет вне диапазона от 0,0 до 1,0. В последнем случае Яндекс выдаст ошибку «Неверный формат приоритета URL». Также нельзя оставлять теги без значения в принципе. Если такое случится, в Яндекс.Вебмастере вы получите ошибку «Нет данных в теге».

2. «Неверное значение атрибута» в Google Search Console. Значение атрибута указывается после знака равенства (=) в кавычках. В следующей строке кода перечислены различные языковые версии страницы в файле Sitemap.

Пример:

<url><loc>https://example.com</loc><xhtml:link rel=»alternate» hreflang=»gb» href=»https://example.com»/><xhtml:link rel=»alternate» hreflang=»fr» href=»https://example.com/fr»/></url>

Здесь «alternate», «gb» и «fr» являются значениями атрибутов, но «gb» используется неправильно. Вы не можете указать в hreflangs только код страны — он должен сочетаться с кодом языка, например, «en-gb».

3. «Неправильно введена дата» в Google Search Console или «Неверное значение тега lastmod» в Яндекс.Вебмастере. Все довольно просто — вы использовали неправильный формат даты для тега <lastmod>. Единственный допустимый формат:

Пример:

2005-02-21  

2005-02-21T18:00:15+00:00

4. «Недопустимый URL» в Google или аналогичная ошибка «Неправильный адрес страницы» в Яндексе. Как вы могли догадаться, эта ошибка означает, что нужно искать опечатки в добавленных URL-адресах. Напомню, что все URL-ы в вашей карте сайта должны быть абсолютными.

5. «Неизвестный тег» в Яндекс.Вебмастере. Ошибка сообщает о том, что карта сайта содержит недопустимые элементы, например, указание на изображение — image:image. Тег не совсем стандартный, и робот Яндекс не воспринимает его как валидный. Хотя у Google никогда не возникнет проблем с этим тегом. Чтобы исправить эту ошибку, вы можете убрать все такие теги из файла Sitemap. Но если вы все-таки хотите оставить изображения в карте сайта, можно ничего не делать, так как Яндекс оценивает это как «Возможные проблемы» и не пессимизирует сайт из-за этого.

6. «Тег не должен быть пустым» в Яндекс.Вебмастере. В файле Sitemap предусмотрены только определенные парные теги. Если в вашей карте сайта поисковик обнаружит одиночный тег, вы получите соответствующую ошибку. 

7. «Тег не должен содержать другие теги» в Яндекс.Вебмастере. Таким образом поисковик сообщает, что тег не должен включать дочерние теги.

8. «Превышено допустимое число данных» в Яндекс.Вебмастере. В теге указано слишком длинное значение. Его следует сократить. Часто такая проблема возникает с тегами image:caption и image:title из-за того, что Яндекс некорректно работает с изображениями в файле Sitemap.

9. Ошибки «Отсутствует атрибут XML» и «Отсутствует тег XML» в Google, а также аналогичная «Тег не найден» в Яндексе тоже довольно очевидны. Отсутствие обязательных тегов и атрибутов (urlset, url, loc, xmlns) недопустимо — их нужно добавить, чтобы ваша карта сайта работала должным образом.

10. «Недопустимый XML: слишком много тегов» в Google и аналогичная «Тег встречается более одного раза» в Яндексе. Эта ошибка может возникнуть, если вы используете один из тегов несколько раз. Например, вы указали два разных адреса или две даты изменения для одного URL. В этом случае вам необходимо удалить повторяющийся тег.

Пример:

<url> 

<loc>http://www.example.com/</loc> 

<lastmod>2021-01-01</lastmod> 

<lastmod>2021-02-01</lastmod> 

<changefreq>monthly</changefreq> 

<priority>0.8</priority> 

</url>

11. «Неправильно указано пространство имен» в Google Search Console или «Ошибка в корневом теге» в Яндекс.Вебмастере. Пространство имен, указанное в вашем теге <urlset>, должно быть одним из принятых протоколов. В настоящее время используется следующий протокол:

  • Обычные файлы Sitemap — xmlns=»http://www.sitemaps.org/schemas/sitemap/0.9»
  • Файлы Sitemap для новостей — 

xmlns:news=»http://www.google.com/schemas/sitemap-news/0.9″

  • Файлы Sitemap для видео — 

xmlns:video=»http://www.google.com/schemas/sitemap-video/1.1″

  • Файлы Sitemap для изображений —

xmlns:image:=»http://www.google.com/schemas/sitemap-image/1.1″

12. Если вы использовали неправильный протокол для своей карты сайта, вы получите ошибку «Неподдерживаемый формат файла» в Google Search Console. Она также может появиться из-за других всевозможных синтаксических ошибок, таких как использование неправильных кавычек (принимаются только прямые одинарные или двойные), отсутствие тега кодировки или некорректный префикс UTF-8. В последнем случае Яндекс.Вебмастер выдаст ошибку «Неверная кодировка».

Проблемы со сканированием URL-адресов в карте сайта

13. Также Google выделяет несколько ошибок, связанных с файлом Sitemap для видео: «Слишком большой/маленький значок видео», «Адреса видео и страницы воспроизведения совпадают», «URL видео указывает на страницу воспроизведения». Вы можете найти более подробную информацию об этих ошибках здесь.

Чтобы избежать синтаксических ошибок, перед отправкой файла Sitemap используйте один из сервисов проверки карты сайта, подобных этому. Инструменты будут выделять проблемы, которые необходимо исправить.

После устранения всех ошибок в файле Sitemap нужно повторно загрузить обновленную карту сайта в Google Search Console.

Робот Яндекса регулярно проверяет файл Sitemap на обновления и ошибки, поэтому загружать карту повторно не нужно. Но ее можно отправить на переобход, чтобы ускорить процесс проверки. Для этого нажмите на стрелочки слева от раздела «Статус».

Синтаксические ошибки в карте ресурса

Такие действия заставят Google и Яндекс повторно просканировать ваш сайт и, наконец, проиндексировать страницы, которые они не смогли просканировать из-за ошибок

Для больших проектов со сложной иерархической структурой важно наличие XML-карты, которая указывает поисковым системам все ссылки на контент для индексирования.

Чтобы URL сайта быстро и регулярно индексировались, важно проверить Sitemap на наличие ошибок. Валидаторы XML или инструменты для вебмастеров проанализируют файл и покажут, все на яву.

Мы надеемся, что это руководство помогло вам понять, как проверить файл Sitemap на ошибки.

Читайте также наш материал, как проверить robots.txt на ошибки.

Похожие вопросы

Похожие вопросы

  • Google Search Console

    Как работать в Google Search Console. Советы и рекомендации
    12 вопросов
  • SEO пузомерки

    Ключевые метрики SEO: где и как смотреть
    6 вопросов
  • Линкбилдинг

    Все про построение ссылочного профиля, крауд-маркетинг и аутрич
    10 вопросов
  • Для опытных

    Вопросы для продвинутых SEO-специалистов и новые подходы в SEO
    12 вопросов
  • Аналитика

    Вопросы по Google Tag Manager, Google Analytics
    6 вопросов
  • Контент

    Вопросы по SEO-копирайтингу. Какими должны быть SEO-тексты
    4 вопроса
  • Другое

    Общие вопросы по SEO. Все, что связано с поисковой оптимизацией
    1 вопрос
Согласно нашей политике использования файлов cookie мы обрабатываем их для обеспечения наилучшего пользовательского опыта