Продвигаем бизнес в Интернете с 2001 года

Как закрыть сайт от индексации в robots.txt

Рассказываем, как закрыть сайт или отдельные его разделы и страницы от индексации, и какие ошибки допускают разработчики при записи файла robots.txt.

Последнее обновление: 19 апреля 2023 года
47442
Время прочтения: 6 минут

Тэги: Яндекс, Google


О чем статья?


Кому будет полезна статья?

  • Веб-разработчикам.
  • Контент-редакторам.
  • Оптимизаторам.
  • Администраторам и владельцам сайтов.

Несмотря на то, что все ресурсы стремятся попасть в топ поисковой выдачи, в процессе работы возникают ситуации, когда требуется сделать прямо противоположное — закрыть сайт от поисковых роботов. В каких случаях может понадобиться запрет на индексацию, и как это сделать, мы расскажем в этой статье.

Зачем закрывать сайт от поисковых роботов?

Первое время после запуска проекта о нем знают только разработчики и те пользователи, которые получили ссылку на ресурс. В базы поисковых систем и, соответственно, в выдачу сайт попадает только после того, как его найдут и проанализируют краулеры (поисковые работы). С этого момента он становится доступным для пользователей Яндекс и Google.

Но всю ли информацию, содержащуюся на страницах ресурса, должны видеть пользователи? Конечно, нет. Им, прежде всего, интересны полезные материалы: статьи, информация о компании, товарах, услугах, развлекательный контент. Временные файлы, документация для ПО и другая служебная информация пользователям неинтересна, и поэтому не нужна. Если лишние страницы будут отображаться вместе с полезным контентом, это затруднит поиск действительно нужной информации и негативно отразится на позициях ресурса в поисковой выдаче. Вывод — служебную информацию следует закрывать от индексации.

Инфографика индексация сайта

В процессе работы сайта также возникают ситуации, когда требуется полностью закрыть ресурс от поисковиков. Например, во время технических работ, внесения существенных правок, изменения структуры и дизайна проекта. Если этого не сделать, сайт может быть проиндексирован с ошибками, что негативно отразится на его рейтинге и затруднит SEO-продвижение.

Мнение эксперта

Анастасия Курдюкова, руководитель группы оптимизаторов в компании «Ашманов и партнеры»:

Анастасия Курдюкова
«Чтобы сайт быстрее индексировался, рекомендуется закрывать от поисковых роботов мусорные страницы: устаревшие материалы, информацию о прошедших акциях и мероприятиях, а также всплывающие окна и баннеры. Это не только сократит время индексации, но уменьшит нагрузку на сервер, а поисковые роботы смогут проиндексировать более количество качественных страниц».


Доставляем экспертный контент

Отправляем полезные статьи, советы наших специалистов, приглашаем
на отраслевые мероприятия.
Подпишитесь, чтобы первыми узнавать об эффективных методах продвижения
вашего бизнеса!

Нажимая на кнопку «Подписаться», я даю согласие на обработку персональных данных
и соглашаюсь c политикой конфиденциальности

Спасибо за подписку!

Мы отправили вам проверочное письмо — пожалуйста, подтвердите адрес электронной почты, перейдя по ссылке внутри письма.

Произошла ошибка

Пожалуйста, попробуйте еще раз

Как проверить, закрыт сайт от индексации или нет?

Если вы не уверены, индексируется ли сайт поисковыми роботами, какие разделы, страницы и файлы доступны для сканирования, а какие нет, можно проверить ресурс с помощью сервисов Яндекс.Вебмастер и Google Search Console. Как это сделать, мы рассказали в статье «Проверка файла robot.txt». Протестируйте ресурс в обоих сервисах, и они покажут, какие url проекта индексируются.

Инфографика индексация сайта

В качестве альтернативы можно использовать бесплатный инструмент «Определение возраста сайта» от «Пиксель Тулс». С помощью этого сервиса вы узнаете возраст домена, отдельных страницы, дату индексации и кэша. Данные проверки можно отправить в Яндекс.Вебмастер и выгрузить в формате CSV.

Как закрыть сайт от индексации?

Запретить доступ к сайту можно с помощью служебного файла robots.txt. Он находится в корневой папке. Если файла нет, создайте документ в Notepad++ или любом другом текстовом редакторе. Далее следуйте рекомендациям ниже.

Запрет индексации всего сайта

Управление доступом к ресурсу, его разделам и страницам осуществляется с помощью директив User-agent, Disallow и Allow. Директива User-agent указывает на робота, для которого действуют перечисленные ниже правила, Disallow — запрещает индексацию, Allow — разрешает индексацию.

Если вы хотите установить запрет для всех краулеров, в файле robots.txt следует указать:
User-agent: *
Disallow: /

Запрет для всех поисковых роботов, кроме краулеров Яндекса, будет выглядеть так:
User-agent: *
Disallow: /
User-agent: Yandex
Allow: /

Запрет для всех поисковиков, кроме Google, так:
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Вы также можете ограничить доступ для отдельных поисковых роботов, разрешив всем остальным краулерам сканировать без ограничений. Например, запрет для робота YandexImages, который индексирует изображения для показа на Яндекс.Картинках, будет выглядеть так:
User-agent: YandexImages
Disallow: /

Таким образом, с помощью всего трех директив вы можете управлять доступом к сайту для краулеров любых поисковых систем: запрещать или разрешать индексацию всем поисковикам, закрывать доступ одним и открывать другим роботам.

Запрет на индексацию разделов и страниц

Если вы не хотите закрывать от индексации весь сайт, а только некоторые его разделы или страницы, это можно сделать с помощью тех же директив. Для понимания приведем несколько примеров.

  1. Поисковым роботам доступны все разделы, кроме каталога:
    User-agent: *
    Disallow: /catalog
  2. Поисковым роботам доступны все страницы, кроме контактов:
    User-agent: *
    Disallow: /contact.html
  3. Поисковым роботам закрыт весь сайт, кроме одного раздела:
    User-agent: *
    Disallow: /
    Allow: /catalog
  4. Поисковым роботам закрыт весь раздел, кроме одного подраздела:
    User-agent: *
    Disallow: /product
    Allow: /product/auto
    1. Несмотря на простоту управления, файл robots.txt позволяет выполнять достаточно гибкие настройки индексации для краулеров поисковых систем и изменять уровень доступа в зависимости от текущей ситуации.

      Как скрыть от индексации ссылки?

      Закрыть от краулеров можно не только сайт или его разделы, но и отдельные элементы, например, ссылки. Сделать это можно двумя способами:

      • в html-коде страницы указать мета тег robots с директивой nofollow;
      • вставить атрибут rel=”nofollow” в саму ссылку: <a href=”url” rel=”nofollow”>текст ссылки</а>.

      Второй вариант предпочтительнее, так как атрибут rel=”nofollow” запрещает краулерам переходить по ссылке даже в том случае, если поисковая система находит ее через другие материалы вашего сайта или сторонних ресурсов.

Какие ошибки встречаются при записи файла robots.txt?

Если robots.txt будет записан с ошибками, краулеры не смогут корректно проиндексировать файл и полезная для пользователей информация не попадет в поисковую выдачу. Наиболее часто разработчики допускают следующие ошибки:

  1. Неверные (перепутанные) значения директив.
    Неправильно:
    User-agent: /
    Disallow: Yandex
    Правильно:
    User-agent: Yandex
    Disallow: /
  2. Указание нескольких URL в одной директиве.
    Неправильно:
    Disallow: /admin/ /tags/ /images/
    Правильно:
    Disallow: /admin/
    Disallow: /tags/
    Disallow: /images/
  3. Пустое значение User-agent.
    Неправильно:
    User-agent:
    Disallow: /
    Правильно:
    User-agent: *
    Disallow: /
  4. Некорректный формат директивы Disallow.
    Неправильно:
    User-agent: Yandex
    Disallow: admin
    Правильно:
    User-agent: Yandex
    Disallow: /admin/

Проверить файл robots.txt на наличие ошибок можно с помощью Яндекс.Вебмастер и Google Search Console. Порядок проверки мы подробно описали в статье «Проверка файла robot.txt».

Выводы

  • Запрет на индексацию позволяет скрыть от поисковых роботов временные и служебные документы, неактуальный контент, ссылки, всплывающие окна и баннеры, полностью ограничить доступ к сайту на время технических работ.
  • Проверить, какие страницы сайта индексируются, можно с помощью Яндекс.Вебмастер, Google Search Console и бесплатных инструментов, предоставляемых сторонними ресурсами.
  • Закрыть сайт или отдельные его разделы и страницы от краулеров можно через robots.txt, который находится в корневом каталоге.
  • Гибкие настройки позволяют изменять уровень доступа в зависимости от текущей ситуации.
  • После внесения изменений файл robots.txt необходимо проверить на наличие ошибок. Это можно сделать с помощью сервисов поисковых систем Яндекс.Вебмастер и Google Search Console.




Анастасия Курдюкова
Лого АиП
Анастасия Курдюкова
Руководитель отдела поисковой оптимизацииЭксперт
Опытный специалист по SEO-оптимизации, работает в продвижении более 6 лет. Спикер  конференций и вебинаров для клиентов компании.
Ольга Прокопьева
Лого АиП
Ольга Прокопьева
Редактор блога
Специализируется в области коммерции и маркетинга. Опыт работы в копирайтинге — более 7 лет. В портфолио — более 5000 статей по тематикам: маркетинг, инвестиции, банковское дело, строительство, медицина и другим.
Теги: SEO, Яндекс, Google

Вам будет интересно

Хотите обсудить ваш проект?
Напишите нам о своих бизнес-задачах, и мы предложим проверенные решения.