1. MSGROUP /
  2. Блог /
  3. Правильный файл robots.txt для сайта /

Правильный файл robots.txt для сайта

Правильный файл robots.txt для сайта

Файл robots.txt содержит список директив, которые позволяют отрывать или закрывать доступ для поисковых систем к нужным файлам, папкам или ссылкам. Файл загружается в родительскую директорию вашего сайта через ФТП или систему управления сайтом, пример domain.com/robots.txt. После выгрузки файла на хостинг, поисковые роботы сами обнаружат его и просканируют данные.

В этом файле, кроме перечня страниц для индексации, может быть указана и другая дополнительная информация, которую мы рассмотрим далее.

Для чего нужен файл robots.txt

Правильно указанные в файле директивы позволят:

  • Настроить разные правила индексации для определенных поисковых систем;
  • Закрыть серверные скрипты от попадания в индекс;
  • Запретить индексировать страницы личного кабинета, корзины, результатов поиска, страницы 404, URL с UTM метками и прочего;
  • Указать правила индексации изображений;
  • Запрет чтения копии сайта, например, при проведении А/В тестирования.

Запрет на индексацию в файле robots.txt не даёт 100% гарантию, что эта информация не попадёт в результаты поиска. Особенно, если на данную информацию есть внешние или внутренние ссылки.

Как создать robots.txt

Создать файл можно в любом текстовом редакторе. Основные требования к файлу:

  • кодировка файла UTF-8 (которая включает коды символов ASCII);
  • текстовый формат;
  • размер до 500 Кб;
  • названия папок и файлов чувствительны к регистру, например /Folder/ и /folder/ - это не одно и то же;
  • обязательное название файла robots.txt в нижнем регистре

Доступные директивы в файле robots.txt:

User-agent: определяет название поискового робота, к которому относятся правила индексации. Указывается в файле обязательно. Символ * обозначает применимость правил ко всем роботам без исключения. Названия поисковых роботов:

  1. Googlebot – основной поисковый робот Google;
  2. Googlebot-Image — для картинок;
  3. Googlebot-News – новостной бот;
  4. Googlebot-Video — для видео;
  5. Mediapartners-Google — для сервиса AdSense;
  6. AdsBot-Google — для проверки качества целевой страницы;
  7. AdsBot-Google-Mobile-Apps – для мобильных приложений
  8. YandexBot – основной поисковый робот Yandex;
  9. YandexImages — индексатор Яндекс.Картинок;
  10. YandexMetrika — робот Яндекс.Метрики;
  11. YandexMedia — робот, индексирующий мультимедийные данные;
  12. YandexDirect — робот Яндекс.Директа;
  13. YandexFavicons – сканирует фавиконы сайтов;
  14. YandexBlogs — робот поиск по блогам, индексирующий посты и комментарии;
  15. YandexMarket— робот Яндекс.Маркета;
  16. YandexNews — робот Яндекс.Новостей;
  17. YandexPagechecker — валидатор микроразметки;
  18. YandexCalendar — робот Яндекс.Календаря;
  19. Bingbot – поисковый робот системы Bing;
  20. Slurp – поисковый робот системы Yahoo;

Disallow: указывает на запрет индексации файла или папки относительно родительского домена. Каждая папка или файл указываются с новой строки. Эта директива является обязательной.

Allow: даёт разрешение на индексацию указанного файла или папки для определенного поискового робота. Может быть указано после директив Disallow для их переопределения или уточнения доступа к определенным разделам или файлам.

Sitemap: необязательная директива, которая указывать местоположение карты сайта sitemap.xml. Ссылка на карту сайта должна быть абсолютной.

Host: директива для поисковиков Yandex и Mail.ru, которая указывает основное зеркало сайта. Здесь нужно указать доменное имя, которое нужно проиндексировать, если у сайта есть алиасы. Если сайт работает по протоколу https, то к домену нужно добавить префикс https://domen.com.ua

Crawl-delay: необязательная и неофициальная директива, в которой указывается к-во секунд, через которое поисковый робот должен начать взаимодействовать с сайтом. Имеет смысл указать, если ваш сайт загружается медленно или работает на медленном сервере. Эта директива не поддерживается поисковиками Google и Baidu, и будет проигнорирована. Для Google вы можете задать параметр Crawl rate в Google Search Console.

Crawl delay через google search console

Поисковые системы Bing, Yandex и Yahoo поддерживают эту директиву.

Значение указывается в секундах и может быть дробным, примеры:

Crawl-delay: 5
Crawl-delay: 0.7

Clean-param: необязательная, но достаточно полезная директива для случаев, когда нужно задать правила индексации страниц с GET параметрами, например, для страниц фильтрации в интернет-магазине, чтобы избежать появления дублей в поисковой выдаче. Эта директива поддерживается Яндексом. Параметры, которые нужно очистить разделяются символом &, или же указывается название параметра, начиная с которого нужно запретить индексацию URL.

Для наглядности рассмотрим примеры на основании URL https://example.com/result/?minprice=1330&maxprice=73390&brand=autom

Clean-param: minprice /result/ #запрет на индексацию всего, что начинается с minprice
Clean-param: brand /result/ #запрет на индексацию всего, что начинается с brand
Clean-param: minprice&brand /result/ #запрет на индексацию minprice и brand

Если на сайте GET параметры могут быть в разных разделах, то можно указать необходимое количество таких директив, каждая с новой строки.

Request-rate: не поддерживается популярными поисковиками. Может быть использована, чтобы сообщить сколько страниц можно проиндексировать за указанное время. Например:

Request-rage: 1/6 #не более одной страницы за 6 секунд.

Visit-time: не поддерживается популярными поисковиками. Указывает на время индексации сайта. Например:

Visit-time: 0530-1000 #сайт разрешено индексировать с 5:30 до 10:00 ежедневно.

Доступные символы в файле robots.txt

# - этот символ закомментирует строку, в начале которой он стоит;

* любая последовательность символов или любой поисковый робот, если речь идёт о директиве User-agent;

/ слешем можно закрыть от индексации весь сайт в сочетании с директивой Disallow;

$ - обозначает окончание действия звездочки *. Например:

Disallow: *html$   #запретит индексацию всех ссылок, которые заканчиваются на html;
Disallow: /mypage/$ #закроет от индексации ссылку https://domain.com/mypage/ , но разрешит индексацию любых ссылок вида https://domain.com/mypage/subpage

Примеры файла robots.txt

Чтобы запретить индексацию всего сайта для всех поисковиков, например на время разработки, нужно указать следующее:

User-agent: *
Disallow: /

Запретить индексацию раздела /catalog/ для Yandex и разрешить для Google

User-agent: Yandexbot
Disallow: /catalog/

User-agent: Googlebot
Allow: /catalog/

Закрыть сканирование одного файла и одного URL:

User-agent: Googlebot-Image
Disallow: /uploads/image-1.jpg

User-agent: *
Disallow: /catalog/old-table.html

Закрыть от индексации все файлы с расширением txt в папке /files/ для всех поисковиков:

User-agent: *
Disallow: /files/*.txt$

Сайт открыт для индексации всем поисковикам:

User-agent: *
Disallow:

Запрет доступа к сайту всем роботам, кроме Mediapartners-Google

User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /

Пример возможного файла:

User-agent: *
Disallow: /administrator/
Disallow: /uploads/
Allow: /uploads/images/*.jpg
Allow: /uploads/icons/*.png
Disallow: /?*
Disallow: *sort=

User-agent: Yandex
Disallow: /administrator/
Disallow: /uploads/
Allow: /uploads/images/*.jpg
Allow: /uploads/icons/*.png
Disallow: /?*
Disallow: *sort=
Clean-Param: utm_source&utm_medium&utm_campain

Host: https://mywebsite.com
Sitemap: https://mywebsite.com/sitemap.xml

Проверить готовый файл вы можете Яндекс.Вебмастере или в Центре Вебмастеров Google
Не закрывайте в файле индексацию скриптов, стилей, изображений, которые участвуют в формировании внешнего вида, которые отвечают за адаптацию сайта. Без доступа к этим файлам, поисковые системы не смогут корректно сформировать общее представление о вашем сайте и его внешнем виде. Вы можете получить в консоле вебмастеров сообщения об ошибках в мобильной версии и прочее.

Не используйте файл robots.txt, чтобы скрыть важную информацию. Любой желающий может через браузер открыть этот файл и посмотреть, какие данные вы пытались защитить от индексации. Для защиты информации правильнее будет использовать авторизацию пользователей на сайте.

По умолчанию все файлы и папки на сайте доступны к индексации, если обратное не указано в файле robots.txt. Сам файл или его отсутствие никак не влияет на отображение и работу сайта в браузере для посетителя, но его наличие и корректное заполнение помогут в СЕО оптимизации, подскажут поисковым роботам, какая информация должна попасть в индекс, а какая нет.




 
отправить запрос
Интересует разработка сайтов или услуги интернет-маркетинга? Заполните форму ниже и отправьте заявку на просчет
На указанном номере есть: ;
отзывы клиентов

Very professional and easy to work with. Will hire again as needed and certainly recommend to others!

Trevor Davenport, USA, Chicago

Оценка 5

Great to work with, will go beyond the task that you needed done

Eldar Makhmudov,

Оценка 5

Once again. Great Working together on this project. We are please with result msgroup was able to get us. The price and communication was good. We are hoping for a long working relationship. Good A++

Faizal Johnson,

Оценка 5

Good work! Just as ordered

Martin,

Оценка 5

After few weeks and several freelancer trials. I was able to hire msgroup and he was able to help me get this project done. It was very good meeting this person and I am now able to complete this project. Good A++ Freelancer Highly recommended

Faizal Johnson, USA, Houston

Оценка 5

Great team to work with Although we hit some difficulties due to complexity of the work but we manage to finish the job with excellent result

Dilan M.R. Roshani, Iraq, Baghdad

Оценка 5

very good team, all tasks where completed like adviced

Webdesign reselling agency, Italy, Roma

Оценка 5

A terrific find! A company small enough with which to develop an ongoing, working relationship (versus the web work "factories" with so many fleeting jobs and changing staff that they cannot keep your project straight.) They were professional, enthusiastic and accommodating. Nice guys, too. I highly recommend them. These guys are GREAT! IT's a small company so the service is very personal, which is ideal in my opinion. They were courteous, accommodating, knowledgeable and dealt with a number of unexpected delays and schedule changes from me. True professionals, trustworthy and nice guys. Highly recommended!

Katherine Robinson, USA, Dallas

Оценка 5

These guys are awsome, they did a perfect job. I'm very happy with the final result. The communication was very good, this team is very professional and flexible and very high quality. They helped me with thinking and testing to improve the final product. Very high reccomended!

Wilfred Bosman, Netherlands, Amsterdam

Оценка 5

This group completed the entire task of coding a pre-designed website into the final product. Was able to complete all follow up tasks and enhancements in a timely manner. Will use again.

Dale Klynhout, Australia, Sydney

Оценка 5

ua