Рубрика - Seo-оптимизация

Robots txt disallow

      Что значит disallow в robots.txt?

Disallow это одна из основных директив, входящая в файл robots txt.

В robots txt disallow используется всегда вместе с директивой user-agent и служит для ограничения доступа к страницам сайта.

Disallow в robots txt может быть несколько. Фактически количество таких директив ограничено только размером файла robots.txt (рис.1).

 disallow robots txt

     Рис.1 Количество disallow в robots.txt ограничено только размером файла

Директива disallow применяется для каждого робота отдельно.  Имя робота указывается в директиве user-agent.

Если в user-agent вместо имени стоит символ звездочка ( * ), то disallow применяется ко всем роботам, посещающим сайт.

Для удобства каждую disallow можно комментировать. Это хорошо делать, когда директив много. Для этого перед строкой комментария нужно вставить символ решетки (#).

Как правильно прописать disallow

После директивы disallow в rodots txt всегда ставится двоеточие (:), а затем ее параметры, прописывающие путь на сайте

Отсутствие параметров в директиве disallow означает полный доступ ко всем страницам сайта, например:

User-agent: *   # параметр * говорит о том, что директива

                        # disallow применима ко всем роботам

Disallow:        # доступ открыт ко всем страницам

Параметр прямой слеш ( / ) в disallow robots txt закрывает доступ ко всем страницам сайта. Если, конечно, он применяется один, например:

   User-agent: *

  Disallow: /      # доступ закрыт для всех страниц сайта

Чтобы сократить количество директив disallow robots.txt, можно применять так называемые регулярные выражения. Суть в том, что в качестве параметра в disallow указывается основной каталог, а далее применяют спецсимвол звездочка (*).  Символ * означает любую последовательность символов, в том числе и пустую. Например:

User-agent: *         # применимо ко всем роботам

Disallow: /administrator/*     # блокирует доступ к страницам начинающимся с

                                       # ‘/administrator’ и далее любые символы

Disallow: /*/cache        # блокирует доступ к страницам, путь которых содержит

                                     # слово ‘cache’ , а перед ним и после любые символы                                                                

Disallow: /components/

Disallow: /includes/

По умолчанию символ * приписывается в конце каждого правила в директиве disallow.

То есть, если даже вы не поставили в конце символ *, считается, что он там есть. Это нужно иметь в виду.

Это правило можно отменить, применив в директиве disallow robots txt в конце другой спецсимвол – знак доллара ($). Он отменяет правило по умолчанию - * на конце пути. Например:

User-agent: *

Disallow: /component   # закрывает доступ к страницам, начинающимся с

                                     # ‘component’, например, ‘component’;/, ‘component.html’ и т.д.

User-agent: *

Disallow: /component$   # запрещает путь ‘component’, но не закрывает 

                                         # доступ к странице ‘component.html’ и  др.

Таким образом, создавая определенные регулярные выражения с использованием спецсимволов ‘*’ и ‘$’, можно закрывать доступ, как к целым каталогам, так и к отдельной странице. Это значительно сокращает время на создание файла robots.txt, а также сокращает его объем. Дело в том, что файл robots.txt имеет ограничение по объему.

В robots txt директива disallow достаточно надежно закрывает доступ к определенным страницам сайта. Поэтому, создав файл, нужно проверять результат его действия.

Для этого нужно во-первых, проверить сам файл, а затем отслеживать индексацию страниц до и после применения директивы disallow robots txt. Кстати, находится файл robots.txt в корневой папке сайта.

P.S. В файле robots.txt  disallow это универсальная дирректива для всех видов CMS – систем. Будь то joomla, вордпресс или какая другая система управления сайтом.

P.P.S Полное или частичное импользование статьи возможно только с активной ссылкой на источник. Ссылка должна быть рабочей и не закрытой для индексации.

Robots txt disallow