Роботы-индексаторы являются незаменимым звеном для каждого, кто создает свой веб-сайт. Почему? Именно благодаря ним поисковые системы узнают содержимое сайтов. Можем ли мы ускользнуть от их внимания или повлиять на то, куда они не будут заглядывать?
Конечно. Для этой цели используется файл robots.txt — инструмент для взаимодействия с роботами, индексирующими наш сайт. Это очень простой текстовый файл, который роботы ищут в первую очередь при заходе на сайт. Это своего рода язык, понятный ботам, состоящий из комбинации команд, соответствующих стандарту Robots Exclusion Protocol. Благодаря использованию этого файла мы можем ограничить доступ к ресурсам, которые не нужны для конкретного поиска — изображениям, стилям и определённым подстраницам.
Какие материалы следует заблокировать от индексационных ботов?
Современные веб-сайты содержат множество подстраниц, некоторые из которых не содержат только текстовую информацию. Это известные нам элементы, такие как корзина покупок, внутренняя поисковая система или панель пользователя. Из-за своей структуры они могут вызвать множество проблем и не должны быть доступны для роботов. Необходимо внимательно подходить к выбору контента, который мы блокируем, чтобы одной командой не запретить ботам доступ ко всему сайту. Личные данные всегда следует защищать паролем.
Как создать собственного робота?
Без особых сложностей в интернете можно найти генераторы файлов robots, а CMS-системы чаще всего поддерживают пользователя в процессе создания. Вначале создаём текстовый файл robots.txt, он должен быть максимально простым. Для выдачи команд используются ключевые слова, заканчивающиеся двоеточием. Так формируются правила доступа. Самые популярные слова:
User-agent: — адресат команды, то есть индексирующий бот. Для робота Google дополнительно используем звёздочку «*», например User-agent: Googlebot
Disallow: — здесь указываем адрес страницы или файла, которые бот не должен сканировать, например: Disallow: /zablokowany/
Allow: — таким образом разрешаем содержимому быть просканированным
Важно помнить, что роботы различают строчные и прописные буквы. Если сайт достаточно сложный, стоит добавить комментарии, поясняющие наши решения. Текстовый файл необходимо загрузить на сервер. Он должен находиться в корневом каталоге хоста нашего сайта. Дополнительно можно протестировать свой файл с помощью инструмента Search Console. Этот инструмент позволяет проверить, видны ли конкретные элементы сайта для индексационных ботов.
В заключение следует подчеркнуть, что файл robots.txt — это набор рекомендаций, которым боты должны, но не обязаны следовать. Если нужно полностью заблокировать доступ к определённым данным, лучше использовать надёжный и сложный пароль.
Похожие статьи
Новый Google Analytics уже здесь – узнайте, что изменилось
Польский бизнес всё больше переходит в онлайн, каждый день появляются новые веб-сайты и интернет-магазины. Миллионы компаний по всему миру стремятся п...
Что вы должны знать о ремаркетинге в AdWords?
Ремаркетинг — это эффективный и результативный инструмент, который направляет рекламу на клиентов, уже посетивших ваш сайт. Вместо того чтобы тратить...
Что такое Mobile-First Index и как он влияет на SEO?
Алгоритм Mobile-First Index — это совершенно новая функция в поисковой системе Google, которая начала работать в конце марта 2021 года. Это очередной...
Есть вопросы?
Позвоните - обсудим детали
Каждый проект индивидуален, требует внимания и тщательного планирования. Я помогу вам реализовать ваши идеи и сделаю все, чтобы вы достигли своей цели.
