Роботи-індексатори є необхідним елементом для кожної людини, яка створює власний вебсайт. Чому? Саме завдяки ним пошукові системи знайомляться з вмістом сайтів. Чи можемо ми уникнути їхньої уваги або вплинути на те, куди вони не будуть заходити?
Звичайно. Для цієї мети призначений файл robots.txt — інструмент для спілкування з роботами, які індексують наш сайт. Це дуже простий текстовий файл, який роботи шукають у першу чергу після заходу на сайт. Це своєрідна мова, зрозуміла для ботів, що складається з комбінації команд відповідно до стандарту Robots Exclusion Protocol. Використовуючи цей файл, ми маємо можливість обмежити доступ до ресурсів, які не потрібні для конкретного пошуку — графіки, стилів та певних підсторінок.
Який контент варто блокувати від індексуючих ботів?
Сучасні веб-сайти мають багато підсторінок, з яких деякі містять не лише текстовий контент. Це відомі елементи, такі як кошик для покупок, внутрішній пошук або панель користувача. Через свою структуру вони можуть спричинити багато проблем і не повинні бути доступні для роботів. Особливу увагу слід звернути на те, який контент ми блокуємо, щоб однією командою не заборонити ботам доступ до всього сайту. Приватні дані завжди потрібно захищати паролем.
Як створити власного робота?
Без особливих труднощів можна знайти в інтернеті генератори файлів robots, а CMS-системи найчастіше підтримують користувача в процесі створення. Спочатку створюємо текстовий файл robots.txt, він має бути максимально простим. Для видачі команд використовуємо ключові слова, що закінчуються двокрапкою. Таким чином формуються правила доступу. Найпопулярніші слова такі:
User-agent: – адресат команди, тобто бот, що індексує. Для робота Google додатково використовуємо зірочку “*”, наприклад User-agent: Googlebot
Disallow: – тут вказуємо адресу сторінки або файлу, які бот не може сканувати, наприклад: Disallow: /zablokowany/
Allow: – таким чином надаємо вміст для сканування
Варто пам’ятати, що роботи розрізняють малі і великі літери. Якщо наш сайт досить складний, корисно додавати коментарі, які пояснюють наші рішення. Текстовий файл потрібно завантажити на сервер. Він повинен знаходитися в кореневому каталозі хостингу нашого сайту. Додатково можна протестувати свій файл, використовуючи інструмент Search Console. Цей інструмент дозволяє перевірити, чи конкретні елементи сторінки доступні для індексуючих роботів.
Наостанок варто підкреслити, що файл robots.txt — це збірка рекомендацій, яких боти повинні дотримуватися, але не зобов’язані. Якщо хочемо повністю заблокувати доступ до певних даних, краще також встановити надійний пароль.
Схожі статті
Snippet – простий спосіб виділити сторінку
Snippet — це опис сторінки, який виділяється у результатах пошуку Google та містить заголовок і короткий опис сторінки. Існує також rich snippet — роз...
Що спільного мають контент-маркетинг і SEO?
У боротьбі за залучення клієнтів найкраще об’єднати зусилля та застосувати два ефективні інструменти: контент-маркетинг і SEO. Хоча їхні методи роботи...
AMP - прискорені мобільні сторінки
Технологія AMP, або Accelerated Mobile Pages, була впроваджена в Google Search Console у січні 2016 року і є відносно мало відомою польським користува...
Є питання?
Зателефонуйте - обговоримо деталі
Кожен проект індивідуальний, потребує уваги та ретельного планування. Я допоможу вам реалізувати ваші ідеї та зроблю все, щоб ви досягли своєї мети.
