Файл robots.txt — това е основният файл, който описва правилата за обработка на страници, търсачката роботи. Този файл е необходим за определяне на основния името на сайта, карта на сайта (sitemap.xml), отворени и затворени раздели на сайта.
Файл robots.txt включва следните директиви:
- User-agent — директива което показва за какъв робот следните правила
- * - всички роботи
- Mango — основен робот Yandex
- Googlebot — основен робот на Google
- StackRambler — търсене робот Rambler
- Aport — търсене робот Апорт
- Slurp — робот Yahoo
- MSNBot — робот MSN
- Disallow — директива за забрана част на сайта
- Allow — директива разрешения част на сайта
- Host — директива уточняване на основното име на сайт
- Карта на сайта— директива уточняване на карта на сайта (sitemap.xml)
- Crawl-delay — директива което показва колко секунди роботът може да чака отговор от сайт (изисква за тежко натоварени ресурси, за да роботът не е сметнал за сайта е недостъпен)
- Clean-парам — директива описва динамични настройки не влияят на съдържанието на сайта
Помимо директив в robots.txt используются спец символы:
- * - любай (в това число и празна) последователност от символи
- $ — е ограничаване на правила
За вземане на robots.txt , използвани по-горе директиви и speth символи на следния принцип:
- Указва името на робота, за които се пише списък на правилата
(User-agent: * правило за всички роботи) - Написани списък на забранените раздели на сайта за определен робот
( Disallow: / - забрана за индексиране на целия сайт) - Написани списъка на разрешените раздели на сайта
(Allow: /home/ — разрешен раздел начало) - Посочва името на сайта
(Host: crazysquirrel.ru — основното име на сайта crazysquirrel.ru) - Показва пълния път до файла sitemap.xml
(Карта на сайта: https:// crazysquirrel.ru/sitemap.xml)
Ако на сайта не е забранено на дяловете, robots.txt трябва да се състои минимум от 4 реда:
User-Agent: *
Allow: /
Домакин: crazysquirrel.ru
Карта на сайта: https://crazysquirrel.ru/sitemap.xml
Проверка на robots.txt и това, как тя се отразява на индексирането на сайта е възможно с помощта на инструменти Yandex