Robots.txt на сайте.
Для чего нужен файл Robots.txt на сайте.
Об файле можно сказать, что это маленькая, компактная инструкция, размещённая на нашем сайте, по которой поисковый бот ( поисковая машина) определяется как ему обращаться с этим сайтом и что с ним делать. Первым делом, поисковая машина (бот) под взор которой попадает сайт для индексации с файлом Robots.txt обращается к этой электронной инструкции. В файле Robots.txt введены некоторые параметры, по которым поисковая машина сможет определиться, как поступать с сайтом, что нужно индексировать, а что оставить без индексации. Ведь на каждом сайте, есть и такие служебные страницы, которые владелец сайта не желает, что бы они стали доступны всему Интернету. Вот в этом сайте и даётся небольшая инструкция для бота, что не подлежит индексации. Иначе говоря, с помощью инструкции файла Robots.txt можно увести определённые ограничения действий поисковой машины на вашем сайте. Указать поисковому боту, что можно делать на сайте, а чего не надо делать, что можно показывать всем пользователям Интернета, а что нельзя выводить на общее обозрение. Относительно того, как создать это чудо компьютерной технологии и куда его помешать на сайте. Файл Robots.txt, это текстовый документ и написать его можно в блокноте, что входит в комплектацию ОС Windows.
В тексте для написания файла Robots.txt, используют в основном две функции.
Функцию User-agent: Эта функция называет робота ( поискового бота), которому запрещено или разрешено индексировать сайт.
Функцию Disallow: Эта функция переводиться, как запретить, и указывает какие страницы на сайте запрещено или разрешено индексировать. Двоеточие после директивы (команды) имеет обозначающую функцию. Звёздочка после двоеточия обозначает - разрешено всем. Правый слеш имеет запрещающую команду.
Вот, например инструкция, которая разрешает индексировать только поисковому боту от Google, а всем остальным запрещено индексацию сайта с таким Robots.txt
User-agent: Google
Disallow:
User-agent: *
Disallow: /
А вот код Robots.txt, который разрешает индексацию всем поисковым ботам.
User-agent: *
Disallow:
Этот код файла Robots.txt запрещает индексацию папки Темп.
User-agent: *
Disallow: /tmp/
Можно также создать файл Robots.txt специально только для поискового робота Yandex. Для этого нужно в блокноте прописать такие теги, в котором директива
Host: указывает, на подлинность сайта который подлежит индексации в единственном экземпляре. С помощью во таких директив можно разрешать или запрещать индексацию сайта и любых страниц.
User-agent: Yandex
Disallow: /cgi-bin/
Host: www. Blog.ru
Вот такие примерно теги прописываются в блокноте и сохраняются в корневой директории сайта, например, под таким URL - http://www.w3.org:80/robots.tx
Каждый хостинг имеет свои личные вводные в корневую папку сайта. Поэтому, нет какой-то общей инструкции, как войти в корневую папку какого-то определённого сайта. На многих сайтах корневую папку сайта можно войти через менеджер файлов. Вообще-то многие на которых находятся сайты пользователей снабжают созданные сайты своим файлом Robots.txt .
Обычно корневая папка сайта может иметь такой примерно вид - public_html или http_docs. А если вы, всё-таки, задались целью найти корневую папку своего сайта, вам в этом поможет инструкция, которую можно поискать в интернете.