Воскресенье, 19.05.2024, 12:26
Приветствую Вас Гость

Robots.txt на сайте.

Для чего нужен файл Robots.txt на сайте.  

  Об  файле  можно сказать, что это маленькая, компактная  инструкция, размещённая на нашем сайте,  по которой  поисковый бот ( поисковая машина)  определяется  как ему обращаться с этим сайтом и что с ним делать. Первым делом, поисковая машина (бот)    под взор которой попадает сайт  для индексации  с   файлом Robots.txt обращается к этой  электронной инструкции. В   файле  Robots.txt   введены некоторые параметры, по которым поисковая машина  сможет  определиться,  как поступать с сайтом, что нужно индексировать, а что  оставить без индексации. Ведь на каждом сайте,    есть  и такие  служебные страницы,  которые  владелец сайта не желает, что бы они стали доступны   всему Интернету. Вот в этом сайте  и даётся небольшая инструкция для бота, что не  подлежит индексации.    Иначе говоря, с помощью  инструкции  файла Robots.txt можно  увести определённые ограничения  действий   поисковой машины на вашем сайте.  Указать поисковому боту, что можно делать на сайте, а чего не надо делать, что можно показывать всем  пользователям  Интернета, а что  нельзя   выводить на общее обозрение.  Относительно того,  как создать это чудо  компьютерной  технологии и куда его  помешать на сайте.   Файл Robots.txt, это текстовый документ и написать его можно в  блокноте,  что входит  в комплектацию ОС Windows.
  В тексте  для написания  файла Robots.txt, используют в основном две функции.
Функцию  User-agent:  Эта функция     называет  робота (  поискового бота), которому  запрещено или разрешено  индексировать сайт.
 Функцию Disallow: Эта функция   переводиться, как запретить, и указывает  какие страницы на сайте запрещено или разрешено индексировать. Двоеточие после директивы (команды)  имеет обозначающую функцию. Звёздочка после двоеточия обозначает - разрешено всем.  Правый слеш  имеет  запрещающую команду.  
 Вот, например инструкция, которая разрешает индексировать только поисковому боту от Google, а всем  остальным запрещено индексацию  сайта с таким  Robots.txt
       User-agent:  Google
        Disallow:
        User-agent: *
        Disallow: /
  А вот  код Robots.txt, который разрешает индексацию  всем   поисковым ботам.
        User-agent: *
        Disallow:
Этот код  файла Robots.txt  запрещает индексацию папки Темп.
       User-agent: *
        Disallow: /tmp/
Можно также создать  файл Robots.txt   специально только для  поискового робота  Yandex. Для этого  нужно в блокноте  прописать такие теги, в котором  директива
  Host:  указывает,  на  подлинность сайта который подлежит индексации в  единственном  экземпляре. С помощью во таких директив можно разрешать или запрещать индексацию сайта и любых страниц.
       User-agent: Yandex
       Disallow: /cgi-bin/
       Host: www. Blog.ru
Вот такие примерно   теги   прописываются в блокноте  и сохраняются  в корневой директории сайта, например, под таким  URL - http://www.w3.org:80/robots.tx
Каждый хостинг имеет  свои  личные    вводные    в корневую  папку сайта.  Поэтому, нет какой-то общей инструкции,  как  войти в корневую папку    какого-то определённого сайта.  На многих сайтах  корневую папку сайта можно войти  через  менеджер файлов.  Вообще-то  многие  на которых находятся  сайты пользователей снабжают  созданные сайты   своим   файлом    Robots.txt .
 Обычно  корневая папка сайта   может иметь такой примерно вид -  public_html или http_docs. А если вы, всё-таки, задались целью найти корневую папку своего сайта, вам в этом поможет инструкция, которую можно поискать в интернете. 

                   ТИц и  Pr сайта