Cum folosim robots.txt pentru a permite sau nu accesul motoarelor de cautare

postat acum 2 ani de Stefanescu Mihai in categorie iNoob

Robots.txt este un fisier ce se gaseste in folderul radacina al site-urilor (root directory) si le “spune” motoarelor de cautare ce foldere/fisiere le este permis sa citeasca si ce le este restrictionat. In acest articol am sa va arat cum sa creati un fisier robots.txt si cateva comenzi cu care puteti permite/restrictiona acces asupra anumitor fisiere din site-ul vostru.

 

 

 

 

Primul lucru facut de un motor de cautare cand intra pe site-ul vostru este sa citeasca fisierul robots.txt pentru a afla ce pagini poate vizita si ce pagini nu poate.

 

 

Sintaxa allow:

 

 


User-agent: *

Allow: /

 

 

Codul de mai sus permite motoarelor de cautare sa caute prin tot site-ul tau.

 

 

Sintaxa disallow:

 

 


User-agent: *

Disallow:  /

 

 

Acest cod nu le mai permite motoarelor de cautare sa iti caute (crawl) prin site.

 

 

Cand cauti pe google un site ce are setat disallow in robots.txt vei da peste un rezultat de genul acesta:

 

 

 

 

Restrictioneaza accesul  la un anumit folder:

 

 


User-agent: *

Disallow:  /wp-admin/

Disallow:  /wp-includes/

 

 

 Restrictioneaza accesul  la un anumit fisier:

 

 


User-agent: *

Disallow:  /includes/db.php

 

 

Acum motoarele de cautare sunt fortate sa ignore fisierul db.php

 

 

Meta:

 

 

Poti sa restrictionezi indexarea fisierelor folosind si meta tags:

 

 


<meta name="robots" content="noindex">

 

 

Dupa cum bine stim (sper) meta-ul poate fi parsat de computere… deci nu este afisat pe pagina iar vizitatorii site-ului nu il vor vedea ci decat botii motoarelor de cautare.Permite / Restrictioneaza accesul anumitor motoare de cautarerobots.txt iti permite sa alegi ce motor de cautare iti poate “cauta” prin site. Pentru a permite/restrictiona accesul trebuie sa stii numele complet al botilor, iar aceste nume la gasiti aici: Lista Boti

 

 


User-agent: Googlebot

Disallow: /

 

 

Folosind aceasta comanda ii restrictionezi accesul botului cu numele Googlebot la site-ul tau.

 

 

Pentru moment atat am de spus despre robots.txt, sper ca va ajutat catusi de putin si daca tot mai ai intrebari nu ezita sa imi lasi un comentariu sau sa ma contactezi.


 

 

Sunt un tanar programator din Bucuresti ce lucreaza in PHP/Mysql (MySqli/PDO), Laravel, CodeIgniter, MySQL, PostgreSQL, Wordpress, HTML5/CSS3, Sass, Photoshop si multe altele.
Google+ Community Facebook Group
Acest articol a fost mutat de pe vechea platforma.
Pentru orice eroare aparuta la mutare va rog sa ma contactati!
Comentariu postate de Narcis
Si cum trebuie sa arate un fisier robots.txt configurat corect?
Comentariu postate de Mihai
User-agent: * Disallow: Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.invata-programare.rositemap.xml Depinde de preferintele tale in primul rand…codul de mai sus este standard, doar ca in loc de sitemap-ul meu trebuie sa ai sitemap-ul site-ului tau, iar in loc de wp-admin si wp-includes trebuie sa pui directoarele care nu vrei sa fie accesate…