Cum folosim robots.txt pentru a permite sau nu accesul motoarelor de cautare

iNoob | Stefanescu Mihai | 2020-10-11

Robots.txt este un fisier ce se gaseste in folderul radacina al site-urilor (root directory) si le “spune” motoarelor de cautare ce foldere/fisiere le este permis sa citeasca si ce le este restrictionat. In acest articol am sa va arat cum sa creati un fisier robots.txt si cateva comenzi cu care puteti permite/restrictiona acces asupra anumitor fisiere din site-ul vostru.

 

 

 

 

Primul lucru facut de un motor de cautare cand intra pe site-ul vostru este sa citeasca fisierul robots.txt pentru a afla ce pagini poate vizita si ce pagini nu poate.

 

 

Sintaxa allow:

 

 


User-agent: *

Allow: /

 

 

Codul de mai sus permite motoarelor de cautare sa caute prin tot site-ul tau.

 

 

Sintaxa disallow:

 

 


User-agent: *

Disallow:  /

 

 

Acest cod nu le mai permite motoarelor de cautare sa iti caute (crawl) prin site.

 

 

Cand cauti pe google un site ce are setat disallow in robots.txt vei da peste un rezultat de genul acesta:

 

 

 

 

Restrictioneaza accesul  la un anumit folder:

 

 


User-agent: *

Disallow:  /wp-admin/

Disallow:  /wp-includes/

 

 

 Restrictioneaza accesul  la un anumit fisier:

 

 


User-agent: *

Disallow:  /includes/db.php

 

 

Acum motoarele de cautare sunt fortate sa ignore fisierul db.php

 

 

Meta:

 

 

Poti sa restrictionezi indexarea fisierelor folosind si meta tags:

 

 


<meta name="robots" content="noindex">

 

 

Dupa cum bine stim (sper) meta-ul poate fi parsat de computere… deci nu este afisat pe pagina iar vizitatorii site-ului nu il vor vedea ci decat botii motoarelor de cautare.Permite / Restrictioneaza accesul anumitor motoare de cautarerobots.txt iti permite sa alegi ce motor de cautare iti poate “cauta” prin site. Pentru a permite/restrictiona accesul trebuie sa stii numele complet al botilor, iar aceste nume la gasiti aici: Lista Boti

 

 


User-agent: Googlebot

Disallow: /

 

 

Folosind aceasta comanda ii restrictionezi accesul botului cu numele Googlebot la site-ul tau.

 

 

Pentru moment atat am de spus despre robots.txt, sper ca va ajutat catusi de putin si daca tot mai ai intrebari nu ezita sa imi lasi un comentariu sau sa ma contactezi.


 

 


Imi place ce faci aici
Daca iti place ce fac aici imi poti cumpara o cafea Buy Me a Coffee at ko-fi.com

Stefanescu Mihai
Programator de ~8 ani, am lucrat la proiecte din mai multe industrstrii, de la eCommerce la telecomunicatii la automatizari. In acest timp am folosi diferite tehnologii, de la PHP, MySQL, PostgreSql, RabbitMq, Redis, Memcached si altele.
       

Get in touch
Pentru nelamuriri, dubii, comentarii si chestii de pe suflet ne putem auzi pe Discord, Reddit sau poti deschide o discutie noua pe forum.

Posteaza un comentariu

Comentarii

Narcis
Narcis | 2020-09-26 14:29
Si cum trebuie sa arate un fisier robots.txt configurat corect?

Mihai
Mihai | 2020-09-26 14:29
User-agent: * Disallow: Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.invata-programare.rositemap.xml Depinde de preferintele tale in primul randโ€ฆcodul de mai sus este standard, doar ca in loc de sitemap-ul meu trebuie sa ai sitemap-ul site-ului tau, iar in loc de wp-admin si wp-includes trebuie sa pui directoarele care nu vrei sa fie accesateโ€ฆ

Club-ul este dedicat membrilor si ofera access la mai multe zone ale website-ului.

๐Ÿ—๏ธ Login ๐ŸŒŸ Register

๐Ÿ”– Bookmarks โŠž
โœจ Pentru a sustine aceasta comunitate am sa te rog sa te autentifici sau sa te inregistrezi!

๐ŸŒช๏ธ Discord โŠž

Folosim cookie-uri pentru a oferi functionalitatile critice ale aplicatiei Invata-Programare. Folosim cookie-uri si pentru a analiza traficul, pentru care e nevoie de consimtamantul dvs. explicit.

โฌ†๏ธ