Gestionarea accesibilității site-ului dvs. pentru motoarele de căutare

Site-ul dvs. este inutil dacă nu poate fi indexat de motoarele de căutare. Dacă doriți să apară în rezultatele căutării, trebuie să vă asigurați că poate fi accesat de motoarele de căutare. Cu toate acestea, uneori veți dori să restricționați accesul la anumite părți ale site-ului dvs., poate doriți să ascundeți pagini irelevante sau documente private. În acest articol veți afla cum să gestionați accesibilitatea site-ului dvs. pentru motoarele de căutare prin intermediul unui robots.txt fișier sau robot meta tag.


Beneficii ale fișierelor și etichetelor robotului

Înainte să detaliem cum să creați un fișier robots.txt sau meta tag-ul roboți, ar trebui să aruncăm o privire asupra beneficiilor acestora. Există câteva scenarii în care implementarea acestora ar putea fi utilă, cum ar fi:

  • Prevenirea conținutul duplicat de la indexare (de exemplu versiuni imprimabile ale paginilor).
  • Pentru pagini incomplete.
  • Restricționarea motoarelor de căutare de indexare pagini sau fișiere confidențiale.

Conținutul duplicat diluează eforturile dvs. de SEO, deoarece motoarele de căutare consideră greu să decidă ce versiune este cea mai relevantă pentru interogarea de căutare a utilizatorilor. Această problemă poate fi împiedicată prin blocarea paginilor duplicate printr-un fișier sau o etichetă robot. Există un alt mod de a gestiona conținutul duplicat, dar vom discuta mai târziu.

Dacă aveți pagini noi, dar incomplete online, cel mai bine este să le blocați din crawlerele pentru a le împiedica să fie indexate. Acest lucru poate fi util pentru paginile de produse noi, de exemplu - dacă doriți să le păstrați secret până la lansare, adăugați un fișier robot sau o etichetă.

Unele site-uri web au pagini confidențiale sau fișiere care nu sunt blocate de un formular de autentificare. O modalitate ușoară de ascundere a acestora din motoarele de căutare este prin fișierul robots.txt sau meta tag.

Acum că știm De ce ar trebui să gestionăm accesibilitatea anumitor pagini, este timpul să învățăm Cum noi putem sa facem asta.


Fișierul robots.txt

Crawlerele sunt muncitori. Ei doresc să indice cât mai mult posibil, dacă nu le spuneți altceva.

Atunci când un crawler accesează site-ul dvs. web, acesta va căuta fișierul robots.txt. Acest fișier îi oferă instrucțiuni despre paginile care ar trebui indexate și care ar trebui ignorate. Prin crearea unui fișier robots.txt puteți împiedica accesul crawlerelor la anumite părți ale site-ului dvs. web.

Fișierul robots.txt trebuie să fie plasat în un director de nivel superior de pe site-ul dvs. - de exemplu: www.domain.com/robots.txt. Acest nume de fișier este de asemenea sensibil la minuscule.

Avertizare: dacă adăugați un fișier robots.txt pe site-ul dvs. Web, verificați din nou erorile. Nu doriți să blocați din neatenție crawlerele de la indexarea paginilor importante.


Crearea unui fișier robots.txt

robots.txt este un fișier text simplu cu mai multe înregistrări. Fiecare înregistrare are două elemente: agent utilizator și dezaproba.

Elementul utilizator-agent indică ce crawlere ar trebui să utilizeze informațiile de interzicere. Disallow spune unor crawlere care parte a site-ului nu poate fi indexată.

Un record va arata cam asa:

User-agent: * Disallow: 

Înregistrarea de mai sus oferă motoarelor de căutare acces la toate paginile. Utilizăm asteriscul (*) pentru a viza toate crawlerele și pentru că nu am specificat o pagină de interzicere, pot indexa toate paginile.

Cu toate acestea, prin adăugarea unei slash-uri directe către câmpul de interzicere, putem împiedica indexarea tuturor crawlerelor orice de pe site-ul nostru:

Agent utilizator: * Dezactivare: / 

De asemenea, putem alege să vizăm un singur crawler. Aruncați o privire la exemplul de mai jos:

Agent-utilizator: Googlebot Disallow: / private-directory / 

Această înregistrare spune Google să nu indexeze directorul privat; Googlebot este utilizat de Google pentru căutări pe web. Pentru o listă completă a tuturor crawlerelor, accesați baza de date pentru roboți web.

Cuplarea unei interdicții unui singur agent-utilizator ar constitui o sarcină care consumă mult timp. Din fericire, putem adăuga mai multe restricții în aceeași înregistrare.

Agent de utilizator: Bingbot Disallow: / sample-directory / Disallow: /an-uninteresting-page.html Disallow: /pictures/logo.jpg 

Acest lucru va împiedica Bing să indexeze directorul eșantionului, pagina neinteresantă și sigla.

metacaractere

Pe măsură ce ne bazăm pe expresii regulate, putem folosi și metacaractere într-un fișier robots.txt.

De exemplu, o mulțime de oameni folosesc Wordpress ca un CMS. Vizitatorii pot utiliza funcția de căutare încorporată pentru a găsi postări despre un anumit subiect, iar urlul pentru o interogare de căutare are următoarea structură: http://domain.com/?s=searchquery.

Dacă vreau să blochez rezultatele căutării de la indexare, pot folosi un wildcard. Înregistrarea robots.txt va arăta astfel:

User-agent: * Disallow: /? S = 

De asemenea, puteți utiliza metacaractere pentru a împiedica indexarea fișierelor de fișiere. Următorul cod va bloca toate imaginile .png:

Agent-utilizator: * Disallow: /*.png$ 

Nu uitați să adăugați semnul dolar la sfârșit. Spune motoarelor de căutare că este sfârșitul unui șir de adrese URL.

Testarea fișierului dvs. robots.txt

Este întotdeauna o idee bună să testați fișierul robots.txt pentru a vedea dacă ați făcut greșeli. Puteți utiliza Instrumentele Google pentru webmasteri pentru aceasta.

Sub "sănătate", veți găsi pagina "urlări blocate". Aici veți găsi toate informațiile despre fișierul dvs. De asemenea, puteți testa modificările înainte de a le încărca.


Robotul Meta Tag

Meta-tag-ul roboților este folosit pentru a gestiona accesibilitatea crawlerelor la o singură pagină. Acesta le spune motoarelor de căutare dacă pagina poate fi accesată cu crawlere, arhivată sau dacă link-urile de pe pagină pot fi urmate.

Acesta este aspectul meta tag-urilor robotilor:

   

Acest meta-tag împiedică crawlerele să indexeze pagina web. Pe lângă "noindex" există și alte atribute care ar putea fi utile:

  • index: această pagină poate fi indexată.
  • noindex: această pagină nu poate fi afișată în rezultatele căutării.
  • urma: link-urile de pe această pagină pot fi urmate.
  • nofollow: link-urile de pe această pagină nu pot fi respectate.
  • Arhiva: o copie cache a acestei pagini este permisă.
  • noarchive: o copie cache a acestei pagini nu este permisă.

Atributele multiple pot fi utilizate într-o singură etichetă meta robot, de exemplu:

   

Acest marcaj împiedică crawlerele să indexeze pagina și să-i urmeze linkurile.

Dacă se întâmplă să utilizați etichete în conflict, Google va folosi opțiunea cea mai limitată. Să presupunem că utilizați "index" și "noindex" în același tag, pagina nu va fi indexată (opțiunea cea mai restrictivă, doar pentru a fi sigură).


Folosesc robots.txt sau Meta Tags?

După cum am discutat, există două modalități de a gestiona accesibilitatea paginilor web: un fișier robots.txt și meta tag-uri.

Fișierul robots.txt este excelent pentru blocarea directoarelor complete sau a anumitor tipuri de fișiere. Cu o singură linie de text poți să faci o mulțime de muncă (și, eventual, o mulțime de daune!) Dar dacă vrei să blochezi o pagină individuală, e mai bine să folosești meta tag-ul roboților.

Uneori, adresele URL blocate prin intermediul fișierului robots.txt pot apărea în continuare în rezultatele căutării. Atunci când există o mulțime de linkuri care indică pagina și Google crede că singurul rezultat relevant al căutării pentru interogarea de căutare, acesta va apărea în continuare. Dacă nu doriți ca pagina să fie afișată, trebuie să adăugați metaeticheta noindex. Acest lucru poate părea complicat, dar Matt Cutts explică totul în detaliu în URL-urile nedeclarate în rezultatele căutării pe YouTube.


Concluzie

Cu fișierele robots.txt și meta-tag-urile robot puteți gestiona cu ușurință accesibilitatea site-ului dvs. pentru motoarele de căutare.

Nu uitați să verificați și să vă verificați meta-etichetele și fișierul robots.txt pentru a împiedica blocarea neautorizată a crawlerelor de la indexarea paginilor importante.