Problema conținutului duplicat și modul de rezolvare a acestuia

O problemă pe care o vedem pe aproape fiecare site web este conținutul duplicat. Site-uri mai mari cu sute de pagini sunt în mod special predispuse la acest lucru. Dar ce se califică drept conținut dublu? De ce conținutul duplicat conduce la probleme și cum le putem evita? Vom acoperi toate aceste lucruri și mai mult în acest articol.


Ce este conținutul duplicat?

Conținutul duplicat este exact ceea ce credeți că este: două sau mai multe părți de conținut care sunt identice, singura diferență fiind adresa URL.

Google vede fiecare adresă URL ca pagină separată. Din acest motiv, ar considera următoarele adrese URL să fie complet diferite:

  • Pagina originală cu cămăși roșii: http://website.com/shirts/red
  • Aceeași pagină, dar ordonată după preț: http://website.com/shirts/red?order=asc

Problema aici este că, de fapt, ne uităm la aceeași pagină cu același conținut. Singura diferență este că conținutul ultimului URL este într-o ordine diferită. Google vede acest lucru ca un conținut dublu.


De ce este greșit conținutul duplicat?

Duplicați conținutul confunde motoarele de căutare. De ce? Pentru că au un timp dificil de a decide care dintre pagini este cea mai relevantă pentru o interogare de căutare.

Motoarele de căutare nu vor afișa niciodată două bucăți identice de conținut în SERP-urile. Acest lucru se face pentru a asigura cea mai bună calitate a căutării; văzând același conținut de două ori nu este foarte interesant pentru utilizator.

O altă problemă este puterea de rang din paginile duplicate. În loc să aveți o singură pagină cu multă autoritate, aveți mai multe pagini cu performanțe diluate, suboptimale. Acest lucru vă poate costa mult trafic organic.


Cum este creat conținutul duplicat

Conținutul duplicat poate fi creat în mod deliberat sau accidental. Cu toate acestea, rezultatul este același.

Un exemplu de conținut dublu deliberat este versiunea tipărită a unei pagini. Este în mod eficient aceeași pagină cu același conținut, astfel încât atunci când această versiune de imprimare este indexată, există o problemă cu conținut dublu.

Cu toate acestea, există o mulțime de situații în care conținutul duplicat este creat neintenționat. Pot exista mai multe cauze, cum ar fi:

  • ID-uri de sesiune
  • Opțiunile de sortare
  • Codurile afiliate
  • domenii
  • ...

ID-uri de sesiune

Un ID de sesiune este o variabilă, un șir de numere și / sau litere generate aleator și este folosit pentru a urmări vizitatorii. Ele sunt adesea folosite pentru cărucioarele de cumpărături, de exemplu:

http://website.com/?sessionid=5649612

Problema cu ID-urile sesiunii este evidentă: pot crea sute, poate chiar mii de duplicate. Stocarea ID-urilor de sesiune în cookie-uri poate rezolva această problemă, dar dacă vă bazați pe această opțiune, nu uitați de legislația UE privind cookie-urile.

Opțiunile de sortare

Atunci când oamenii se gândesc la opțiunile de sortare, ei se gândesc de obicei la cataloagele de produse pentru magazinul web unde utilizatorii pot sorta după preț, dată, etc. Dar funcțiile de sortare sunt adesea găsite și pe alte site-uri web. Următoarea adresă URL utilizează o funcție tipică de sortare a blogurilor:

http://website.com/category?sort=asc

Adresa URL cu opțiunea de sortare și originalul sunt, în principiu, aceeași pagină. Este același conținut, doar sortit într-o manieră diferită.

Coduri afiliate

Codurile de afiliere sunt afișate pe tot globul. Ele sunt utilizate pentru a identifica referitor, care, la rândul său, este răsplătit pentru aducerea unui nou vizitator. Un cod afiliat poate arăta astfel, de exemplu:

http://website.com/product?ref=name

Încă o dată, acest cod poate crea un duplicat al paginii originale.

domenii

Chiar ceva simplu ca un nume de domeniu poate fi uneori problematic. Aruncați o privire la următoarele adrese URL:

http://website.com
http://www.website.com

Motoarele de căutare au parcurs un drum lung, dar, din când în când, încă mai greșesc acest lucru. Ambele adrese URL indică probabil pagina de pornire, dar pentru că ambele adrese URL arată diferit, acestea sunt câteodată văzute ca pagini diferite.


Cum să identificați conținutul duplicat

Am discutat despre modul în care este creat un conținut duplicat, dar cum puteți identifica probleme de conținut duplicat pe site-ul dvs.?

Cel mai simplu mod de a face acest lucru este via Instrumentele Google pentru webmasteri. Conectați-vă la contul dvs. și accesați Optimizarea> Îmbunătățiri HTML. Aici veți găsi o listă de titluri duplicate (care este probabil un conținut duplicat).


Instrumentele Google pentru webmasteri

Alternativ, puteți introduce site-ul: - comandă de căutare în bara url pentru a găsi pagini dintr-un anumit domeniu (de ex. site: webdesign.tutsplus.com). Această metodă este foarte utilă dacă bănuiți că o anumită pagină are mai multe duplicate. Utilizați comanda site-ului și inserați câteva propoziții din pagina suspectă. Dacă primiți un mesaj de la Google spunând "Pentru a vă arăta cele mai relevante rezultate, am omis unele înregistrări ...", probabil că aveți conținut dublu.

În cele din urmă, ați putea, de asemenea, să utilizați crawlere de site-uri. Software-ul cum ar fi Xenu și Screaming Frog pot fi folosite pentru a culege informațiile necesare. Analizați titlurile paginilor în raportul de accesare cu crawlere și verificați duplicatele.


Rezolvarea problemelor de conținut duplicat

După cum se spune: "fiecare boală are un leac". Din fericire, există mai multe modalități de a remedia problemele de conținut duplicat:

301 Redirectare

O modalitate simplă de a împiedica indexarea conținutului duplicat este o redirecționare 301. În acest fel, utilizatorii și motoarele de căutare sunt redirecționate de la duplicat la original. Ca rezultat, toate sucurile de legături sunt trimise la pagina originală.

O redirecționare 301 este implementată pe serverele Apache prin adăugarea de reguli la fișierul .htaccess al serverului dvs. Rețineți că această metodă "șterge" copia. Dacă nu doriți să scăpați de pagina (ele) duplicat (e), ar trebui să utilizați următoarea metodă.

Rel = canonical

Există un alt mod de a spune motoarelor de căutare despre conținut duplicat; rel =“canonic“ etichetă. Acest cod de cod trebuie implementat în a unei pagini web.

Să presupunem că avem pagina B, care este un duplicat al paginii A. Dacă vrem să informăm motoarele de căutare despre acest lucru, am plasa următorul cod în marcajul paginii B:

Acest cod afirmă că pagina curentă este de fapt o copie a URL-ului menționat mai sus. După implementarea acestuia, majoritatea sucurilor de link-uri vor fi transferate pe pagina originală și, astfel, vor îmbunătăți puterea de clasare a acelei pagini. Contrar redirecționării 301, paginile duplicat vor fi în continuare accesibile.

Tag Meta Roboți

Am discutat deja în detaliu meta-tag-ul roboților în timpul unui tutorial anterior. Prin adăugarea unei etichete meta robot cu parametrul "noindex", puteți împiedica indexarea paginii duplicate.

Rescrierea URL-ului

Aceasta este o soluție mai avansată. Este mai dificil de implementat dacă aveți o înțelegere limitată a codului, dar poate fi utilă în mai multe ocazii.

Așa cum am menționat anterior, numele domeniului pot provoca adesea probleme de conținut duplicat (versiunea www versus non-www). Puteți rezolva această problemă prin adăugarea unei reguli de rescriere a URL-ului în fișierul dvs. htaccess (altceva pe care am acoperit-o anterior pe Webdesigntuts +). Alegeți domeniul preferat (www sau non-www) și rescrieți automat URL-urile către domeniul specificat.

O altă problemă despre care am vorbit este folosirea ID-uri de sesiune. Aceeași adresă URL cu un ID de sesiune diferit adăugat poate fi văzută ca un conținut dublu. Încă o dată, fișierul htaccess poate fi utilizat pentru a dezactiva acești parametri. Citiți Dezactivați ID-ul sesiunii care a trecut prin adresa URL a lui Constantin Bejenaru pentru a afla cum să faceți acest lucru.

Instrumentele Google pentru webmasteri

În secțiunea anterioară am vorbit despre rescrierea automată a adreselor URL pentru nume de domenii. O modalitate mai ușoară de a face acest lucru este prin intermediul Instrumentelor Google pentru webmasteri. Conectați-vă la contul dvs., accesați Configurație, faceți clic pe Setări și setați a domeniul preferat.


Domeniul preferat al Google Webmaster

Dacă utilizați parametrii dinamici ai adresei URL, puteți spune Google cum să se ocupe de ele. În acest fel puteți afla care parametri trebuie ignorați. Acest lucru poate rezolva adesea o mulțime de probleme de conținut dublu. Accesați Instrumentele Google pentru webmasteri și accesați Configurație> Parametri URL. Mai multe informații pot fi găsite la Google Support, însă nu uitați să utilizați această caracteristică numai dacă știți cum funcționează parametrii, în caz contrar puteți bloca paginile în mod neașteptat.


Direcționarea în funcție de limbă

Această problemă este legată de conținutul duplicat, dar există unele diferențe.

Să presupunem că o companie care vinde produse în America de Nord are două site-uri web: company.us și company.ca. Primul este destinat Statelor Unite, cel din urmă la Canada. Pe ambele site-uri găsim conținut similar, deoarece webmasterii nu au dorit să rescrie mai multe pagini de text.

Este posibil ca versiunea americană să depășească versiunea canadiană (chiar și pe Google.ca) deoarece are mai multă autoritate. Cum putem remedia această problemă de direcționare?

Există o soluție simplă: rel = "alternativă" hreflang = "x" adnotare.

Dacă folosim exemplul nostru anterior, trebuie să adăugăm următorul cod în secțiune a domeniului .us:

În câmpul .ca trebuie să plasăm acest cod:

În esență, îi spui Google că există o versiune alternativă (sau duplicat) într-o altă limbă. Atributul hreflang utilizează ISO 639-1 pentru a identifica limba. Opțional, puteți adăuga regiunea în format ISO 3166-1.


Remarci finale

Prevenirea este mai bună decât vindecarea ... Legarea internă consecventă poate împiedica crearea unui conținut dublu. Dacă aveți http://www.website.com ca domeniu preferat, nu îndreptați linkurile interne către versiunea non-www. Același sfat se aplică și în legăturile de intrare. Dacă vă conectați la propriul dvs. site dintr-un alt domeniu, utilizați o structură de link consistentă.

Nu creați în mod intenționat conținut duplicat copiind bucăți mari de text de pe alte site-uri web. Google va afla probabil despre aceasta și consecințele ar putea să nu fie atât de plăcute:

În cazurile rare în care Google percepe că conținutul duplicat poate fi afișat cu intenția de a manipula clasamentele noastre și de a înșela utilizatorii noștri ... clasarea site-ului ar putea suferi sau site-ul ar putea fi eliminat în întregime din indexul Google.


Concluzie

Conținutul duplicat este ceva pe care îl vedeți pe aproape fiecare site. Poate avea mai multe cauze, indiferent dacă este accidental sau nu.

Dacă nu doriți să împiedicați accesul din pagină printr-o redirecționare 301, este mai bine să utilizați adnotarea rel = canonical. Alternativ, puteți utiliza eticheta meta roboți sau rescrierea automată a adreselor URL. Instrumentele Google pentru webmasteri oferă, de asemenea, câteva modalități de prevenire a conținutului duplicat.

În cele din urmă, este mai bine să fii consecvent în legătură. Link-urile interne și legăturile de intrare ar trebui să apară la fel.