Duplicate Content

Duplicate content (określane także jako powielanie treści) to niekorzystne zjawisko występujące na witrynach internetowych, polegające na tym, że taka sama zawartość tekstowa jest dostępna z kilku adresów URL. Duplicate content dzieli się na dwie grupy:

  • występujący w obrębie jednej witryny (domeny)
  • występujący na wielu domenach

Duplicate content w obrębie jednej witryny

Najczęściej spotykany duplicate content dotyczy strony głównej, która zazwyczaj jest dostępna jednocześnie z wielu adresów, na przykład:

I tak dalej. Z technicznego punktu widzenia, każdy z powyższych adresów URL jest unikatowy. W taki sam sposób postrzegają je wyszukiwarki.

Inne przyczyny występowania zjawiska duplikacji treści to na przykład:

  • Udostępnianie wersji strony do druku
  • Oferowanie możliwości przeglądania treści z uwzględnieniem różnych filtrów i/lub widoków (charakterystyczne dla sklepów internetowych)
  • Równoległe prowadzenie wersji witryny dla normalnych komputerów i dla urządzeń mobilnych

Jak sobie radzić na własnej witrynie?

  1. Zablokować duplikaty dzięki możliwościom robots.txt lub meta robots.
  2. Wskazać która strona jest tą właściwą do indeksacji poprzez rel canonical.
  3. Wykorzystać funkcjonalności narzędzi dla webmasterów, oferowane przez poszczególne wyszukiwarki.

Duplicate content w obrębie wielu domen

Występuje w dwóch scenariuszach:

  • Jako świadome działanie, w trakcie syndykowania treści do innych witryn. Na przykład udzielanie im prawa do przedruku tekstu.
  • Jako nieświadome działanie zupełnie bez winy webmastera prowadzącego witrynę, z której pochodzi oryginalny tekst. Ten rodzaj duplikowanej treści powstaje w wyniku działań z gatunku blackhast SEO, najczęściej poprzez kradzież treści i ponowną jej publikację, na przykład w formie splogów.

W przypadku syndykowania treści warto pokusić się o to, aby w umowie o współpracy pojawił się punkty zobowiązujące stronę przedrukowującą tekst do linkowania do oryginału tekstu oraz - co byłoby idealne - do zablokowania publikacji przed indeksacją.

Jeśli z kolei treść z witryny jest publikowana gdzieś indziej bez zgody autorów - można spróbować skontaktować się z właścicielem i zażądać zaprzestania takiej praktyki. Nie jest to 100% skuteczna metoda, aczkolwiek nie jest również tak, że zawsze kończy się niepowodzeniem.

Jak wyszukiwarki rozpoznają duplicate content?

Proces rozpoznawania można podzielić na 4 zasadnicze kroki.

  1. Odkrycie - crawler wyszukiwarki kolejno trafia poszczególne kopie tekstu i dokonuje ich indeksacji.
  2. Odrzucenie - w tym kroku wyszukiwarka pozbywa się wszystkich kopii, które pochodzą z witryn oflagowanych jako farmy linków lub umieszczonych na blacklistowanych adresach IP.
  3. Analiza - po odrzuceniu kopii jednoznacznie uznanych za niepożądane, wyszukiwarka przeprowadza szczegółową analizę pozostałych. Bierze pod uwagę takie elementy jak ilość linków przychodzących, PageRank i autorytet poszczególnych witryn.
  4. Decyzja - w końcu, po rozważeniu sygnałów jakościowych, czasu odkrycia strony i ilości linków tematycznych - wyszukiwarka dokonuje decyzji.

Obrazek obok pochodzi z kolumny Search Illustrated, publikowanej na Search Engine Land.

Duplicate content - prezentacja

Greg Grothaus z Google w prezentacji na temat duplicate content z konferencji Search Engine Strategies San Jose 2009.

Plugin Adobe Flash Plugin jest niezbędny do obejrzenia tej zawartości.

Matt Cutts z Google - czy opisy produktów mogą być uznane za duplicate content?

Plugin Adobe Flash Plugin jest niezbędny do obejrzenia tej zawartości.

Linki zewnętrzne

Powiązane artykuły z Leksykonu SEO i SEM


Nawigacja
Osobiste narzędzia