Was ist Duplicate Content?
Doppelte Inhalte sind Inhalte, die im Internet an mehr als einem Ort erscheinen. Dieser “eine Ort” ist definiert als ein Ort mit einer eindeutigen Website-Adresse (URL) – wenn also derselbe Inhalt unter mehr als einer Webadresse erscheint, hast du doppelten Inhalt.
Obwohl es sich technisch gesehen nicht um eine Strafe handelt, kann Duplicate Content dennoch manchmal das Suchmaschinenranking beeinflussen. Wenn es mehrere Teile von, wie Google es nennt, “merklich ähnlichen” Inhalten an mehr als einem Ort im Internet gibt, kann es für Suchmaschinen schwierig sein zu entscheiden, welche Version für eine bestimmte Suchanfrage relevanter ist.
Warum ist Duplicate Content wichtig?
Für Suchmaschinen
Duplizierter Inhalt kann drei Hauptprobleme für Suchmaschinen darstellen:
Sie wissen nicht, welche Version(en) sie in ihre Indizes aufnehmen oder ausschließen sollen.
Sie wissen nicht, ob sie die Linkmetriken (Trust, Autorität, Ankertext, Link Equity, etc.) auf eine Seite lenken sollen oder ob sie sie auf mehrere Versionen verteilen sollen.
Sie wissen nicht, welche Version(en) sie für Suchergebnisse ranken sollen.
Für Seitenbetreiber
Wenn Duplicate Content vorhanden ist, können Seitenbetreiber Ranking- und Trafficverluste erleiden. Diese Verluste rühren oft von zwei Hauptproblemen her:
Um das beste Sucherlebnis zu bieten, zeigen Suchmaschinen selten mehrere Versionen desselben Inhalts an und sind daher gezwungen, die Version auszuwählen, die am wahrscheinlichsten das beste Ergebnis liefert. Dies verwässert die Sichtbarkeit der einzelnen Duplikate.
Der Link-Equity kann weiter verwässert werden, da andere Seiten ebenfalls zwischen den Duplikaten wählen müssen. Anstatt dass alle eingehenden Links auf einen Inhalt zeigen, verlinken sie auf mehrere Teile und verteilen den Link-Equity auf die Duplikate. Da eingehende Links ein Rankingfaktor sind, kann sich dies auf die Sichtbarkeit eines Inhalts auswirken.
Das Endergebnis? Ein Inhalt erreicht nicht die Sichtbarkeit in den Suchmaschinen, die er sonst hätte.
Duplicate Content Probleme für Suchmaschinen
Wie kommt es zu Problemen mit doppeltem Inhalt?
In den allermeisten Fällen erstellen Webseitenbetreiber nicht absichtlich doppelte Inhalte. Das heißt aber nicht, dass es sie nicht gibt. Schätzungen zufolge bestehen bis zu 29% des Webs aus doppelten Inhalten!
Lass uns einen Blick auf einige der häufigsten Arten werfen, wie doppelter Inhalt unabsichtlich erstellt wird:
- URL-Variationen
URL-Parameter, wie z.B. Click-Tracking und einige Analytics-Codes, können Duplicate-Content-Probleme verursachen. Dieses Problem kann nicht nur durch die Parameter selbst verursacht werden, sondern auch durch die Reihenfolge, in der diese Parameter in der URL selbst erscheinen.
Zum Beispiel:
www.widgets.com/blue-widgets?c… ist ein Duplikat von www.widgets.com/blue-widgets?c…&cat=3″ class=”redactor-autoparser-object”>www.widgets.com/blue-widgets ist ein Duplikat von www.widgets.com/blue-widgets?cat=3&color=blue
Ähnlich sind Sitzungs-IDs ein häufiger Ersteller von doppeltem Inhalt. Dies geschieht, wenn jeder Nutzer, der eine Webseite besucht, eine andere Session-ID zugewiesen bekommt, die in der URL gespeichert wird.
Sitzungs-IDs oder Parameter können doppelte Inhalte erzeugen
Druckerfreundliche Versionen von Inhalten können ebenfalls Duplicate-Content-Probleme verursachen, wenn mehrere Versionen der Seiten indiziert werden.
Druckerfreundliche Seitenversionen können Duplicate-Content-Probleme verursachen
Eine Lektion hier ist, dass es, wenn möglich, oft von Vorteil ist, keine URL-Parameter oder alternative Versionen von URLs hinzuzufügen (die Informationen, die diese enthalten, können normalerweise durch Skripte weitergegeben werden).
- HTTP vs. HTTPS oder WWW vs. Nicht-WWW Seiten
Wenn deine Seite getrennte Versionen unter “www.site.com” und “site.com” hat (mit und ohne “www”-Präfix), und der gleiche Inhalt auf beiden Versionen vorhanden ist, hast du effektiv Duplikate von jeder dieser Seiten erstellt. Das Gleiche gilt für Seiten, die sowohl unter http:// als auch unter https:// zu finden sind. Wenn beide Versionen einer Seite aktiv und für Suchmaschinen sichtbar sind, kann es zu einem Problem mit doppeltem Inhalt kommen. - Gescrapte oder kopierte Inhalte
Zu den Inhalten gehören nicht nur Blogbeiträge oder redaktionelle Inhalte, sondern auch Produktinformationsseiten. Scraper, die deine Blog-Inhalte auf ihren eigenen Seiten veröffentlichen, sind die bekannteste Quelle für Duplicate Content, aber es gibt auch ein häufiges Problem für E-Commerce-Seiten: Produkt-Informationen. Wenn viele verschiedene Websites die gleichen Artikel verkaufen und alle die Beschreibungen des Herstellers verwenden, tauchen identische Inhalte an mehreren Stellen im Web auf.
Wie man Probleme mit doppeltem Inhalt behebt
Bei der Behebung von Problemen mit doppelten Inhalten geht es immer um dieselbe zentrale Idee: zu bestimmen, welches der Duplikate das “richtige” ist.
Wann immer Inhalte auf einer Seite unter mehreren URLs zu finden sind, sollten sie für Suchmaschinen kanonisiert werden. Lass uns die drei wichtigsten Möglichkeiten durchgehen, dies zu tun: Mit einem 301 Redirect auf die richtige URL, dem rel=canonical-Attribut oder mit dem Parameter Handling Tool in der Google Search Console.
301-Weiterleitung
In vielen Fällen ist der beste Weg, Duplicate Content zu bekämpfen, eine 301-Weiterleitung von der “doppelten” Seite auf die Seite mit dem ursprünglichen Inhalt einzurichten.
Wenn mehrere Seiten, die das Potenzial haben, gut zu ranken, zu einer einzigen Seite zusammengefasst werden, hören sie nicht nur auf, miteinander zu konkurrieren, sie erzeugen auch insgesamt ein stärkeres Relevanz- und Popularitätssignal. Dies wird sich positiv auf die Fähigkeit der “richtigen” Seite auswirken, gut zu ranken.
Duplicate Content Probleme mit 301 Weiterleitungen beheben
Rel=”canonical”
Eine weitere Möglichkeit, mit Duplicate Content umzugehen, ist die Verwendung des Attributs rel=canonical. Dies teilt den Suchmaschinen mit, dass eine bestimmte Seite so behandelt werden soll, als wäre sie eine Kopie der angegebenen URL und dass alle Links, Inhaltsmetriken und “Ranking-Power”, die die Suchmaschinen auf diese Seite anwenden, tatsächlich der angegebenen URL gutgeschrieben werden sollen.
Adressierung von Duplicate Content mit rel=canonical
Das rel=”canonical” Attribut ist Teil des HTML-Kopfes einer Webseite und sieht wie folgt aus:
Allgemeines Format:
…[anderer Code, der im HTML-Kopf deines Dokuments stehen könnte]……[anderer Code, der im HTML-Kopf deines Dokuments stehen könnte]…
Das rel=canonical-Attribut sollte zum HTML-Kopf jeder doppelten Version einer Seite hinzugefügt werden, wobei der obige Teil “URL OF ORIGINAL PAGE” durch einen Link zur ursprünglichen (kanonischen) Seite ersetzt wird. (Achte darauf, dass du die Anführungszeichen beibehältst.) Das Attribut überträgt ungefähr die gleiche Menge an Link Equity (Ranking-Power) wie ein 301 Redirect, und da es auf Seiten- (statt Server-) Ebene implementiert wird, benötigt es oft weniger Entwicklungszeit, um es umzusetzen.
Unten siehst du ein Beispiel, wie ein canonical Attribut in Aktion aussieht:
Hier können wir sehen, dass BuzzFeed die rel=canonical-Attribute verwendet, um ihre Verwendung von URL-Parametern (in diesem Fall Klick-Tracking) zu berücksichtigen. Obwohl diese Seite über zwei URLs erreichbar ist, stellt das rel=canonical-Attribut sicher, dass alle Link-Equity- und Content-Metriken an die Originalseite (/no-one-does-this-anymore) vergeben werden.
Meta Robots Noindex
Ein Meta-Tag, das im Umgang mit Duplicate Content besonders nützlich sein kann, ist Meta Robots, wenn es mit den Werten “noindex, follow” verwendet wird. Gemeinhin als Meta Noindex,Follow bezeichnet und technisch als content=”noindex,follow” bekannt, kann dieses Meta Robots Tag dem HTML-Kopf jeder einzelnen Seite hinzugefügt werden, die aus dem Index einer Suchmaschine ausgeschlossen werden soll.
Allgemeines Format:
…[anderer Code, der im HTML-Kopf deines Dokuments stehen könnte]……[anderer Code, der im HTML-Kopf deines Dokuments stehen könnte]…
Der Meta-Robots-Tag erlaubt es Suchmaschinen, die Links auf einer Seite zu crawlen, hält sie aber davon ab, diese Links in ihre Indizes aufzunehmen. Es ist wichtig, dass die doppelte Seite immer noch gecrawlt werden kann, auch wenn du Google sagst, sie nicht zu indizieren, weil Google ausdrücklich davor warnt, den Crawl-Zugriff auf doppelte Inhalte auf deiner Website zu beschränken. (Suchmaschinen mögen es, alles sehen zu können, falls du einen Fehler in deinem Code gemacht hast. Es erlaubt ihnen, eine [wahrscheinlich automatisierte] “Ermessensentscheidung” in ansonsten unklaren Situationen zu treffen.)
Die Verwendung von Meta-Robots ist eine besonders gute Lösung für Duplicate-Content-Probleme im Zusammenhang mit der Paginierung.
Bevorzugte Domain und Parameterbehandlung in der Google Search Console
In der Google Search Console kannst du die bevorzugte Domain deiner Seite einstellen (z.B. http://yoursite.com statt http://www.yoursite.com) und festlegen, ob der Googlebot verschiedene URL-Parameter unterschiedlich crawlen soll (Parameter-Handling).
Duplicate-content-google-search-console-settings.png?mtime=20170315155632#asset:4191:url
Abhängig von deiner URL-Struktur und der Ursache deiner Duplicate-Content-Probleme, kann die Einrichtung entweder deiner bevorzugten Domain oder der Parameterbehandlung (oder beides!) eine Lösung bieten.
Der größte Nachteil bei der Verwendung von Parameter-Handling als primäre Methode für den Umgang mit Duplicate Content ist, dass die Änderungen, die du machst, nur für Google funktionieren. Alle Regeln, die du in der Google Search Console einstellst, haben keinen Einfluss darauf, wie die Crawler von Bing oder anderen Suchmaschinen deine Seite interpretieren; du musst zusätzlich zu den Einstellungen in der Search Console auch die Webmaster-Tools für andere Suchmaschinen verwenden.
Zusätzliche Methoden für den Umgang mit doppeltem Inhalt
Achte auf Konsistenz bei der internen Verlinkung innerhalb einer Website. Wenn ein Webmaster zum Beispiel feststellt, dass die kanonische Version einer Domain www.example.com/ ist, dann sollten alle internen Links zu http://www.example.co… und nicht zu http://example.com/pa… führen. (beachte das Fehlen von www).
Wenn du Inhalte syndizierst, stelle sicher, dass die syndizierende Website einen Link zurück zum ursprünglichen Inhalt setzt und nicht eine Variation der URL. (Schau dir unsere Whiteboard Friday Episode über den Umgang mit Duplicate Content an, um mehr Informationen zu erhalten).
Um eine zusätzliche Absicherung gegen Content Scraper zu haben, die dir die SEO-Lorbeeren für deine Inhalte stehlen, ist es ratsam, einen selbstreferenzierenden rel=canonical Link zu deinen bestehenden Seiten hinzuzufügen. Dies ist ein kanonisches Attribut, das auf die URL verweist, auf der es sich bereits befindet, um die Bemühungen einiger Scraper zu vereiteln.
Selbstreferentielle kanonische Links können vor Duplikation durch Scraper schützen
Ein selbstreferentieller rel=canonical Link: Die im rel=canonical-Tag angegebene URL ist die gleiche wie die aktuelle Seiten-URL.
Während nicht alle Scraper den kompletten HTML-Code ihres Quellmaterials portieren, tun es einige. Für diejenigen, die das tun, stellt der selbstreferenzielle rel=canonical Tag sicher, dass die Version deiner Seite als der “originale” Inhalt anerkannt wird.