Kategorien
SEO

Gibberish Scores

Diese Woche wurde Google ein Patent zugesprochen, das beschreibt, wie sie Inhalte danach bewerten können, wie viel Kauderwelsch sie enthalten, was dann genutzt werden kann, um Seiten in den Suchergebnissen herabzustufen.

Dieser Kauderwelsch-Inhalt bezieht sich auf Inhalte, die für Spam-Inhalte repräsentativ sein könnten.

Das Patent definiert Kauderwelsch-Inhalte auf Webseiten als Seiten, die zwar eine Reihe von hochwertigen Keywords enthalten, aber möglicherweise durch:

Verwendung von billigen, ungeschulten Arbeitskräften (von Orten wie Mechanical Turk)
Scraping von Inhalten und deren willkürliche Modifizierung und Zusammenfügung
Übersetzen aus einer anderen Sprache
Kauderwelsch-Inhalte neigen auch dazu, Textsequenzen zu enthalten, bei denen es unwahrscheinlich ist, dass sie natürliche Sprache repräsentieren Textstrings, die häufig in der Konversationssyntax vorkommen, oder die nicht in Textstrings, die nicht in der Konversationssyntax strukturiert sind, kommen typischerweise in Ressourcen wie Webdokumenten vor.

Das Patent sagt uns, dass Spammer Einnahmen aus dem Traffic auf Webseiten mit Kauderwelsch-Inhalten generieren könnten, indem sie:

Werbeanzeigen
Pay-per-click Links
Partnerprogramme
Es sagt uns auch, dass, da diese Seiten “mit hochwertigen Schlüsselwörtern ohne Kontext erstellt wurden, die Webseite typischerweise keine nützlichen Informationen für einen Benutzer bietet.”

Dieser Prozess zur Identifizierung von Kauderwelsch-Inhalten beinhaltet:

Das Erstellen von Sprachmodellen für Seiten im Web und die Anwendung dieser Modelle auf den Text der Seiten.
Erzeugen eines Sprachmodell-Scores für die Ressource, einschließlich der Anwendung eines Sprachmodells auf den Textinhalt der Ressource
Erzeugen eines Query Stuffing Scores für die Referenz, wobei der Query Stuffing Score eine Funktion der Termhäufigkeit im Ressourceninhalt und eines Query Indexes ist
Berechnen eines Kauderwelsch-Scores für die Ressource unter Verwendung des Sprachmodell-Scores und des Query Stuffing Scores
Verwendung des berechneten Kauderwelsch-Scores, um zu bestimmen, ob ein Ranking-Score der Ressource verändert werden soll
Diese Kauderwelsch-Scores können für jede Seite erstellt werden, basierend auf mehreren Abfragen, die auf diesen Seiten enthalten sind.

Die Seiten können zunächst anhand von Relevanz- und Wichtigkeitsscores wie PageRank gerankt werden.

Die Seiten können dann basierend auf einer statistischen Überprüfung, bei der der Inhalt dieser Seiten in verschiedene n-Gramme unterteilt wird, neu gerankt oder zurückgestuft werden, wie z.B. 5-Wort-lange n-Gramme, die den Inhalt einer Seite in aufeinanderfolgende Gruppierungen der Wörter, die auf einer Seite gefunden werden, unterteilen und Statistiken über diese Gruppierungen erstellen und sie mit anderen n-Gramm-Gruppierungen auf anderen Seiten im Web vergleichen. Ein Beispiel für eine n-gram Analyse einer bekannten Phrase mit 5 Wörtern:

The quick brown fox jumps
der schnelle braune Fuchs springt über
brauner Fuchs springt über den
Fuchs springt über den faulen
springt über den faulen Hund

Die statistischen Muster, die in einem Sprachmodell gefunden werden, können verwendet werden, um Sprachen zu identifizieren, maschinelle Übersetzung anzuwenden und optische Zeichenerkennung zu betreiben.

Das Kauderwelsch-Inhaltspatent ist:

Identifizierung von Kauderwelsch-Inhalten in Ressourcen
Erfunden von Shashidhar A. Thakur, Sushrut Karanjkar, Pavel Levin, und Thorsten Brants
Zugewiesen an Google
US-Patent 8,554,769
Erteilt am 8. Oktober 2013
Filed: Juni 17, 2009

Zusammenfassung

Diese Spezifikation beschreibt Technologien, die sich auf die Bereitstellung von Suchergebnissen beziehen.

Ein Aspekt des in dieser Beschreibung beschriebenen Gegenstands kann in Verfahren verkörpert werden, die die folgenden Aktionen umfassen: Empfangen einer Netzwerkressource, wobei die Netzwerkressource einen Textinhalt enthält; Erzeugen eines Sprachmodell-Scores für die Ressource, einschließlich des Anwendens eines Sprachmodells auf den Textinhalt der Ressource; Erzeugen eines Query-Stuffing-Scores für die Referenz, wobei der Query-Stuffing-Score eine Funktion der Begriffshäufigkeit in dem Ressourceninhalt und eines Query-Index ist; Berechnen eines Kauderwelsch-Scores für die Ressource unter Verwendung des Sprachmodell-Scores und des Query-Stuffing-Scores; und Verwenden des berechneten Kauderwelsch-Scores, um zu bestimmen, ob ein Ranking-Score der Ressource modifiziert werden soll.

Es ist keine Überraschung, dass Google statistische Modelle für natürliche Sprache wie das hier beschriebene verwendet, um Inhalte zu identifizieren, die als minderwertig eingestuft werden könnten. Einen technischen Namen (Kauderwelsch-Inhalte) für diese Art von Inhalten zu haben, ist hilfreich, ebenso wie ein Patent, auf das man andere verweisen kann, wenn man die Gefahren der Erstellung von minderwertigen Inhalten durch den einen oder anderen Ansatz beschreibt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

9 − 5 =