Kategorien
SEO

Bingbot

Erfahren Sie, wie Bingbot während der Entdeckungs-, Crawling-, Extraktions- und Indizierungsphasen arbeitet

Es scheint sicher zu sein, dass der Googlebot auf die gleiche Weise funktioniert
Bingbot und Googlebot funktionieren nicht bis ins kleinste Detail genau gleich. Aber nahe genug für:

Der Prozess ist genau derselbe: entdecken, crawlen, extrahieren, indexieren.
Der Inhalt, den sie indizieren, ist genau derselbe.
Die Probleme, mit denen sie konfrontiert sind, sind genau die gleichen.
Die Technologie, die sie verwenden, ist die gleiche.
Die Details, wie sie die einzelnen Schritte erreichen, werden sich also unterscheiden.

Aber Canel bestätigt, dass sie an Chromium zusammenarbeiten und das Crawling und Rendering standardisieren.

All das macht alles, was Canel über das Entdecken, Crawlen, Extrahieren und Indexieren durch Bingbot mitteilt, sehr aufschlussreich und super-hilfreich.

Entdecken, Crawlen, Extrahieren und Indizieren ist das Fundament einer jeden Suchmaschine
Offensichtliche Aussage, ich weiß.

Aber was für mich heraussticht, ist das Ausmaß, in dem dieser Prozess absolut alles, was folgt, untermauert.

Nicht nur, dass viele Inhalte ausgeschlossen werden, bevor sie von den Ranking-Algos überhaupt in Betracht gezogen werden, schlecht organisierte Inhalte haben auch einen erheblichen Nachteil, sowohl bei der Indizierung als auch bei der Behandlung durch die Algos.

Eine gute Organisation von Inhalten in logischen, einfachen Blöcken verschafft einen enormen Vorteil während des gesamten Prozesses – bis hin zur Auswahl, Position und Darstellung in den SERPs.

Gut strukturierte und gut präsentierte Inhalte steigen auf eine mechanische Art und Weise an die Spitze, die einfach zu verstehen ist und tief ermutigt.

Entdecken & Crawlen
Jeden Tag findet Bingbot 70 Milliarden URLs, die sie noch nie zuvor gesehen haben.

Und jeden Tag muss er allen gefundenen Links folgen und jede daraus resultierende Seite crawlen und abrufen, denn bevor er die Seite nicht abgerufen hat, hat er keine Ahnung, ob der Inhalt nützlich ist.

Inhalte vorfiltern
Und hier ist der erste interessante Punkt, den Canel mitteilt.

Die Filterung beginnt hier.

Seiten, von denen man annimmt, dass sie absolut kein Potenzial haben, bei der Beantwortung der Suchanfrage eines Nutzers in den Bing-Ergebnissen nützlich zu sein, werden nicht beibehalten.

Eine Seite, die wie Spam oder Duplikate aussieht, schafft es also gar nicht erst in den Index.

Aber Bingbot versucht nicht nur, spammige Seiten abzulehnen, sondern auch vorherzusagen, welche Links wahrscheinlich zu unbrauchbaren Inhalten führen werden.

Um vorherzusagen, ob ein bestimmter Link zu einem Inhalt führt, der wahrscheinlich wertvoll ist oder nicht, schaut er auf Signale wie:

URL-Struktur.
Länge der URL.
Anzahl der Variablen.
Qualität der eingehenden Links.
Und so weiter.
Ein Link, der zu nutzlosem Inhalt führt, wird als „toter“ Link bezeichnet.

Je besser das maschinelle Lernen wird, desto weniger dieser toten Links werden verfolgt, desto weniger nutzlose Seiten schlüpfen durch diesen frühen Filter und der Index verbessert sich.

CallRail verwandelt Daten in Aktionen.
Unsere auf Leads fokussierte Marketing- und Analyseplattform versorgt Sie mit den Daten, die Sie benötigen, um Erkenntnisse in Aktionen umzuwandeln. Fordern Sie noch heute Ihre 14-tägige kostenlose Testversion an.

CallRail kostenlos testen
WERBUNG
Die Algos müssen sich mit weniger „Spreu“ auseinandersetzen, was bedeutet, dass es für sie einfacher ist, die besten Inhalte zu identifizieren und diese den Kunden von Bing vorzusetzen.

Wichtig ist, dass Bing einen starken Fokus auf:

Reduzierung von Crawling, Rendering und Indizierung von Spreu (Geld sparen).
Reduzierung der Kohlenstoff-Emissionen (Canel besteht stark darauf).
Verbesserung der Leistung der Ranking-Algorithmen.
Generierung besserer Ergebnisse.
Links bleiben der Schlüssel zur Auffindbarkeit
Das größte Signal, dass eine Seite nicht wertvoll ist, ist, dass es keine eingehenden Links gibt.

Jede Seite braucht mindestens einen eingehenden Link – natürlich muss dieser Link nicht von einem Dritten kommen – es kann auch ein interner Link sein.

Aber, einmal entdeckt, werden sie nicht benötigt, da Bingbot ein „Gedächtnis“ hat
Bingbot behält jede URL im Speicher und kommt in unregelmäßigen Abständen zurück, auch wenn alle Links zu ihr entfernt wurden.

Das erklärt, warum Bingbot (und Googlebot) zurückkommen und gelöschte Seiten überprüfen, die keine eingehenden Links haben, sogar Monate nachdem die Seite und alle Verweise darauf entfernt wurden.

Ich hatte genau diese Situation auf meiner Website – alte Seiten, die ich vor 5 Monaten gelöscht hatte, kamen zurück und verfolgten mich (und Bing und Google!).

Warum?

Weil Bing der Meinung ist, dass jede URL plötzlich wieder zum Leben erwachen und wertvoll werden kann – zum Beispiel:

Geparkte Domains, die aktiv werden.
Domains, die den Besitzer wechseln und zum Leben erwachen.
Kaputte Links auf einer Website, die vom Besitzer korrigiert werden.
URL-Lebenszyklen sind ein ‚Ding‘ bei Bing
Es gibt eine Grenze: das, was Canel den „Lebenszyklus“ nennt.

Sobald dieser Lebenszyklus abgeschlossen ist, wird die URL nicht mehr aus dem Speicher gecrawlt – sie kann durch die Entdeckung eines eingehenden Links, eines Verweises in einem RSS-Feed, einer Sitemap oder einer Einreichung über ihre API wiederbelebt werden.

Canel besteht darauf, dass die Bereitstellung von RSS-Feeds und Sitemaps wichtige Werkzeuge sind, die uns dabei helfen, Bingbot und Googlebot nicht nur neue und wiederbelebte Inhalte zu entdecken, sondern auch „bekannte“ Inhalte effizient zu crawlen.

Noch besser ist es, die Indexierungs-API zu verwenden, da dies viel effizienter ist, sowohl bei der Entdeckung von Inhalten, als auch bei der Reduzierung von verschwendetem/redundantem Crawling, wodurch der Kohlenstoffausstoß reduziert wird.

In dieser Episode des Podcasts spricht er mehr darüber.

Auszug aus
Ich bin ein Fan von HTML5.

Es hat sich herausgestellt, dass, obwohl es theoretisch super-nützlich ist, weil es die Rolle identifiziert, die bestimmte Elemente einer Seite spielen, HTML5 selten gut implementiert ist.

Obwohl es also eine Struktur und Semantik bieten sollte, die Bots dabei hilft, Informationen aus einer Seite zu extrahieren, ist dies in den meisten Fällen nicht der Fall.

John Mueller von Google meinte, dass striktes HTML5 für Bots aus genau diesem Grund nicht unbedingt sehr nützlich sei.

Canel ist kategorisch der Meinung, dass jede standardisierte Struktur hilfreich ist.

Die korrekte Verwendung von Überschriften-Tags zur Identifizierung des Themas, der Unterthemen und der Unter-Unterthemen ist das Mindeste, was Sie tun können.

Auch die Verwendung von Tabellen und Listen ist einfach, aber wirkungsvoll.

Abschnitte, Randbemerkungen, Kopf- und Fußzeilen und andere semantische HTML5-Tags helfen Bingbot (und fast sicher auch Googlebot) und sind es wert, implementiert zu werden, wenn Sie können.

Ein kurzes Wort zu HTML-Tabellen.

Sie sind eine sehr mächtige Möglichkeit, Daten zu strukturieren – hören Sie nur auf, sie für das Design zu verwenden.

Über 80% der Tabellen im Web werden für das Design verwendet, aber Tabellen sind für die Darstellung von Daten gedacht, nicht für das Design… und das ist für eine Maschine sehr verwirrend. (Canel verwendet den Begriff „ablenkend“, den ich liebe, weil er den Bot menschlicher macht.)

Tun Sie Bingbot einen Gefallen und verwenden Sie eine Tabelle, um Daten wie die Planeten im Sonnensystem zu präsentieren.

Verwenden Sie DIV und CSS, um Inhalte innerhalb des Layouts der Seite zu positionieren.

Aber jede Systematisierung der Struktur ist eine Überlegung wert.

Wenn Sie ein maßgeschneidertes CMS bauen, verwenden Sie HTML5, um Bots beim „Verdauen“ zu helfen.

Ansonsten hilft jedes Standard-CMS, den Bots das Verdauen zu erleichtern.

Bei Standard-CMS-Systemen sehen sie immer wieder die gleiche Gesamtstruktur, und diese Wiederholung ist genau das, was maschinelles Lernen am besten in den Griff bekommt.

Es ist also eine Überlegung wert, Ihre Website mit einem beliebten CMS wie Joomla, Typo3 oder WordPress zu erstellen.

Unter dem Gesichtspunkt, Bots beim Extrahieren von Inhalten aus Ihren Seiten zu helfen, ist WordPress natürlich der beste Kandidat, da über 30 % der Websites mit WordPress erstellt werden.

Der Bot sieht auf jeder dritten Website, die er besucht, die gleiche Grundstruktur.

Und das führt sehr schön zu …

Bots und maschinelles Lernen
Es ist wichtig, sich daran zu erinnern, dass maschinelles Lernen jeden einzelnen Schritt im Discovery-Crawling-Extraction-Indexing-Prozess antreibt. Maschinelles Lernen ist also der Schlüssel.

Ein tiefes Verständnis der Seiten (Canels Begriff) und ein intelligentes, sich entwickelndes System für die Extraktion ist der Schlüssel für Bing, für Google und für Website-Betreiber.

Um Ihre Inhalte bestmöglich zu extrahieren und zu indexieren, benötigt ein Bot Muster im zugrunde liegenden HTML-Code.

Ein großer Vorteil für uns alle ist also, dass wir hart daran arbeiten, sicherzustellen, dass unsere eigenen Links, die Site-Struktur, die Seitenstruktur und der HTML-Code alle konsistent sind… und wenn möglich, konsistent mit Standards, die auch außerhalb unserer eigenen Site gelten.

Aber… alle Sites werden gleich sein
Es mag den Anschein erwecken, dass der Aufbau einer Site mit der gleichen Struktur wie mehrere andere Sites im Web bedeutet, dass sie alle ineinander übergehen. Das ist aber nicht der Fall.

Das Design ist unabhängig von der HTML-Struktur. Und genau das ist der Sinn von HTML5 – das Design von der Semantik zu entkoppeln. Dieser Artikel behandelt diesen Punkt.

Die Struktur wird nicht exakt die gleiche sein (sehr kleine Sites mit nur einem halben Dutzend Seiten werden akzeptiert).

Und selbst wenn sie es ist, warum sollte das eine Rolle spielen?

Der Inhalt, den Sie erstellen, ist einzigartig (so möchte man hoffen). Selbst wenn Sie über dasselbe Thema sprechen, werden keine zwei Marken das Gleiche sagen.

Wenn Sie also WordPress verwenden und ein beliebtes Theme wählen, erfüllen Sie alle Kriterien für die Bots… und dennoch werden Ihr Design, Ihre Struktur und Ihr Inhalt für Ihr Publikum einzigartig sein.

Sie gewinnen an beiden Fronten.

Kurz gesagt, wenn Sie kein großes Unternehmen mit einem großen Budget sind, ist es oft eine gute Wahl, sich an ein beliebtes Template auf einem gängigen CMS zu halten, da diese, weil sie gängig sind, von allen Suchmaschinen nativ verstanden werden.

Ihr Inhalt ist einzigartig, und Sie können die visuelle Präsentation mit einfachem CSS komplett einzigartig verändern.

Denken Sie nur daran, sich an die CSS-Standards zu halten und nicht am CMS-Kern oder dem zugrunde liegenden HTML herumzupfuschen, um Bingbot und Googlebot nicht zu verwirren.

Google & Bing arbeiten zusammen
Beide Bots verwenden Chromium. Es ist wichtig, sich daran zu erinnern, dass Chromium ein Open-Source-Browser ist, der nicht nur Chrome, sondern auch Opera… und einigen anderen Browsern zugrunde liegt.

In diesem Zusammenhang ist es wichtig, dass Bingbot nicht nur Ende 2019 auf die Chromium-Version von Edge umgestiegen ist, sondern auch Googlebot folgt, um Evergreen zu werden.

Mehr noch, Canel sagt, dass Bing und Google jetzt eng zusammen an Chromium arbeiten. Es ist seltsam, sich das vorzustellen. Und leicht zu vergessen.

Canel deutet an, dass es im Interesse beider Unternehmen ist, zusammenzuarbeiten – sie versuchen, genau die gleichen Inhalte mit dem gleichen Ziel zu crawlen.

Angesichts des Umfangs (und der Kosten) haben sie jedes Interesse an einer Standardisierung (dieses Wort kommt einfach immer wieder!).

Sie können nicht erwarten, dass Website-Betreiber für verschiedene Bots unterschiedlich entwickeln. Und jetzt, nach all diesen Jahren, scheint das eine Realität zu sein.

Zwei große Crawler, die beide den gleichen Browser verwenden und beide Evergreen sind. Ist die Entwicklung von Websites gerade viel einfacher geworden?

Die Übernahme von Edge durch Bingbot wird das Leben für die SEO-Community einfacher machen, da wir das Rendering nur noch einmal testen müssen.

Wenn eine Seite in Edge gut gerendert wird, wird sie auch in Chrome gut gerendert, sie wird für Googlebot gut gerendert und sie wird für Bingbot gut gerendert. Und das sind wunderbare Neuigkeiten für uns alle.

Zur Info, seit dem 15. Januar 2020 ist die öffentlich vertriebene Version von Microsofts Browser Edge auf Chromium aufgebaut.

Also, nicht nur unsere Browser sind jetzt größtenteils auf dem gleichen Basiscode aufgebaut, sondern auch die beiden großen Suchmaschinenbots.

Extrahieren für Rich Elements
Das Wachstum von Rich Elements/Darwinismus in der Suche war der Ausgangspunkt für diese Serie.

Und eine Sache, die ich wirklich verstehen wollte, ist, wie das vom Standpunkt der Indizierung aus gesehen funktioniert.

Wie halten Bing und Google ein Indexierungssystem aufrecht, das all diese SERP-Funktionen bedient?

Beide Bots sind sehr gut darin geworden, die Teile/Blöcke einer Seite zu identifizieren und herauszufinden, welche Rolle sie spielen (Kopfzeile, Fußzeile, Seiten, Menü, Nutzerkommentare, etc.

Sie können genau und zuverlässig spezifische, präzise Informationen aus der Mitte einer Seite extrahieren, selbst in Fällen, in denen das HTML schlecht organisiert ist (aber das ist keine Entschuldigung für Faulheit).

Auch hier ist das maschinelle Lernen von entscheidender Bedeutung.

Es ist der Schlüssel für ihre Fähigkeit, dies zu tun. Und das ist es, was das phänomenale Wachstum von Rich-Elementen untermauert, das wir in den letzten paar Jahren gesehen haben.

Es kann nützlich sein, einen Schritt zurückzutreten und die Anatomie der SERPs heute im Vergleich zu vor einem Jahrzehnt zu betrachten.

Rich-Elemente haben einen wichtigen Platz in den modernen SERPs eingenommen – bis zu dem Punkt, an dem man sich kaum noch an die Tage erinnern kann, als wir SERPs mit nur 10 blauen Links…. featureless-SERPs hatten.

Indizierung/Speicherung
Die Art und Weise, wie Bingbot die Informationen speichert, ist absolut entscheidend für alle Ranking-Teams.

Jeder Algo verlässt sich auf die Qualität von Bingbots Indexierung, um Informationen zu erhalten, die sie in die Ergebnisse einfließen lassen können.

Der Schlüssel ist die Annotation.

Das Team von Canel kommentiert die Daten, die sie speichern.

Sie fügen dem HTML eine reichhaltige Beschreibungsebene hinzu.
Sie beschriften die Teile: Überschrift, Absatz, Medien, Tabelle, Seite, Fußzeile, usw.
Und es gibt einen (sehr einfachen) Trick, der es ihnen ermöglicht, Inhalte in einem geeigneten, oft reichhaltigen Format aus der Mitte einer Seite zu extrahieren und in der SERP zu platzieren.

Standards sind der Schlüssel zur effektiven Beschriftung
Ein praktischer Tipp: Aus dem, was Canel vorhin sagte, wenn Ihr HTML einem bekannten System folgt (wie z. B. streng korrektes HTML5 oder Gutenberg-Blöcke in WordPress), dann wird die Beschriftung genauer, granularer und „brauchbarer“ für die verschiedenen Rich-Elemente sein.

Und da Ihre Inhalte leichter zu verstehen sind und leichter aus dem Index extrahiert werden können, verschafft das Ihren Inhalten von Anfang an einen entscheidenden Vorteil.

Rich Annotations
Canel verwendet den Begriff „reichhaltig“ und spricht von „vielen Features“, was stark darauf hindeutet, dass diese Beschriftung/Annotation umfangreich ist.

Bingbot hat einen enormen Einfluss darauf, wie Inhalte von den Ranking-Algorithmen wahrgenommen werden.

Ihre Annotation macht den Unterschied aus, wie Ihr Inhalt von den verschiedenen SERP-Feature-Algos wahrgenommen, ausgewählt und angezeigt wird.

Wenn Ihre Inhalte bei der Indizierung durch den Bingbot unzureichend annotiert werden, haben Sie ein sehr ernsthaftes Handicap, wenn es darum geht, in einer SERP zu erscheinen – egal ob es sich um blaue Links, Featured Snippets, News, Bilder, Videos… handelt.

Die Strukturierung Ihrer Inhalte auf Blockebene ist also unerlässlich.

Die Verwendung eines standardisierten, logischen Systems und die Beibehaltung dieses Systems auf Ihrer gesamten Website ist der einzige Weg, um Bingbot dazu zu bringen, Ihre Inhalte in brauchbaren Blöcken zu annotieren, wenn er die Seite in der Datenbank speichert…

Und das ist die Grundlage dafür, ob ein Stück Inhalt in den SERPs lebt oder stirbt – sowohl in Bezug darauf, dass er als potenzieller Kandidat in Betracht gezogen wird, als auch wie und wann er angezeigt wird.

Jedes Ergebnis, ob Blue Link oder Rich Element, basiert auf der gleichen Datenbasis
Das gesamte System des Rankings und der Anzeige von Ergebnissen, unabhängig vom Format des Inhalts oder der SERP-Funktion, beruht auf dem Verständnis des Internets, der Verarbeitung des Internets und der Speicherung des Internets durch das Canel-Team.

Es gibt nicht mehrere Entdeckungs-, Auswahl-, Verarbeitungs- oder Indexierungssysteme für das Featured Snippet / Q&A, Videos und Bilder, Nachrichtenkarussells usw.

Alles wird zusammengeführt und jedes Team extrahiert das, was es braucht, aus dieser einen Quelle.

Die Fähigkeit der Kandidatensets, ihre Liste von Kandidaten auszuwählen, zu analysieren und dem gesamten Seitenteam zu präsentieren, hängt von den Annotationen ab, die Bingbot zu den Seiten hinzufügt.

Darwinismus in der Suche ist gerade interessanter geworden
Ja, die Ranking-Algos sind darwinistisch, wie Gary Illyes beschrieben hat, aber der Inhalt einiger Seiten hat von Anfang an einen ernsthaften Vorteil.

Fügen Sie Handles hinzu, um Ihren Inhalten einen unfairen Vorteil zu verschaffen
Nach meinem Verständnis sind die „reichhaltige Schicht von Anmerkungen“, von der Canel spricht, die Handles, die Cindy Krum in ihrer Fraggles-Theorie verwendet.

Wenn wir einfach zu identifizierende Handles in unserem eigenen HTML hinzufügen, dann werden die Annotationen: genauer, granularer und wesentlich hilfreicher für die Algorithmen für die verschiedenen Kandidatensätze.

HTML-„Handles“ auf Ihren Inhalten geben diesen einen Vorsprung im Leben in der darwinistischen Welt der SERPs.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.