rankingCHECK
MENÜ

Crawling und Indexierung von Webseiten: Theorie und Praxis

Bei der Erstellung und Optimierung von Webseiten muss, sofern die Seiten in den organischen Suchergebnissen erscheinen sollen, darauf geachtet werden, dass diese gut gecrawlt werden können, damit alle relevanten Inhalte im Index der Suchmaschinen landen. Grundsätzlich kann ein Crawler nur Inhalte indexieren, die er auch finden kann. Deswegen sollte eine Seite immer eine möglichst flache Hierarchie und eine durchdachte interne Verlinkung aufweisen. Setzt Euch intensiv mit dem Thema Crawling und Indexierung auseinander, um die Suchmaschinen bestmöglich mit relevanten Inhalten zu füttern.

Crawling

Als Crawling wird die Identifizierung von öffentlich zugänglichen Webseiten durch spezielle Software verstanden. Der bekannteste Crawler ist der Googlebot, der für die Suchmaschine Google das Internet nach allen verfügbaren Seiten durchsucht. Dazu ruft ein Crawler Webseiten auf und folgt allen internen und externen Verlinkungen, um möglichst viele Seiten zu indexieren.

Indexierung

Die durch das Crawling erfassten Daten werden von Suchmaschinenbetreibern indexiert und damit den Suchmaschinen zur Verfügung gestellt. Der Index ist hierbei die Speicherung aller gecrawlten Seiten, die nicht von den Webseitenbetreibern ausgeschlossen wurden bzw. von den Suchmaschinen als irrelevant betrachtet werden. Der Index bildet die Datengrundlage, auf die bei einer Suchanfrage durch einen Nutzer zurückgegriffen wird. Diese Suchanfrage setzt dann einen komplexen Algorithmus in Gang, um die bestmöglichen Ergebnisse ausliefern zu können.

Crawling-Budget

Für Internetauftritte mit wenigen Seiten und/oder Webseiten, deren URLs ohnehin in der Regel am ersten Tag indexiert werden, ist das Thema Crawling-Budget nur untergeordnet wichtig. Für große Seiten mit mehreren Tausend oder Millionen URLs ist es hingegen wichtig das Crawling-Budget zu optimieren. Doch was versteht man unter einem Crawling-Budget und was ist eigentlich die Crawling-Frequenz oder der Crawling-Bedarf?

Vereinfacht gesagt handelt es sich beim Crawling-Budget um die Anzahl der URLs, die der Bot auf einer Seite crawlen kann und crawlen will. Dieses Budget setzt sich aus der Crawling-Frequenz (Können) und dem Crawling-Bedarf (Wollen) zusammen.

Unter der Crawling-Frequenz versteht man die Anzahl der Anfragen pro Sekunde, die der Bot während des Crawlings auf einer Seite ausführt. Hierbei gilt: Je schneller die Ladezeit ist und je weniger Serverfehler vorhanden sind, desto höher ist die Frequenz. Eine technische Optimierung der Seite wirkt sich somit als klar positiv auf die Crawling-Frequenz aus.

Suchmaschinen-Bots crawlen bevorzugt Seiten, die beliebt sind. Die Beliebtheit wird hier durch eine Reihe von Faktoren wie Verlinkung, Aufenthaltsdauer und Absprungrate bestimmt. Seiten, die als weniger beliebt und/oder veraltet eingestuft werden, werden seltener oder gar nicht gecrawlt. Der Crawling-Bedarf ist also ein Wert, der einschätzt wie wichtig es für einzelne Seiten ist regelmäßig gecrawlt zu werden oder eben nicht. Seiten mit geringem Mehrwert wirken sich negativ auf Crawling und Indexierung aus, wodurch gute Inhalte erst später gefunden werden. Geringer Mehrwert bedeutet im Einzelnen: Duplicate Content, Soft-404-Fehler, Spam und Seiten ohne Mehrwert. Es ist also eine komplexe Optimierung von verschiedenen Faktoren erforderlich, um an beiden Stellschrauben zu drehen.

Steuerung des Crawlings

Neben passiven Einflüssen wie der Seitenperformance (Ladegeschwindigkeit, Serverfehler etc.), hat ein Webmaster die Möglichkeit das Crawling aktiv zu beeinflussen. Dies geht auf sehr verschiedene Arten und Weisen.

Search Console

In der Search Console kann man beispielsweise URL-Parameter ausschließen und die Crawling-Frequenz reduzieren.

URLs mit bestimmten Parametern schließt man unter „Crawling“ – „URL-Parameter“ aus. Dies ist praktisch, um beispielsweise Filter-URLs, die durch Sucheinstellungen auf der Webseite generiert werden, von der Indexierung auszuschließen. Wichtig ist hierbei zu erwähnen, dass 1. diese Einstellungen nur für Google, nicht jedoch für andere Suchmaschinen gelten und 2. das Problem im Idealfall natürlich mithilfe anderer Mittel (robots.txt, noindex, Canonicals) oder der Vermeidung der Generierung von Filter-URLs auf der Webseite behoben werden sollte, sodass die Notlösung über die Google Search Console gar nicht erst notwendig wird.

Unter „Website-Einstellungen“ kann zudem eine maximale Crawling-Frequenz eingestellt werden. Hierbei können Werte von wenigen Anforderungen bis zu vielen Anforderungen pro Sekunde ausgewählt werden. Die Crawling-Frequenz sollte nur beschränkt werden, wenn Google den Server der Seite verlangsamt. Achtung: Diese Einstellung ist nur 90 Tage gültig und muss dann erneut vorgenommen werden. Auch hier gilt: dies ist nur eine Notlösung! Wenn Crawler den Server der Seite verlangsamen, sollten unbedingt Optimierungen an der Serverleistung vorgenommen werden.

Robots.txt

Mithilfe einer robots.txt, die immer im Root-Verzeichnis einer Domain (www.beispiel.de/robots.txt) liegen muss, kann man Crawlern verschiedene Anweisungen geben:

  • Einzelne Crawler von der ganzen Seite oder einzelnen Verzeichnissen ausschließen
  • Einen Verweis auf die Adresse einer oder mehrerer XML-Sitemaps geben

Die Befehle einer robots.txt sind nur eine Empfehlung und werden nicht zwingend von Suchmaschinen berücksichtigt. Ausführliche Informationen zu den Möglichkeiten einer robots.txt findet Ihr unter: robots.txt – Was ist das und wie wende ich diese an?

Noindex

Der Meta-tag „noindex“ wird im <head> Bereich einer Seite implementiert und sieht wie folgt aus: <meta name=“robots“ content „noindex“ />. Es wird Crawling-Budget verbraucht, wenn eine solche Seite aufgerufen wird, wird die Seite jedoch nicht indexiert. Die noindex-Anweisung ist verbindlich, das heißt, die Seite wird nach dem nächsten Crawling aus dem Index der Suchmaschinen genommen.

Nützlich sind solche Tags beispielsweise bei folgenden Seiten:

  • Paginierte Seiten
  • URLs mit Parametern durch z.B. Filterfunktionen
  • Suchergebnisseiten

Canonicals

Anders als die noindex-Anweisung sind Canonicals nicht bindend für Suchmaschinen, das heißt es gibt keine Garantie, dass Suchmaschinen den Empfehlungen folgen.

Canonicals sehen wie folgt aus:  <link rel=“canonical“ href=“url „/> und werden ebenfalls im Header einer Seite implementiert.

Anders als die noindex-Anweisung geht es hier nicht darum eine Seite aus dem Index zu nehmen, sondern man spricht eine Empfehlung aus, welche URL anstelle der gerade aufgerufenen Seite indexiert werden soll.

Dies ist zum Beispiel praktisch bei einem Online Shop, wenn durch Filterfunktionen Duplicate Content von Kategorie-Seiten entsteht.

Praktisches Beispiel: Duplicate Content durch Parameter-URLs vermeiden

Es gibt eine Kategorie-Seite: https://www.beispiel-shop.de/kategorie

Und mehrere Filter-URLs, wie z.B. diese:

  • https://www.beispiel-shop.de/kategorie?filter-farbe
  • https://www.beispiel-shop.de/kategorie?filter-preis

Dadurch entsteht Duplicate Content, weil alle drei URLs bis auf die angezeigten Produkte identisch sind (Meta Daten, Überschrift, Text etc.). Hier einige Vor- und Nachteile der vier verschiedenen Varianten:

Search Console:

Vorteile:

  • Funktioniert verbindlich bei Google

Nachteile:

  • Relativ komplizierte Konfiguration
  • Gilt nur für Google, hat keine Relevanz für andere Suchmaschinen

robots.txt

Vorteile:

  • Gültig für alle Suchmaschinen

Nachteile:

  • Nur eine Empfehlung, ist nicht verbindlich

noindex

Vorteile:

  • Verbindliche Methode, um Seiten aus dem Index zu kriegen
  • Gültig für alle Suchmaschinen

Nachteile:

  • Kein Verweis auf die relevante (kanonische) Seite möglich

Canonical

Vorteile:

  • Gültig für alle Suchmaschinen
  • Verweis auf relevante Seite, in diesem Fall die Kategorie-Seite

Nachteile:

  • Nur eine Empfehlung, wird meistens übernommen, jedoch nicht immer

In diesem Fall würde ich die Filter-URLs auf noindex setzen. Damit ist gewährleistet, dass nur die Kategorie-Seiten im Index erfasst werden und es keinen Duplicate Content gibt.

Hierzu gibt es jedoch zwei Alternativen.

Erstens kann man CMS-Systeme so einstellen, dass sich durch die Filterung nicht die URL ändert. Dies ist jedoch nur bei wenigen CMS-Systemen möglich und setzt umfangreiches technisches Know-how voraus.

Zweitens gibt es die Möglichkeit einzelne Filterseiten zu optimieren.

Anstatt eine URL (Beispiel: https://www.beispiel-shop.de/kategorie?filter-farbe) auf noindex zu setzen, kann man sie auch mit einem individuellen Title Tag, einer Meta Description, einer H1-Überschrift und einem spezifischen Text versehen. Damit ist die Seite kein Duplikat der eigentlichen Kategorie-Seite mehr und die Seite kann sogar zusätzlich verlinkt und zur Generierung von Rankings genutzt werden. Auch diese Möglichkeit hängt maßgeblich vom CMS und der verwendeten Technik ab.

Fazit

Es ist für Webseitenbetreiber sehr wichtig, das Crawling der Suchmaschinen zu lenken und die Indexierung der einzelnen URLs zu steuern. Es gibt eine Vielzahl von Möglichkeiten dies zu tun, angefangen mit einer schlanken, flachen Seitenhierarchie bis hin zur Sperrung einzelner Seiten für den Index. Die theoretischen Grundlagen habe ich in diesem Artikel erläutert und an dem Beispiel eine mögliche Umsetzung gezeigt. Das Thema ist sehr komplex und je nach Anwendungsfall müssen individuelle Lösungen mit dem Ziel relevante URLs in den Index zu bekommen ausgearbeitet werden und nicht-relevante URLs bzw. Duplikate aus dem Index herausgehalten werden.

Robert Zimmermann ist Senior Consultant SEO bei rankingCHECK und schreibt über alle Themen, die mit Suchmaschinenoptimierung zu tun haben. Privates gibt es unter robert-zimmermann.net

5 / 5 (1 votes)

Schreibe einen Kommentar

Loading Facebook Comments ...

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

Loading Disqus Comments ...