Ein Web Crawler ist ein Computerprogramm, welches das World Wide Web ganz automatisch nach Daten und Informationen auf unzähligen von öffentlichen Websites in der ganzen Welt durchsucht, diese Inhalte nach Merkmalen sortiert und in einem Index speichert. Dieser automatisierte Vorgang (auch Crawling genannt) wiederholt sich andauernd, denn auch bereits gefundene Webseiten werden vom Web Crawler immer wieder besucht, um Veränderungen festzustellen und so den Index einer Suchmaschine wie Google (auch Search Engine genannt) dauerhaft aktuell zu halten. So werden neue Seiten dem Index hinzugefügt oder im Internet nicht mehr vorhandene URLs aus diesem entfernt. Crawler werden auch Bots, Searchbots, Spider, Suchmaschinenbots, oder Robots genannt. Web Crawler analysieren den Content (Inhalte einer Website) und finden für die Suchmaschine heraus, worum es auf einer Internetseite genau geht.
Auch die Suchmaschine Google mit einem Suchindex von Milliarden an Websites hat natürlich Web Crawler, welche man unter anderem Googlebots nennt. Diese Robots werden für unterschiedliche Zwecke eingesetzt, beispielsweise der Googlebot für Computer oder der Bot für Smartphones. Es gibt darüber hinaus noch viele weitere Crawler, wie den Googlebot für Bilder oder den Bot für News. Der Crawler für Computer zum Beispiel simuliert bei einem Crawl einen Nutzer, der mit einem Computer eine Suchanfrage stellt. Der Smartphone-Crawler hingegen simuliert bei einem Crawl einen Nutzer, der mit einem Mobilgerät unterwegs auf eine Website zugreift.
Da heute bereits sehr viele Menschen mobil im Internet unterwegs sind und diese Nutzungsweise des Internets in Zukunft noch viel mehr zunehmen wird, hat die Suchmaschine Google bereits vor einiger Zeit die Mobile-First-Indexierung implementiert. Somit wird die mobile Version einer Website für die Indexierung und das Ranking der hauptsächlich mobil-suchenden Nutzer vorrangig herangezogen und in den Suchergebnissen präsentiert.
Wurde Ihre Internetpräsenz bei Google auf Mobile-First umgestellt, so wird diese hauptsächlich vom mobilen Googlebot und nur noch zu einem kleinen Teil vom Computer-Googlebot besucht. Daher sind schnelle Ladezeiten und eine mobilfreundliche Darstellung Ihrer Website-Inhalte einerseits für das Ranking Ihrer Webseiten in der Google-Suche und andererseits für ein tolles Nutzererlebnis besonders wichtig.
Der Robot, wie auch der Googlebot, durchsucht während des Crawlings das Internet. Er beginnt mit einer bestimmten Auflistung von Websites und folgt dabei den darauf veröffentlichten Links, die auf den Internetseiten eingebunden sind, von einer zur nächsten Website. Zu dieser Auflistung gehören einerseits bereits bekannte Internetseiten vorhergehender Crawling-Vorgänge und andererseits Webseiten, die von Webseiteninhabern per Sitemap über die Google Search Console eingereicht wurden. Jede Website hat allerdings ein bestimmtes Crawling-Budget, denn es ist festgelegt
durch die Bots besucht werden. Unsere Empfehlung an dieser Stelle: Mit einer Optimierung Ihrer Navigation sowie der Struktur Ihrer Internetseite und der Bereinigung von Fehlerseiten können Sie das Crawling-Budget Ihrer Webpräsentation viel besser ausnutzen.
Bei einer Suchanfrage eines Nutzers greift Google auf seinen Suchindex zurück, der diese ganzen gesammelten Informationen der Webcrawler beinhaltet. Ein Suchalgorithmus vergleicht diese Informationen unter vielen verschiedenen Gesichtspunkten sowie nach definierten Qualitätsmerkmalen und spielt die Ergebnisse schlussendlich nach Relevanz für den Suchenden aus.
Suchmaschinen wie Google verwenden somit Webcrawler, um möglichst alle Webseiten inklusive ihrer Inhalte zu erfassen und diesen Content in den Suchindex aufzunehmen. Denn Suchmaschinenanbieter möchten Ihren Nutzer für eine Suchanfrage immer das beste Ergebnis liefern – User sollen genau das finden, was sie suchen.
Natürlich ist es auch möglich, einem Web Crawler, beispielsweise zum Schutz Ihrer Daten, zu untersagen eine bestimmte URL, spezifische Dateien oder einen Bereich einer Website zu besuchen. Ebenso können dem Web Crawler Anweisungen erteilt werden, ob eine Seite in den Index einer Suchmaschine aufgenommen (indexiert) werden soll oder nicht. Bei jedem Webprojekt gibt es schließlich Bereiche, bei denen eine Seitenindexierung oder das Crawling bestimmter Seiten keinen Sinn macht. All diese Maßnahmen fallen in den Bereich der Suchmaschinenoptimierung von Websites – auch SEO (Search Engine Optimization) genannt.
Mit korrekten Crawler-Anweisungen, als eine vieler sinnvoller SEO-Maßnahmen, ist es möglich, dass sich der Web Crawler nur auf Ihre wichtigen Inhalte konzentriert und auch nur gewünschte Urls in den Suchergebnissen ausgeliefert werden. Seriöse Web Crawler, wie auch der Googlebot, respektieren und befolgen diese Anweisungen. Leider gibt es aber auch unseriöse Web Crawler im Internet, die keine Rücksicht auf Ihre Anweisungen nehmen. Daher sollten Sie sensible Informationen, auf die unter keinen Umständen zugegriffen werden soll, grundsätzlich mit geeigneten Sperrmethoden, wie zum Beispiel einem Passwortschutz auf Ihrem Server, verwalten.
Über die robots.txt-Datei steuern Sie zum Beispiel den Crawling-Traffic Ihrer Webseite und teilen den Robots mit, welche Ihrer Web-Pages oder Dateien dieser anfordern darf und vor allem auch welche nicht. Da es neben Google selbstverständlich auch noch andere Suchmaschinen, wie beispielsweise Bing gibt, werden über die robots.txt-Datei alle Anweisungen in Datensätzen für die unterschiedlichsten Bots übermittelt. Über Meta-Tags steuern Sie demgegenüber, ob Ihre Seite in den Suchindex aufgenommen (index) werden soll oder nicht (noindex).
Als Unternehmen haben Sie sicher ein großes Interesse daran, dass Ihr Content – also Inhalte wie Firmeninformationen, Produktbeschreibungen, Angebote oder auch Presseinformationen und andere News, die Sie auf Ihren Seiten präsentieren – von Suchenden bei Google und Co. im Internet gut gefunden werden. Die jeweiligen Suchmaschinenplatzierungen haben somit Einfluss auf den Traffic Ihrer Webseite. Umso höher Sie in den Suchmaschinenergebnissen vertreten sind, umso mehr Besucher werden Sie auf Ihren jeweiligen Zielseiten verzeichnen, wenn Ihr Content der Suchintention des Nutzers entspricht und hilft, die Frage des Suchenden zu beantworten oder das Gesuchte zu finden.
Ihre Webseiteninhalte müssen allerdings für eine Aufnahme in die Suchergebnisse und für hohe Platzierungen bestimmte Qualitätskriterien erfüllen, den Richtlinien der jeweiligen Suchmaschinen entsprechen, absolut relevant, einzigartig, optimal aufbereitet sowie zugänglich sein und die richtigen Anweisungen zur Indexierung senden. Die letzten beiden Punkte betreffen den Web Crawler.
Bei der Suchmaschinenoptimierung ist für die Indexierung und das Crawling absolut wichtig, dass eine Seite, die Sie in den Suchergebnissen wünschen, nicht für Webcrawler blockiert wird oder versehentlich auf „noindex“ steht. Ebenfalls ist es auch möglich, dass Ihr Inhalt im Vergleich zu vielen anderen Internetseiten nicht relevant genug für die Suchanfrage ist oder Ihre Webpräsenz im Technikbereich nicht fehlerfrei programmiert wurde.
Welche Ursachen und Fehler zugrunde liegen, warum Ihre URL nicht in den Suchergebnissen zu finden ist, kann in einer SEO Analyse ans Tageslicht gebracht werden.
Damit ein Web Crawler alle URLs Ihrer Webpräsenz finden und zuordnen kann, sollten alle Inhalte, die für Ihre Suchmaschinenoptimierung wichtig sind, ohne Umwege einfach und übersichtlich zu finden sein. Verlinken Sie also interne Seiten sinnvoll miteinander und halten Sie Ihre Navigation nutzerfreundlich. Dies hilft auch Ihren Besuchern, sich optimal auf Ihren Webseiten zurechtzufinden und weiterführenden Content zu entdecken.
Eine Webseite, die über einzigartige und qualitativ hochwertige Inhalte verfügt, wird gern auch von anderen Internetseiten erwähnt. Diese Links von anderen Websites, welche auf Ihre verweisen, nennt man Backlinks.
Über diese erhalten Sie Besucher und Traffic sowie positive Signale für die Relevanz Ihrer Website. Umso mehr Relevanz Ihr Content hat, umso größer ist die Wahrscheinlichkeit, dass Ihre URL indexiert wird und die Rankings steigen. Die Crawler werden Ihre Seite daraufhin voraussichtlich öfter und länger besuchen – das Crawling-Budget erhöht sich – und somit gelangen auch Content-Aktualisierungen schneller in den Suchmaschinenindex.
Achten Sie jedoch stets darauf, dass Sie nur thematisch passende und qualitative Backlinks erhalten. Backlinks beispielsweise von themenfremden Websites oder im schlimmsten Fall auch Spamseiten bringen keine Vorteile für Ihre Unternehmenswebseite und können sogar negative Auswirkungen haben.
Mit den richtigen Anweisungen an Webcrawler können Sie die Indexierung und das Crawling Ihrer einzelnen Seiten individuell steuern. Sie haben Fragen zum Thema Webcrawler, möchten Ihre Seite für Google optimieren oder benötigen technische Unterstützung in diesem Bereich? Dann nehmen Sie gleich Kontakt zu uns auf. Wir helfen Ihnen als erfahrene Internetagentur gern kompetent weiter.
Mein Name ist Mark-Oliver Müller und ich helfe Ihnen sehr gern weiter.