Indexbereinigung: Google Hacking als SEO-Benefit

Sharing is caring <3Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedIn

indexbereinigung

Die Indexbereinigung ist ein Stiefkind des SEO. Ausgesprochen selten liest man in einschlägigen SEO-Blogs etwas darüber, welche Seiten man aus dem Index entfernen sollte. Ich persönlich halte das für einen groben Fehler. Daher möchte ich hier eine Lanze  brechen für das beherzte Durchfegen des Index. Und das ist nicht schwierig, betrachtet man die Vorteile der Großreinemachens.

Wir alle wollen doch nur das Eine: bei Google gut performen. Stellen wir uns nun also vor, der Google Index ist ein großes, blütenweißes Herrenhaus, in dem jedem Webmaster ein Zimmer zugeteilt wurde. Unser Ziel: der absolute Lieblingsmieter unseres Gutsherren werden. Ist es dann sinnvoll, dieses Zimmer mit Müll vollzukippen? Sollten wir nicht vielmehr versuchen, einen halbwegs ordentlichen Eindruck bei jedem Besucher (und eben dem Hausherrn) zu machen?

In diesem Artikel möchte ich allerdings nicht auf die vielbeschworenen dynamisch generierten Spam-Seiten, indexierten Suchergebnisseiten, Topic-Pages ohne echtes Topic und so weiter eingehen. Vielmehr geht es um ein Problem, das, im Gegensatz zum Index-Zublasen, unabsichtlich hervorgerufen wurde: das unbewusste Zumüllen des Index.

Hier ist Google Hacking extrem nützlich. Elaborierte Google-Abfragen wollen, mit reinem Gewissen betrieben, primär auf Sicherheitslücken hinweisen und aufzeigen, dass man z.B. davon absehen sollte, die Passwörter seiner User in den Index zu blasen. Gerne wird auch mal überprüft, welche Operatoren sich bei Google fehlerfrei miteinander kombinieren lassen und welche nicht. Doch auch für uns SEOs ist Google Hacking eine extrem hilfreiche Technik. Durch gezielte Abfragen lassen sich Schwachstellen im System aufdecken, die die Gesamtperformance der Seite schwächen können (Mehr dazu: Indexation Cap).

Bevor ich allerdings auf die einzelnen Abfragen eingehe, noch einmal der Hinweis: die robots.txt verhindert keine Indexierung! Ich denke, eigentlich wissen das alle von Euch, aber es schadet nicht, es noch einmal zu erwähnen. Wer noch nicht so genau bescheid weiß: hier gibts eine schöne Übersicht zum Thema. Bitte also über den Meta Tag noindex, das Canonical Tag oder die .htaccess arbeiten.

Hier nun einige ganz einfache Abfragen, die im Idealfall kein Ergebnis bei Google zurückliefern sollten (diese können gerne jeweils mit der site: Abfrage kombiniert werden, um gezielt Projekte durchzuchecken):

filetype:log
Logfiles haben im Index nicht verloren, werden aber immer mal wieder dort gefunden. Zugriffstatistiken, FTP-Protokolle, Fehlermeldungen etc. Kurzum: way too much information! Also raus damit! (BTW: so was sollte einfach nicht zu finden sein.)

filetype:xls, filetype:xlsx, filetype:doc, filetype:docx
Gerade im Umgang mit größeren Unternehmen und Websites von Bedeutung. Viel zu häufig sind Dateien auf dem Server zu finden, die einfach nicht für die Öffentlichkeit gedacht sind (und gerade die werden bevorzugt in Excel-Tabellen abgelegt). Und wer mal zuviel Zeit hat, kann sich durch site:google.com filetype:xls -inurl:base -inurl:code klicken, das ist zum Teil durchaus spannend :-)

Weitere Abfragen dieser Art wären z.B:
filetype:conf, filetype:txt, intitle:error, inurl:error

Um aber gezielter auf das SEO-Thema einzugehen, hier ein paar Abfragen, die mich immer wieder köstlich amüsieren:
intitle:seo, inurl:seo
Das macht natürlich ohne dazugehörige Site-Abfrage keinen Sinn, weil man nur bei seo-united.de landet :-) Aber bei Kundensites kann das sehr aufschlussreich sein – ja, die alten „SEO-Experimente“ sind noch im Index. Und dort gehören sie definitiv nicht hin!

Was außerdem im bereinigten Index nichts zu suchen hat:
intitle:login, inurl:login
Login-Sites. Definitiv noindex required.

inurl:https
Meist Ursache für Duplicate Content.

inurl:404
404-Seiten, die den Statuscode 200 zurückliefern.

inurl:2
Hier findet man Klassiker wie www2 oder Parameter-URLs. Diese lassen sich leider nicht direkt bei Google finden, da die Suchmaschine bei der Abfrage inurl:? streikt. Der Einsatz einer Zahl kann hier helfen.

Mehr fallen mir gerade nicht ein, ich bin mir aber sicher, dass ich diesen Artikel sukzessive erweitern werde, denn es ist manchmal wirklich unglaublich, was sich alles so im Google Index befindet. Und es gibt da draußen wirklich noch Leute, die denken, je mehr Sites im Index sind, desto größer sind die SEO-Chancen :-)

Und jetzt seid Ihr dran: welche Abfragen nutzt Ihr regelmäßig?

Wer mehr über Google Hacking erfahren will, sollte hier vorbeischauen:
http://www.hackersforcharity.org/ghdb/
http://gray-world.net/etc/passwd/googletut1.txt

Sharing is caring <3Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedIn

Author: Astrid Kramer

19 Kommentare

  1. Ich nehme in der Regel die einfache Site Abfrage und filtere dann mittels inurl bzw. intitle die sinnvollen Seiten raus. Oft kommen dann fiese Altlasten zutage und natürlich diverse xls, pdf und logs. Dank Deines Beitrags werde ich meine Vorgehensweise wohl etwas anpassen.

  2. Hallo Astrid,

    klasse Artikel und es ist schön, hier wieder mehr lesen zu können. Ich werde die Tage mal ein paar Tests mit deinen Abfragen machen – bin gespannt was ich so finden kann ;-)

    Viele Grüße aus Leipzig,

    André

  3. Danke für einen wiedermal sehr guten Artikel, liebe Astrid! Um regelmäßig zu prüfen, welche Seiten den Google-Index vollmüllen, könnten folgende Abfragen auch nützlich sein:

    – inurl:xml ==> indexierte XML-Sitemaps
    – inurl:beta ==> indexierte Relaunch-Seiten
    – inurl:test ==> indexierte Test-Seiten

    „Viel hilft viel“ stimmt hier eben nicht :)

  4. Danke! Warum bist Du nicht beim Wein-trinken?? :-) Das geht so nicht! Mach Feierabend und hab Wochenende!

  5. Musst du nichts ins Studio üben ? ;-)

  6. Interessanter Artikel – ich mach das über den Meta tag.

  7. Hallo Astrid,

    einfach feinii deine Auflistung! Woran ich immer noch knabbere sind Produktseiten aus Shop-Systemen, wenn ein langfristiges Top-Produkt durch ein anderes abgelöst wurde (neuer Name, neuen URL). Die alten Seiten stehen mir meistens noch viel zu lange im Index rum …
    Aber du wolltest ja auch nur über ungewollten „Müll schreiben ;-)

  8. Hi Marco,

    hier hilft einfach, wie so oft, die direkte und vor allem korrekte Kommunikation mit Google :-)

    Step 1: richtiger Statuscode. Das kommt drauf an, um welches Produkt es sich handelt. Es gibt es gar nicht mehr? Dann 404. Es kommt bald wieder? Dann 302. Es gibt was ähnliches? Dann 301. Hier immer die Serverlast berücksichtigen, das ist aber meist mit 301 kein Problem.

    Step 2: Irgendwas muss unbedingt sofort raus? Dann über die Webmastertools aussperren lassen.

    Step 3: XML-Sitemaps kontrollieren – übermitteln die noch alte Seiten, die wiederum einen 200er Statuscode zurückliefern? Wenn ja, dann raus damit! Es kann sogar helfen, eine Sitemap mit 404ern zu überliefern, um Google auf Trab zu bringen, kommt aber auf den konkreten Fall an.

    Step 4: Ganz schnelle Kommunikation: PubSubHubBub.

    Prinzipiell sagt Google Dir ja ganz freundlich über die Webmastertools, wo’s Probleme gibt. Dort einfach regelmäßig reinschauen und entsprechend reagieren :-)

    Schönes Wochenende!
    Astrid

  9. Ein sehr schöner Artikel, herzlichen Dank. Ich geh dann mal suchen ;-)

  10. Lieber SEOnaut, die SEO Band muss doch nicht proben! Proben – das ist so Neunziger! :-)

  11. Naja, über die robots.txt bekommt man auch ne Menge raus. Google reicht der robots.txt-Eintrag in vielen Fällen bereits um eine Seite über die Google Webmastertools rauszuschmeißen.

    Ansonsten ist auch die site:-Abfrage recht gut, denn sobald Google da auf der letzten Seite etwas ausblendet, kann man sicher sein, daß da Sachen im Index sind, die nicht reingehören.

    Ich denke mal rund 30 % aller bei Google indexierten Seiten sind solcher Kram, der eigentlich nicht reingehört und aus dem Index gelöscht werden kann ohne das es auffällt bzw. der Traffic des Seitenbetreibers drunter leidet. Teilweise hab ich es bereits erlebt, daß bis 80 % (!) der indexierten Seiten eigentlich nichts drin zu suchen hatten. Neuester Dummfug sind Bewertungsseiten für einzelne Produkte in Onlineshops, die fast komplett den gleichen Inhalt haben wie die Produktunterseite selbst. Damit produziert man sich ganz von alleine duplicate Content in Reinkultur.

  12. Üben? Hauptsache die Performance auf der SEOkomm Party stimmt… ;-)

  13. Danke, dass du das mal ansprichst. Vor 10 Jahren war es nicht unüblich alle projekt dateien mit auf dem server zu laden…

    PSD layouts werden auch noch gerne live gestellt…Sehr sinnvoll wenn man nur mal schnell ein backup machen will…

  14. zu

    >inurl:2

    hilft da nicht einfach „inurl:www2“ ?

  15. Nö :-) Dann wird danach gesucht, ob in der URL www2 vorkommt – ich will aber wissen, ob in der URL 2 bzw. am besten: 1-9 vorkommen. www2 als Subdomain kommt auch mal vor und ist dann natürlich ein Fehler, aber zur Identifikation von Parameter-URLs hilft oft diese Zahlengeschichte.
    Liebe Grüße!

  16. Hey Nerd in Skirt. Eins vorweg: I love u! :-) Tolle Zusammenfassung!

    Ergänzende Frage: wenn ich bei der inurl:https Abfrage über 50.000 Ergebnisse ausgeliefert bekomme, wie kann ich die noch selektieren? Oder soll ich tatsächlich ALLE mit noindex ausschließen lassen?

    1000Dank für kurze Antwort!!!

  17. Hi Nina,

    wie so oft im SEO: das kommt darauf an :)
    Sind es denn bestimmte Verzeichnisse? Dann kannst Du die per .htaccess auf „noindex“ setzen, das ist recht komfortabel und händisch bewältigbar (dann aber keinen robots.txt Disallow, dann crawlt Google auch den http-Header nicht ab!).
    Haben die URLs Parameter? Dann kannste das Parameter-Management in den Google Webmaster Tools nutzen.
    Sie es einfach http-Duplikate? Dann natürlich 301 von https auf http. (auch hier: kein robots.txt-Ausschluss)

    And so on… versuche gerade, mir alle Fälle vorzustellen, ist aber Sonntag morgen :D Kannst mir gerne den konkreten Fall nennen, dann schau ich mal…
    LG!

  18. Perfekt, vielen Dank für die schnelle Antwort (an einem Sonntag!) :-)

Kommentar absenden

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *