Googlebot nervt!

In this board you can talk about general questions about phpMyFAQ

Moderator: Thorsten

Post Reply
obreitfelder

Googlebot nervt!

Post by obreitfelder »

Hallo Allerseits!

Trotz beschneidender robots.txt müllt der Googlebot meine Sessions-Anzeige zu. Die Statistik ist damit nutzlos. Der Googlebot kommt alle 2-4 Minuten auf die Seite. Den ganzen Tag lang und erzeugt jedes Mal eine Session. Was kann man dagegen tun oder muss ich einfach damit leben?


Ciao Oli :)
Thorsten
Posts: 15568
Joined: Tue Sep 25, 2001 11:14 am
Location: #phpmyfaq
Contact:

Post by Thorsten »

Hi,

wo liegt denn die robots.txt?

bye
Thorsten
phpMyFAQ Maintainer and Lead Developer
amazon.de Wishlist
obreitfelder

Post by obreitfelder »

Thorsten wrote:Hi,

wo liegt denn die robots.txt?

bye
Thorsten
EIne identische robots.txt, die sämtliche Unterverzeichnisse ausschließt und nur ein Indexing von index.php vorsieht, liegt sowohl im Unterverzeichnis (gleich Ebene wie index.php) als auch im Root der Domain (Second-Level-Ebene).

So wirklich scheint es nicht zu nützen. Ich könnte nur noch auf der index.php in Richtung NOFOLLOW noch Änderungen vornehmen. Aber warum kommt der Bot ständig wieder? :?: Hm.


Ciao Oli
obreitfelder

Post by obreitfelder »

Könnte ich denn die Eintragung einer Session für bestimmte IPs (Negativliste) verhindern? Also dass die gar nicht mehr geloggt werden?


Ciao Oli
jr-ewing
Posts: 37
Joined: Sun Jul 10, 2005 6:52 pm
Location: Germany
Contact:

Post by jr-ewing »

Hallo,

ich hab dazu ein paar Fragen:

Ich versteh nicht ganz was du eigentlich machen willst:

willst du Google von deiner Seite aussperren ? -
du weißt schon das dann die Seiten bei der Suche nicht mehr erscheinen ?
Genau das erreichst du auch mit "noindex" in den Meta Tags

Um IPs bei den Sessions nicht anzuzeigen müsstest du alle Google IPs kennen und das weiß keiner ! Wenn du Listen im Netz findest sind die auf jeden Fall unvollständig !!! Eine Möglichkeit wäre nur eine Session zu starten wenn im User Agent "googlebot" vorkommt. So wird das z.B. im XTCommerce oder anderen Shop Systemen gemacht.

Aja "robots.txt" in einer Unterverzeichnis nützt garnichts, sondern muss im Root Verzeichnis liegen.
Desweiteren muss der Googlebot seperat angesprochen werden

also so

Code: Select all

User-agent: *
Disallow: /faq

User-agent: googlebot
Disallow: /faq

User-agent: Googlebot
Disallow: /*?
das dritte vermeidet dass Urls in den Index kommen die so ausschauen:
index.php?bla=a
ist halt nur interessant wenn du mod rewrite benutzt.

Wenn du willst dass der Googlebot keine SessionsIDs in der Url bekommt (das bezieht sich jetzt auf den Google Suchindex) schreib

Code: Select all

php_flag session.use_trans_sid off
in deine htaccess

aber wie gesagt ist das jetzt nur raten: Schreib einfach nochmal genauer was du machen willst - dann kann ich darauf genauer eingehen.

Gruß Thomas
Mein Baby Lexikon | Gegen Contentdiebstahl -> Spider Trap
obreitfelder

Post by obreitfelder »

jr-ewing wrote:Hallo,

ich hab dazu ein paar Fragen:

Ich versteh nicht ganz was du eigentlich machen willst:

willst du Google von deiner Seite aussperren ? -
Der Googlebot soll nicht in der Sessionliste erscheinen. Der besucht die Seite alle 3 Minuten! Und erzuegt jedes Mal einen Eintrag. Das ist sinnlos! :(
jr-ewing wrote:Um IPs bei den Sessions nicht anzuzeigen müsstest du alle Google IPs kennen und das weiß keiner ! Wenn du Listen im Netz findest sind die auf jeden Fall unvollständig !!!
Das mag zwar sein, aber ich kann erstmal nach den Listen arbeiten und dann nach und nach weitere IPs rauswerfen. Wenn ich 90% abfange wäre das schon ein Erfolg. :)

jr-ewing wrote:Aja "robots.txt" in einer Unterverzeichnis nützt garnichts, sondern muss im Root Verzeichnis liegen.
Lag ja bereits im Root, siehe oben. :wink:

jr-ewing wrote:Desweiteren muss der Googlebot seperat angesprochen werden
Laut Google muss er das nicht. Er reagiert auch auf den Platzhalter *. Und so wie du es zitierst, steht es auch drin. :wink:

Eigentlich darf der Googlebot ja gerne alle Seiten indexieren. Nur zum Geier warum muss er ständig auf der Seite sein? Das verfälscht die Session-Statistik völlig. Reicht es nicht, wenn er einmal am Tag kommt? Das wäre unproblematisch. Aber er kommt dauernd!

Darum gehts. Dies möchte ich ihm entweder austreiben, aber da ich dies wohl nicht kann, könnte ich natürlich an der Applikationsseite ansetzen und dafür sorgen, dass er beim Loggen ignoriert wird. :!:

Also ich kann auch damit leben. Muss nur ein Tool zur Statistikauswertung finden, wo ich die googlebot-IPs bei der Asuwertung aussperren kann. Die Sessionlogs ignoriere ich dann zukünftig. Leider wird in den Onlinestatistiken jeder sinnlose Googlebot-Besuch auch mitgezählt und aufbereitet. Also kann ich nur offline filtern.

Hoffe das war verständlicher, wahrscheinlich gibt es keine Lösung und der Bot hofft alle paar Minuten was Neues zu finden... :lol:


Ciao Oli
jr-ewing
Posts: 37
Joined: Sun Jul 10, 2005 6:52 pm
Location: Germany
Contact:

Post by jr-ewing »

Also der Googlebot kommt immer mit der Kennung "googlebot" im UserAgent. Es gibt aber halt auch viele Leute die auch als "Googlebot" surfen.

Es gibt zwar einige Googlebots die nicht als Googlebot gekennzeichnet sind, aber diese kommen nur zur Kontrolle, ob du nicht cloakst (d.h. Google einen andern Inhalt als dem User anzeigst)

Aber der kommt nicht täglich.

Sprich man müsste einfach beim Schreiben in die Log Datei die UserAgents mit Googlebot nicht berücksichtigen.

Nur so als Tipp kann ich dir einen normalen Counter empfehlen. eTracker, ChCounter usw
Phpmyfaq ist für Besucherstatistik usw einfach nicht ausgelegt.

Gruß Thomas
Mein Baby Lexikon | Gegen Contentdiebstahl -> Spider Trap
obreitfelder

Post by obreitfelder »

Das Schlimme ist: An sich bereitet mein Provider Schlund die Logiles wirklich schön auf. Ich habe dort 7 Domains. Bei keiner habe diese Problem mit dem Googlebot.

Nur bei diese FAQ hat er irgendwie einen Narren gefressen. Und auch nur bei dieser Domain taucht der Bot dann in den Statistiken auf - d.h. leider werden die auch ziemlich unbrauchbar.

Echt schade. Überlege ernsthaft, den Bot nicht ganz auszuklammern, d.h. ihn entweder über robots wegzusperren oder in der htaccess die IPs zu sammeln, die mich nerven.

Danke für die Hilfe & die Anregungen! :D


Ciao Oli
Post Reply