Googlebot invia query in automatico, non compila form di ricerca!

April 29th, 2008

Premetto…Non ho nè AdSense, nè box di ricerca nè i tag impostati nei post del mio blog…

Ma allora per quale ragione di trovo indicizzate queste pagine con il parametro di ricerca s= scorrendo le pagine indicizzate nel mio blog?

Anche Marco Ziero, Simone Cabrino e nel forum html.it si era accorti del fenomeno e si aveva ipotizzato un ipotetico tentativo di Googlebot di compliare le form di ricerca o di un’indicizzazione dovuta alla presenza degli annunci AdSense all’interno del sito (e delle pagine di ricerca).

Ma in questo caso nè gli annunci AdSense nè il box di ricerca possono essere la causa di questa strana intrusione…

Cerco di capire se, per esempio, le pagine sono linkate dell’esterno, magari da qualche strano dominio spam ma il mio povero ed inaffidabile Google Webmaster Tool di link con destinazione pagine di ricerca inesistenti neanche l’ombra.

Incuriosito vado a vedere le statistiche di Google Analytics ma non trovo traccia di pagine viste con quei termini di ricerca.

Allora sbricio i file di log (ci tengo a sottolineare che l’intero log di quando è andato online l’intero sito) e trovo solamente delle richieste HTTP correlate del tipo:
66.249.65.9 - - [10/Apr/2008:00:19:08 +0200] "GET /blog/?s=serp HTTP/1.1" 200 12800 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

[...]
66.249.65.9 - - [14/Apr/2008:11:30:45 +0200] "GET /blog/?s=appassionando HTTP/1.1" 200 11828 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Per sicurezza verifico se qualche bot si camuffa da Googlebot e fa cose strane nel mio blog, ma eventuali dubbi svaniscono….è proprio il caro BigG!

Ecco il whois:
Risultato query sull'IP 66.249.65.9
Risoluzione nome: crawl-66-249-65-9.googlebot.com
OrgName: Google Inc.
OrgID: GOGL
Address: 1600 Amphitheatre Parkway
City: Mountain View
StateProv: CA
PostalCode: 94043Country: US
NetRange: 66.249.64.0 - 66.249.95.255
CIDR: 66.249.64.0/19
NetName: GOOGLE
NetHandle: NET-66-249-64-0-1
Parent: NET-66-0-0-0-0
NetType: Direct Allocation
NameServer: NS1.GOOGLE.COM
NameServer: NS2.GOOGLE.COM
NameServer: NS3.GOOGLE.COM
NameServer: NS4.GOOGLE.COM
Comment:
RegDate: 2004-03-05
Updated: 2007-04-10
OrgTechHandle: ZG39-ARIN
OrgTechName: Google Inc.
OrgTechPhone: +1-650-318-0200
OrgTechEmail: arin-contact@google.com
# ARIN WHOIS database, last updated 2008-04-27 19:10
# Enter ? for additional hints on searching ARIN's WHOIS database.

Secondo voi che cosa potrà mai significare questo fatto strano?

Perchè Google invia queste query in automatico?

Come fa a sapere che il modulo di ricerca si innesca con la URL www.andreavit.com/?s=??

Quale potrebbe essere lo scopo di ‘stimolare il modulo di ricerca di WordPress’?

Io intanto ho inserito un piccolo scriptino nell’head che inserisce un bel robots noindex per GoogleBot smette di importunarmi e in quanto tempo elimina le pagine… :-)

Tagged

§ 10 Responses to Googlebot invia query in automatico, non compila form di ricerca!"

  • Simone says:

    Ciao Andrea, grazie per il link!

    Come ho già detto, sia sul blog di Marco che sul mio, l’unica idea che mi salta in mente, soprattutto pensando a Google, è la possibilità di verificare che le pagine raggiunte tramite ricerca (form o ?s=) siano le stesse raggiunte tramite link, interni o esterni.
    Qual’è il tuo parere a riguardo?

  • Andrea Vit says:

    @Simone
    Grazie di essere passato e del commento Simone!
    Sì, potrebbe essere una possibile motivazione…Anche se mi chiedo il motivo per cui questi contenuti vengano poi indicizzati: Google che senso ha che si porta dietro questi contenuti ‘fasulli’? Potrebbe semplicemente verificare senza però inserirli nell’indice.
    Inoltre: questo tipo di pratica non potrebbe essere visto come un tentativo di hacking vero e proprio? Chi gli dà il permesso di inviare query in automatico e di indicizzare contenuti non presentati? E’ legale un’operazione del genere?…Mah…

  • Petro says:

    Ciao,
    come hai scritto tu stesso ce n’eravamo accorti da un po’, ma da poco è arrivata la conferma ufficiale di Google: fanno così per cercare di individuare i contenuti del cosiddetto invisible web.
    Maggiori dettagli sul blog ufficiale di Google Webmaster Tools.

  • An says:

    Come fa a sapere che il modulo di ricerca si innesca con la URL http://www.andreavit.com/?s=??

    Sarebbe interessante provare a togliere questo tag
    meta name=”generator” content=”WordPress 2.5″ e vedere se google smette di mandare query (per sapere come formare la query da qualche parte deve capire che stai usando wordpress); se dovesse smettere sarebbe poi simpatico provare il caso inverso: creare una home page statica con quel tag dentro e restituire alla query “s?” … lascio alla tua fantasia black hat cosa di potrebbe restituire.

  • Andrea Vit says:

    @tutti
    Grazie di essere passato e di aver commentato!:-)
    @Petro
    Ottima e puntuale segnalazione, come tutti i tuoi interventi in giro per la rete del resto…
    Una puntualizzazione: io in realtà però non dispongo di HTML forms nel mio blog da molto tempo(forse ce li aveva il primo template, ma l’apparizione di questi risultati è di una decina di giorni fa)…
    Non è che potrebbe essere un modo anche per scovare eventuali splog o automated content?
    @An
    Con la fantasia Black Hat ce ne sarebbe da sbizzarrirsi :-)
    In effetti potrebbe essere un buon modo per verificare se il meccanismo è legato direttamente alla piattaforma WordPress…verificherò!

  • Fabio says:

    Qualcuno pubblica con MovableType o Blogger ?
    credo che un comportamento analogo si possa avere su piattaforme di pubblicazione diverse e che comunque abbiano un discreto utilizzo. (Joomla, Drupal; Typo3 ) Non ho gli strumenti per verificarlo , ma sarebbe interessante.
    Lo vedo come un tentativo malcelato di saltare i “bad webmaster” che non ottimizzano i loro contenuti, ma oggi è lunedì e potrei aver detto castronerie ;)

  • Andrea Vit says:

    Stessa cosa per il blog di Simone Carletti, che a memoria è il primo che mi è venuto in mente ad avere Movable Type.
    Su blogger (hosting blogspot), Google ha previsto la cosa bloccando agli spider la cartella search.
    A questo punto mi viene da dire che è indipendente dalla piattaforma. Ho anche alcune considerazioni interessanti che vengono dalle parole che ‘tenta’ di inserire come query, ma ci devo ancora pensare un po’…:-)

  • [...] la data dall’inizio degli snippets e se smetterà di farmi aumentare vertiginosamente le query interne automatiche che continua a farmi, dandomi la possibilità di rivedere “pulito” il mio Google [...]

  • Chalda says:

    Vi confermo che il giocchetto di googlebot funziona anche su un sito che gestisco.
    Ad intervalli regolari (1 ogni 2 minuti circa, secondo log) google fa una ricerca tramite form di ricerca con parole pertinenti al sito.

  • Andrea Vit says:

    He he…Googlebot, che simpatica canaglia! :-)

Leave a Reply

Your email address will not be published. Required fields are marked *

*

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Stai leggendo:

Googlebot invia query in automatico, non compila form di ricerca! su Andrea Vit.