Premetto…Non ho nè AdSense, nè box di ricerca nè i tag impostati nei post del mio blog…

Ma allora per quale ragione di trovo indicizzate queste pagine con il parametro di ricerca s= scorrendo le pagine indicizzate nel mio blog?

Anche Marco Ziero, Simone Cabrino e nel forum html.it si era accorti del fenomeno e si aveva ipotizzato un ipotetico tentativo di Googlebot di compliare le form di ricerca o di un’indicizzazione dovuta alla presenza degli annunci AdSense all’interno del sito (e delle pagine di ricerca).

Ma in questo caso nè gli annunci AdSense nè il box di ricerca possono essere la causa di questa strana intrusione…

Cerco di capire se, per esempio, le pagine sono linkate dell’esterno, magari da qualche strano dominio spam ma il mio povero ed inaffidabile Google Webmaster Tool di link con destinazione pagine di ricerca inesistenti neanche l’ombra.

Incuriosito vado a vedere le statistiche di Google Analytics ma non trovo traccia di pagine viste con quei termini di ricerca.

Allora sbricio i file di log (ci tengo a sottolineare che l’intero log di quando è andato online l’intero sito) e trovo solamente delle richieste HTTP correlate del tipo:
66.249.65.9 - - [10/Apr/2008:00:19:08 +0200] “GET /blog/?s=serp HTTP/1.1″ 200 12800 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

[...]
66.249.65.9 - - [14/Apr/2008:11:30:45 +0200] “GET /blog/?s=appassionando HTTP/1.1″ 200 11828 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

Per sicurezza verifico se qualche bot si camuffa da Googlebot e fa cose strane nel mio blog, ma eventuali dubbi svaniscono….è proprio il caro BigG!

Ecco il whois:
Risultato query sull'IP 66.249.65.9
Risoluzione nome: crawl-66-249-65-9.googlebot.com
OrgName: Google Inc.
OrgID: GOGL
Address: 1600 Amphitheatre Parkway
City: Mountain View
StateProv: CA
PostalCode: 94043Country: US
NetRange: 66.249.64.0 - 66.249.95.255
CIDR: 66.249.64.0/19
NetName: GOOGLE
NetHandle: NET-66-249-64-0-1
Parent: NET-66-0-0-0-0
NetType: Direct Allocation
NameServer: NS1.GOOGLE.COM
NameServer: NS2.GOOGLE.COM
NameServer: NS3.GOOGLE.COM
NameServer: NS4.GOOGLE.COM
Comment:
RegDate: 2004-03-05
Updated: 2007-04-10
OrgTechHandle: ZG39-ARIN
OrgTechName: Google Inc.
OrgTechPhone: +1-650-318-0200
OrgTechEmail: arin-contact@google.com
# ARIN WHOIS database, last updated 2008-04-27 19:10
# Enter ? for additional hints on searching ARIN's WHOIS database.

Secondo voi che cosa potrà mai significare questo fatto strano?

Perchè Google invia queste query in automatico?

Come fa a sapere che il modulo di ricerca si innesca con la URL www.andreavit.com/?s=??

Quale potrebbe essere lo scopo di ’stimolare il modulo di ricerca di Wordpress’?

Io intanto ho inserito un piccolo scriptino nell’head che inserisce un bel robots noindex per GoogleBot smette di importunarmi e in quanto tempo elimina le pagine… :-)