Lavorare in open space con un sacco di persone davvero molto brave e preparate, spesso trasforma una semplice giornata di lavoro come occasione per imparare cose nuove e divertirsi un po’.
La mattinata di venerdì il mitico Matteo Caruso mi fa notare una cosa molto strana che succede nel sito di Repubblica: con immenso stupore notiamo che gli interstitial sembrano non essere proprio gestiti in modo ottimale dall’importante quotidiano online.
1. Che cos’è un interstitial?
Partiamo dall’inizio…Un interstitial è un messaggio pubblicitario che appare a pagina intera nel browser e che impedisce per qualche secondo la lettura ed l’interazione con i contenuti desiderati. È uno strumento di branding più invasivo rispetto al banner: spesso sfrutta, infatti, finestre aggiuntive del browser o overlayer che rendono difficile la navigazione.
Nella figura sottostante si può vedere la pagina di advertising mostrata all’utente quando si desidera accedere ad un articolo dall’homepage.
n.b.: va detto che il sistema si serve dei cookie per valutare se l’utente ha già visto in precedenza un interstitial, per evitare di mostrare all’utente la pubblicità per ogni articolo visto ma soltanto alla lettura del primo.

2- La situazione attuale di repubblica.it
Come funzionano lato tecnico i contenuti dell’interstitial?
Gli schemi sottostanti illustrano come vengono gestite le richieste sia lato utente che lato googlebot:
L’utente da repubblica.it, clicca sul link con destinazione l’URL www.repubblica.it/interstitial/… , che in realtà non è la pagina dell’articolo scelto, ma è una pagina dedicata esclusivamente al messaggio pubblicitario. Successivamente attraverso un meta refresh impostato a 15 secondi, l’utente viene rimbazato in automatico verso l’articolo inizialmente richiesto.

Il motore di ricerca, dopo aver spiderizzato la home page, decide di contattare l’URL destinazione del link trovato in pagina (www.repubblica.it/interstitial/…). Da qui lo spider riceve uno status code 200 (ok) e poi viene reindirizzato verso la pagina di articolo con il meta refresh a zero (presente anch’esso in pagina – c’è l’utilizzo di un double meta refresh ).

Due note sullo schema:
1. lo spider effettivamente segue il meta refresh poichè negli snippet delle pagine con le URL degli interstitial ci sono informazioni degli articoli.

Nello schema ho inserito come status code un 302, anche se formalmente si tratterebbe di un 200 (dal check con un simulatore di spider sembra restituire un 200).
Googlebot però assume un comportamento molto simile alla gestione dei 302:
- segue il meta refresh come una redirezione;
- ne associa correttamente il contenuto di destinazione;
- mantiene l’URL originaria (ovvero quella dell’interstitial);
3- La situazione ottimale per repubblica.it
Attualmente la gestione lato SEO degli interstitial non appare quella ottimale:
- l’utilizzo di meta refresh è deprecato sia da Google che dal W3c;
- sempre bene evitare redirezioni inutili;
- crea ambiguità tra l’URL degli interstitial e quello dell’URL dell’articolo poichè vengono viste come duplicate.

Una possibile gestione ottimale degli interstial potrebbe essere l’uso di un overlayer pubblicitario Javascript che nasconde il contenuto direttamente nell’URL della pagina di articolo, senza dover passare per un URL intermedia dedicata all’interstitial.
L’utente con javascript attivo avrà in evidenza l’interstitial, lo spider non avrà da seguire redirezioni e potrà indicizzare al meglio i contenuti dell’articolo. Ecco qui uno schema di una possibile gestione:













ricordo un bel post di PieroPan sulla gestione degli interstitial (che provocò un oscuramento in GNews per un portale di recensione di giochi online). Un cloaking (nella sua accezione positiva) creerebbe un tunnel con corsia preferenziale per i bot e ne faciliterebbe il processo di spidering.
p.s. complimenti per gli spunti sempre molto interessanti!
@andrea serravezza
Sì, ricordo ai tempi di aver seguito anch’io con la coda dell’occhio la cosa. Quello dell’interstitial è un problema da non sottovalutare e ci sono milioni di modi diversi per poterlo gestire.
In generale preferisco evitare tecniche di riconoscimento dello UserAgent, poichè se un bel giorno “googlebot” si chiamerà “pippo” ci si dovrà ricordare di aggiornare il sistema.
IMHO la differenziazione con js è da preferire.
Grazie per il commento Andrea!
Bel pezzo. Soesso non si impara solo negli open space, ma anche con la rete
La cosa più bella del post è lo screenshot fatto dal MAC
Scherzo ovviamente, gran bel pezzo !
Matteo Caruso ne sa a pacchi
Bel post Andrea, concordo anche che sul fatto che lavorare in open space permetta di imparare molto di più e di assorbire il sapere di chi ci è a fianco… come quello di Matteo Caruso
Matteo ne sa a pacchi e merita sempre un gran rispetto!
Anche il mio Mac però viaggia, come dice giustamente Fabio
Se Matteo avesse un Mac allora sarebbe veramente un guru!
Repubblica verrà sicuramente bannata da google per questa cosa.
@Fiabeschi
Difficile dire se verrà bannata o meno: c’è da dire che sicuramente non è la pratica migliore lato policy di Google…siamo un po’ borderline ma un sito trusted come repubblica.it può permettersi queste cose.
Ti assicuro che su siti trusted ho visto davvero cose peggiori senza che succedesse nulla…
[...] Per approfondire l’argomento, leggi l’articolo completo di Andrea Vit. [...]
Ciao,
secondo voi i banner in overlayer provocano penalizzazioni/banning da google o google news?
o più in generale, l’utilizzo di overlayer non per mettere in risalto i banner bensì funzionalità/novità nel portale è dannoso dal punto di vista del posizionamento e può causare banning/penalizzazione?
sapreste dirmi dove posso trovare riferimenti nelle policy di google riguardo questo argomento?
grazie a tutti, ciao!