<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Andrea Vit &#187; Penalizzazioni e spam</title>
	<atom:link href="http://www.andreavit.com/blog/penalizzazioni-e-spam/feed" rel="self" type="application/rss+xml" />
	<link>http://www.andreavit.com/blog</link>
	<description>Consulente SEO, SEM: in questo blog raccolgo appunti sulle mie passioni professionali.</description>
	<lastBuildDate>Mon, 30 Jan 2012 09:47:00 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>Update dell&#8217;algoritmo di Google per la pulizia della long tail</title>
		<link>http://www.andreavit.com/blog/search-engine-optimization/update-dellalgoritmo-di-google-per-la-pulizia-della-long-tail.html</link>
		<comments>http://www.andreavit.com/blog/search-engine-optimization/update-dellalgoritmo-di-google-per-la-pulizia-della-long-tail.html#comments</comments>
		<pubDate>Fri, 24 Jun 2011 19:22:42 +0000</pubDate>
		<dc:creator>Andrea Vit</dc:creator>
				<category><![CDATA[Penalizzazioni e spam]]></category>
		<category><![CDATA[Search Engine Optimization]]></category>
		<category><![CDATA[contenuti duplicati]]></category>
		<category><![CDATA[falsi miti SEO]]></category>
		<category><![CDATA[google spam]]></category>
		<category><![CDATA[penalizzazioni su google]]></category>

		<guid isPermaLink="false">http://www.andreavit.com/blog/?p=796</guid>
		<description><![CDATA[In questi giorni vi è stato un importante update nell&#8217;algoritmo di ranking di Google, che ha scombinato le logiche di diverse pagine dei risultati e che in molti hanno scambiato per l&#8217;arrivo di Google Panda. Durante gli ultimi giorni questa novità ha destato clamore nella comunità SEO: Davide Pozzi nel suo blog con il post Google [...]]]></description>
			<content:encoded><![CDATA[<p>In questi giorni vi è stato un importante <strong>update nell&#8217;algoritmo di ranking di Google</strong>, che ha scombinato le logiche di diverse pagine dei risultati e che in molti hanno scambiato per l&#8217;arrivo di Google Panda.</p>
<p>Durante gli ultimi giorni questa novità ha destato clamore nella <strong>comunità SEO</strong>: Davide Pozzi nel suo blog con il post <a href="http://blog.tagliaerbe.com/2011/06/google-panda-2-2-attivo-anche-in-italia.html" target="_blank">Google Panda 2.2 attivo anche in Italia</a> avverte della novità, Enrico Altavilla <a href="http://www.lowlevel.it/google-panda-non-centra-un-fico-secco/">la vede lunga dicendo che Panda non c&#8217;entra un fico secco</a> e i webmaster del forum GT si scambiano le <a href="http://www.giorgiotave.it/forum/google/168935-che-panda-sia-gia-arrivato.html" target="_blank">prime avvisaglie</a>.</p>
<p>Anche altri esimi colleghi delle rete mi hanno contattato personalmente descrivendo in sostanza un pattern di siti web comuni colpiti dall&#8217;update.</p>
<p>Il mitico <a href="http://twitter.com/ppiersante">Piersante Paneghel</a> per primo dal suo tweet tenta di dare una prima descrizione della struttura dei siti web colpiti:</p>
<p style="display: block; margin-left: 10px; padding-left: 20px; padding-right: 20px; background-color: #ccccff;"><cite>&#8230;per ora mi pare che il pattern colpito sia: IF same-owner AND dupe-site THEN both-site drop traffic. No Panda</cite></p>
<p>Caso dopo caso le <strong>caratteristiche della penalizzazione e del pattern dei siti colpiti</strong> sembra farsi un po&#8217; più chiara e potrebbe essere riassunta con le seguenti caratteristiche:</p>
<table style="background-color: #eeeedd; border: 1px solid #222222; margin: 10px; valign: top;">
<tbody>
<tr>
<td><strong>Keyword interessate: </strong></td>
<td>keyword di <strong>long tail</strong>, generalmente composte da 2 o più termini;</td>
</tr>
<tr>
<td><strong>Cali riscontrati nella long tail:</strong></td>
<td>chiaramente <strong>dipende dalla dimensione del sito</strong>, generalmente siti di grandi dimensioni hanno cali più importanti poichè è maggiore il numero di pagine colpite. Sono stati registrati cali dal <strong>20 al 60%</strong>.</td>
</tr>
<tr>
<td><strong>Caratteristiche dei contenuti del sito:</strong></td>
<td>Tipicamente si tratta di siti web con<strong> contenuti duplicati o &#8220;abstract&#8221;</strong> di contenuti duplicati. L&#8217;origine dei contenuti duplicati può essere sia <strong>interna</strong>, ovvero se sono riprese informazioni dello stesso sito che <strong>esterna</strong>, ovvero la copia anche parziale i contenuti di altri siti. Le pagine &#8220;copiate&#8221; hanno <strong>sempre maggiore trust </strong>delle copie: in più di qualche caso sono notizie di quotidiani online ripresi da aggregatori.</td>
</tr>
<tr>
<td><strong>Tipologia di pagine duplicate: </strong></td>
<td>Sono state colpite sia <strong>pagine foglia</strong>, ad esempio un post di un blog copiato o schede prodotto duplicate di e-commerce, che <strong>pagine di navigazione</strong>, ad esempio delle pagine hub di accesso ad altre pagine. Le pagine sono sempre contraddistinte da una forte ottimizzazione SEO dei meta tag on page: con title, description ben mirate.</td>
</tr>
<tr>
<td><strong>Presenza di AdSense</strong></td>
<td>non sempre i siti colpiti fanno grande uso di Adv.</td>
</tr>
</tbody>
</table>
<p>Ci sono altri casi che avete riscontrato che &#8220;sbugiardiano&#8221; questa prima diagnosi? Che cosa ne pensate?</p>
<p>Sarà poi interessante capire come uscirne! <img src='http://www.andreavit.com/blog/wp-includes/images/smilies/icon_razz.gif' alt=':-P' class='wp-smiley' /> </p>
]]></content:encoded>
			<wfw:commentRss>http://www.andreavit.com/blog/search-engine-optimization/update-dellalgoritmo-di-google-per-la-pulizia-della-long-tail.html/feed</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
		<item>
		<title>Link building per drogare le SERP: Google in crisi tampona con interventi manuali</title>
		<link>http://www.andreavit.com/blog/casi-in-esame/link-building-per-drogare-le-serp-google-in-crisi-tampona-con-interventi-manuali.html</link>
		<comments>http://www.andreavit.com/blog/casi-in-esame/link-building-per-drogare-le-serp-google-in-crisi-tampona-con-interventi-manuali.html#comments</comments>
		<pubDate>Wed, 30 Mar 2011 08:25:16 +0000</pubDate>
		<dc:creator>Andrea Vit</dc:creator>
				<category><![CDATA[Casi in esame]]></category>
		<category><![CDATA[Penalizzazioni e spam]]></category>
		<category><![CDATA[google spam]]></category>
		<category><![CDATA[link farm]]></category>
		<category><![CDATA[link popularity]]></category>
		<category><![CDATA[SERP]]></category>

		<guid isPermaLink="false">http://www.andreavit.com/blog/?p=563</guid>
		<description><![CDATA[Riprendo dopo un po’ di inattività a scrivere sul mio blog per analizzare un caso che evidenzia in modo lampante come l’algoritmo di Google sia ancora un po’ troppo ingenuo nell’interpretazione del trust dei siti web. Ma come può succedere, Google non è l’infallibile leader incontrastato del Search? 1- La qualità dei risultati di Google [...]]]></description>
			<content:encoded><![CDATA[<div>
<div>
<p style="text-align: justify;"><a href="http://www.andreavit.com/blog/wp-content/uploads/2011/03/google-spam.jpg"><img class="alignleft size-full wp-image-573" title="google-spam" src="http://www.andreavit.com/blog/wp-content/uploads/2011/03/google-spam.jpg" alt="" width="192" height="161" /></a>Riprendo dopo un po’ di inattività a scrivere sul mio blog per analizzare un caso che evidenzia in modo lampante come l’<strong>algoritmo di Google sia ancora un po’ troppo ingenuo nell’interpretazione del trust </strong>dei siti web.</p>
<p style="text-align: justify;">Ma come può succedere, <strong>Google non è l’infallibile leader incontrastato del Search</strong>?</p>
<p style="text-align: justify;">
<h4><strong>1- La qualità dei risultati di Google non è infallibile: il caso JCPenney</strong></h4>
<p style="text-align: justify;">Leggendo le ultime notizie più ecclatanti sul fronte della “qualità” dei risultati emerge che <strong>Google sembra aver perso lo smalto di un tempo</strong>, come sottolinea in modo molto deciso TechCruch con il titolo  “<a href="http://techcrunch.com/2011/02/12/search-still-sucks/" target="_blank">Search Still sucks</a>” e con questo passaggio con qualche riferimento al passato e ad AltaVista:</p>
<p style="text-align: justify;"><em>“For someone who’d been using AltaVista for years before that it was a very pleasant experience. Anyone who was on the Internet before Google came along knows exactly what I’m talking about. Google just felt right. It got the job done.<br />
It’s been a creeping feeling, growing over the years, but it sort of feels like pre-Google again. Search is a really bad overall experience.”</em></p>
<p style="text-align: justify;">Tra gli altri anche il New York Times pubblica un <strong><a href="http://www.nytimes.com/2011/02/13/business/13search.html?_r=2&amp;pagewanted=all" target="_blank">articolo/denuncia parlando del sito di JCPenney</a>,</strong> posizionato in modo egregio per un numero di parole chiave anche molto diverse tra loro.</p>
<h5><strong>La ragione del posizionamento eccelso?</strong></h5>
<p style="text-align: justify;">Un’<strong>azione di link building di &#8220;bassa&#8221; lega</strong> riassunta in queste parole:</p>
<p style="text-align: justify;"><em>2,015 pages with phrases like “casual dresses,” “evening dresses,” “little black dress” or “cocktail dress.” Click on any of these phrases on any of these 2,015 pages, and you are bounced directly to the main page for dresses on JCPenney.com.<br />
Some of the 2,015 pages are on sites related, at least nominally, to clothing. But most are not. The phrase “black dresses” and a Penney link were tacked to the bottom of a site called nuclear.engineeringaddict.com. “Evening dresses” appeared on a site calledcasino-focus.com. “Cocktail dresses” showed up on bulgariapropertyportal.com. ”Casual dresses” was on a site called elistofbanks.com. “Semi-formal dresses” was pasted, rather incongruously, on usclettermen.org.</em></p>
<h4><strong>2. Un esempio anche in Italia nel settore dei prestiti</strong></h4>
<p style="text-align: justify;">Credo che abbiamo tutti avuto modo di osservare, infatti, come anche nel mercato italiano <strong>si posizionano siti meno “autorevoli” che “drogano” la loro autorevolezza</strong> grazie ad una lauta semina in rete di link “finti”, “non spontanei” o “forzati”.</p>
<p style="text-align: justify;">Vorrei analizzare a titolo esemplificativo un sito appena sparito dalle SERP, che io ed il mio collega <a href="http://www.linkedin.com/in/davidemagnan" target="_blank">Davide</a> abbiamo mantenuto come osservato speciale.</p>
<p style="text-align: justify;"><strong>Prestitipersonaliok.net</strong> che si posizionava fino a ieri  (29/3/2011) in modo egregio per la parola chiave competitiva “prestiti personali”.</p>
<p style="text-align: center;"><a href="http://www.andreavit.com/blog/wp-content/uploads/2011/03/screenshot.5.jpg"><img class="size-full wp-image-601   aligncenter" title="screenshot.5" src="http://www.andreavit.com/blog/wp-content/uploads/2011/03/screenshot.5.jpg" alt="" width="564" height="517" /></a></p>
<p style="text-align: justify;">Ora invece è (giustamente) sparito dalle SERP per un intervento manuale del buon Google&#8230;</p>
<p style="text-align: center;"><a href="http://www.andreavit.com/blog/wp-content/uploads/2011/03/screenshot.4.jpg"><img class="size-full wp-image-588 aligncenter" title="screenshot.4" src="http://www.andreavit.com/blog/wp-content/uploads/2011/03/screenshot.4.jpg" alt="" width="521" height="479" /></a></p>
<p style="text-align: justify;"><span id="more-563"></span>Il sito a prima vista sembrerebbe un <strong>MFA (Made For AdSense)</strong>.</p>
<p style="text-align: justify;">Essendo un settore altamente competitivo dove vi sono banche e grossi investimenti in SEO, <strong>stupisce vedere un sito così semplice e basico così ben posizionato</strong>: francamente mi sarei aspettato di meglio da Google.</p>
<p style="text-align: justify;">Il sito infatti conta un buon numero di contenuti, ma appartentemente<strong> non si trova una grandissima utilità del sito per gli utenti </strong>che hanno effettuato una ricerca per “<em>prestiti personali”</em>.</p>
<h5><strong>Perchè Google lo premiava?</strong></h5>
<p style="text-align: justify;">Facciamo una brevissima analisi veloce per capire il livello di ottimizzazione SEO del sito, distinguendola in 4 passi principali:</p>
<p style="text-align: justify;"><strong>a- Fattori on site</strong></p>
<p style="text-align: justify;"><strong> </strong><strong><em>Buono, ma non da giustificare un posizionamento così forte:</em></strong></p>
<ul style="text-align: justify;">
<li><strong>188 pagine indicizzate</strong> con contenuti che, nel campione analizzato, sono <strong>originali e ben ottimizzat</strong>i lato SEO. C’è solo qualche piccolo margine di ottimizzazione nei link interni compresi nei testi descrittivi di ogni singola pagina, ma tutto sommato un buon lavoro di SEOcopywriting;</li>
<li>tutte le pagine contengono l’occorrenza del testo “prestiti personali”, poichè vi sono alcuni elementi comuni a tutti i template che contengono la frase;</li>
<li>i title delle pagine non sembrano sovraottimizzati nei title con 28 pagine su 188 contenenti i termini &#8220;prestiti personali&#8221;;</li>
<li>il sito web è costruito con un template <strong>WordPress semplice </strong>e un ottimo grado di ottimizzazione dei tag H per ciascun template.</li>
</ul>
<p style="text-align: justify;"><strong>b- Dati sul dominio</strong></p>
<p style="text-align: justify;"><strong> </strong><strong><em>Dominio nuovo nuovo, ma con keyword exact match che sembra influire molto per keyword composte:</em></strong></p>
<p style="text-align: justify;">Osservando qualche veloce dato sui domini si osserva che è un dominio datato 2010 <a href="http://whois.domaintools.com/prestitipersonaliok.net">http://whois.domaintools.com/prestitipersonaliok.net</a><br />
che contiene la keyphrase obiettivo, ovvero “prestitipersonali”, che sembra essere un<a href="http://www.seomoz.org/blog/exact-match-domains-are-far-too-powerful-is-their-time-limited" target="_blank"> fattore molto importante come confermato anche da Rand Fishkin</a>.</p>
<p style="text-align: justify;"><strong>c- Vicini di casa</strong></p>
<p style="text-align: justify;"><strong><em>Siti web identici ottimamente posizionati per altre parole chiave con lo stesso metodo:</em></strong></p>
<p>Da vicini di casa spesso si scoprono cose simpatiche&#8230;In questo caso si segnalano tra i <a href="http://www.majesticseo.com/reports/neighbourhood-checker?d=www.prestitipersonaliok.net%2F&amp;IndexDataSource=H" target="_blank">vicini di casa reperiti da Majestic SEO</a> anche <strong>altri siti con lo stesso template WordPress, identico stile di copy e performance SEO analoghe (ovvero un ottimo posizionamento fino alla giornata di ieri):</strong></p>
<ul>
<li>www.prestitivelocionline.net</li>
<li>www.prestitisenzabustapaga24.com</li>
</ul>
<p style="text-align: justify;"><strong>d- Link popularity:</strong></p>
<p style="text-align: justify;"><strong><em>Link ingresso prevalentemente da commenti spam</em></strong></p>
<p style="text-align: justify;">Da una prima analisi dei link ingresso si nota come la stragrande maggioranza dei link in ingresso siano di scarso valore per lo più frutto di attività mirata di comment spam in diversi blog/community, con parole chiave tattiche, dove spicca anche un “pregiato” dominio .gov</p>
<p style="text-align: justify;">http://www.london.gov.uk/climatechange/card/332</p>
<p>Di seguito una carrellata di link di esempio per sbizzarrirvi:</p>
<ul>
<li>http://www.myartinfo.com/browse/profile/alexraga</li>
<li>http://www.myartinfo.com/myartinfo/browse/profile/puterinoor</li>
<li>http://www.daylightmagazine.org/podcast/april2010</li>
<li>http://www.blipper.it/evaphone.html</li>
<li>http://djsound.virgula.uol.com.br/top-list/top-l30-jovem-pan-fm</li>
<li>http://blogs.discovery.com/storm_chasers/2010/05/south-dakota-tornado-intercepts-dominator-cannon-probe-success.html?cid=6a00d8341bf67c53ef013487bbf2e5970c</li>
<li>http://www.enotes.com/documents/macbeth-psychoanalytic-freudian-approach-40651</li>
<li>http://www.yourtango.com/20083332/fight-for-your-life.html</li>
<li>http://www.appolicious.com/curated-apps/60-lucys-favorite-education-apps</li>
<li>http://www.avweb.com/blogs/insider/AvWebInsider_CubLove_202142-1.html</li>
<li>http://www.arlingtonpark.com/blog/polytrack-and-horses-courses</li>
<li>http://www.womensnet.org.za/criminal-law-sexual-offences-and-related-matters-amendment-act-nop-32-2007</li>
<li>http://www.alleyinsider.com/companies/gawker_media</li>
<li>http://hollywood-elsewhere.com/2009/05/kosher_porn.php</li>
<li>http://www.brooklynvegan.com/archives/2010/03/whats_going_on_900.html</li>
<li>http://www.london.gov.uk/climatechange/card/332</li>
<li>http://www.marketingtribune.nl/nieuws/coca-cola-lanceert-internationale-wk-campagne/</li>
<li>http://www.bsicilia.it/a-messina-e-iniziata-la-rottamazione-dei-ricercatori-seconda-parte.html</li>
<li>http://www.studiograssi.eu/2008/10/16/trentino-quando-un-territorio-diventa-brand/</li>
<li>http://www.flashfuck.it/2009/07/15/bitmapdata-manipulation-benchmark/</li>
<li>http://blog.mysport.ro/lywyu2012/2010/02/05/ziua-regeluiadrian-somlea-cu-ajutorul-lui-hagi-am-reusit-sa-merg-mai-departe/</li>
<li>http://www.energiapertutti.it/?p=81</li>
<li>http://www.feedmyapp.com/p/a/geo-challenge-play-the-world/7974</li>
<li>http://www.techdirt.com/articles/20101013/02424911404/lawyer-tries-to-prevent-yale-from-using-photo-of-joe-dimaggio-marilyn-monroe-on-book-about-the-two.shtml</li>
<li>http://physicsworld.com/cws/article/news/43996</li>
<li>http://www.momlogic.com/2010/10/anti-aging_ice_cream_on_the_way.php</li>
<li>http://blog.greens.org.nz/2010/10/01/the-italian-job-i/</li>
</ul>
</div>
<p>Dall’analisi si può comprendere che probabilmente l’alta considerazione che Google ha di questo sito per la keyword “prestiti personali”, è indotta dal fatto che possiede un<strong> gran numero di link con anchor text ottimizzati ma che non hanno un carattere di spontaneità.</strong></p>
<div>
<h4><strong>3 &#8211; Conclusioni e un&#8217;immagine ironica:</strong></h4>
<p style="text-align: center;"><a href="http://www.andreavit.com/blog/wp-content/uploads/2011/03/i-heart-comment-spam.gif"><img class="aligncenter" title="i-heart-comment-spam" src="http://www.andreavit.com/blog/wp-content/uploads/2011/03/i-heart-comment-spam.gif" alt="" width="432" height="227" /></a></p>
<p style="text-align: center;"><a href="http://www.iheartcommentspam.com/" target="_blank">Image Credits</a></p>
<p style="text-align: justify;">Dal mio personale punto di vista, un buon motore di ricerca <strong>non dovrebbe considerare utili link “finti” per valutare il trust di un sito</strong>: dovrebbe essere in grado di <strong>comprendere quali sono buoni e quali no</strong>&#8230;ma è davvero molto molto difficile.</p>
<p style="text-align: justify;">Purtroppo di casi di siti ben posizionati grazie all’uso di tecniche di link building di basso livello ce ne sono davvero moltissimi: potete sbizzarrirvi a trovarne a decine con facilità a conferma che <strong>non si tratta di un caso sporadico</strong>!</p>
<p style="text-align: justify;">Probabilmente Google pur essendo un servizio di ricerca fondamentale per il mondo di internet <strong>non è perfetto</strong>: come tutte le cose create dall’uomo, ha qualche falla dove si è infilata una vera e propria industria dove svariate società o persone si guadagnano da vivere alle spalle di Big G e soprattutto degli utenti inconsapevoli.</p>
<p style="text-align: justify;">La <strong>strada che Google ha intrapreso verso risultati realmente di qualità e senza &#8220;furbi&#8221; è ancora lunga</strong> e lastricata di insidie; certo è non si può pensare di continuare a governare il mondo della search ancora a lungo con il solo aiuto di interventi manuali, come nel caso di JC Penney e prestitipersonaliok.net&#8230;ce ne sono troppi là fuori di siti “furbi” da combattere&#8230;serve qualcosa di più&#8230;</p>
<h4><strong>Se avete 5 minuti, vi consiglio qualche post interessante&#8230;</strong></h4>
<ul>
<li><a href="http://www.seomoz.org/blog/exact-match-domains-are-far-too-powerful-is-their-time-limited" target="_blank">Are Exact Match Domains Too Powerful? Is Their Time Limited?</a> di Rand Fishkin</li>
<li><a href="http://www.nytimes.com/2011/02/13/business/13search.html" target="_blank">The Dirty Little Secrets of Search</a> del New York Times</li>
<li><a href="http://seontology.it/2010/02/il-made-for-adsense-fa-male-alla-salute/" target="_blank">Quando il Made for Adsense fa male alla salute (non solo quella del web)</a> di SEOntology</li>
<li><a href="http://www.google.com/search?sourceid=chrome&amp;ie=UTF-8&amp;q=dofollow+blog+list" target="_blank">Ricerca su Google.com per &#8220;dofollow blog list&#8221; </a></li>
<li><a href="http://techcrunch.com/2011/02/12/search-still-sucks/" target="_blank">Search Still Sucks</a> di Michael Arrington;</li>
<li><a href="http://www.seomoz.org/blog/recommendations-blog-commenting-marketing-strategy" target="_blank">Blog commenting as Marketing Strategy</a> di Rank Fishkin</li>
</ul>
</div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.andreavit.com/blog/casi-in-esame/link-building-per-drogare-le-serp-google-in-crisi-tampona-con-interventi-manuali.html/feed</wfw:commentRss>
		<slash:comments>45</slash:comments>
		</item>
		<item>
		<title>Analisi sul fenomeno di pedofilo.com e vatican.va: Google ed il vaticano hanno peccato nella canonizzazione dei domini?</title>
		<link>http://www.andreavit.com/blog/search-engine-optimization/analisi-sul-fenomeno-di-pedofilo-com-e-vatican-va-google-ed-il-vaticano-hanno-peccato-nella-canonizzazione-dei-domini.html</link>
		<comments>http://www.andreavit.com/blog/search-engine-optimization/analisi-sul-fenomeno-di-pedofilo-com-e-vatican-va-google-ed-il-vaticano-hanno-peccato-nella-canonizzazione-dei-domini.html#comments</comments>
		<pubDate>Sat, 24 Jul 2010 23:15:33 +0000</pubDate>
		<dc:creator>Andrea Vit</dc:creator>
				<category><![CDATA[Casi in esame]]></category>
		<category><![CDATA[Penalizzazioni e spam]]></category>
		<category><![CDATA[Search Engine Optimization]]></category>
		<category><![CDATA[analisi SEO]]></category>
		<category><![CDATA[contenuti duplicati]]></category>
		<category><![CDATA[giornalisti italiani]]></category>
		<category><![CDATA[google spam]]></category>
		<category><![CDATA[pedofilo.com]]></category>
		<category><![CDATA[vatican.va]]></category>

		<guid isPermaLink="false">http://www.andreavit.com/blog/?p=470</guid>
		<description><![CDATA[Il 17 luglio si è fatto un gran parlare del caso di vatican.va che ha subito uno scherzetto Black Hat da parte di un simpatico SEO messicano. In pratica il risultato dell&#8217;azione ha portato il dominio “pedofilo.com” in testa ai risultati di Google per chiavi ricerca importanti quali vatican, vaticano, ecc. sia su google.it, che [...]]]></description>
			<content:encoded><![CDATA[<p>Il 17 luglio si è fatto un gran parlare del caso di vatican.va che ha subito <strong>uno scherzetto Black Hat </strong>da parte di un simpatico SEO messicano.<br />
In pratica il risultato dell&#8217;azione ha portato il dominio “pedofilo.com” in testa ai risultati di Google per chiavi ricerca importanti quali vatican, vaticano, ecc. sia su google.it, che sulle versioni internazionali del motore di ricerca.</p>
<p style="text-align: center; "><img class="size-full wp-image-472  aligncenter" title="pedofilo.com prima del sito vatican.va" src="http://www.andreavit.com/blog/wp-content/uploads/2010/07/C_0_articolo_486572_listatakes_itemTake_0_immaginetake1.jpg" alt="pedofilo.com prima del sito vatican.va" width="452" height="227" /></p>
<p><strong>Molti</strong> <strong>giornali hanno citato</strong> il fatto dicendo che la causa del fenomeno era da ricondursi ad attacchi Hacker, di Google Bombing, di bug/glitch di Google, e chi più ne ha più ne metta:</p>
<ul>
<li><a href="http://www.repubblica.it/tecnologia/2010/07/17/news/cerchi_vaticano_esce_pedofilo_google_beffa_sui_risultati-5649746/  " target="_blank">http://www.repubblica.it/tecnologia/2010/07/17/news/cerchi_vaticano_esce_pedofilo_google_beffa_sui_risultati-5649746/</a></li>
<li><a href="http://www.corriere.it/cronache/10_luglio_17/google-vatican_d0b51b26-91bb-11df-8c13-00144f02aabe.shtml  " target="_blank">http://www.corriere.it/cronache/10_luglio_17/google-vatican_d0b51b26-91bb-11df-8c13-00144f02aabe.shtml</a></li>
</ul>
<p><a href="http://www.repubblica.it/tecnologia/2010/07/17/news/cerchi_vaticano_esce_pedofilo_google_beffa_sui_risultati-5649746/  " target="_blank"></a></p>
<p>In realtà a prima vista, al di là dello stupore per la forza dell&#8217;azione, sono rimasto un po&#8217; perplesso per come i media hanno descritto il fenomeno: il Google Bombing a detta degli ingegneri di Google è stato sistemato, quindi potrebbe anche non trattarsi di un problema di questo tipo. (o non solo di questo)</p>
<p>Qualcun altro in rete ha manifestato qualche dubbio, ad esempio <a href="http://twitter.com/gpelagatti" target="_blank">Giacomo Pelagatti su Twitter</a>, il blog &#8220;<a href="http://maxifasso.wordpress.com/2010/07/18/pedofilo-com/">L&#8217;interno dell&#8217;agnello</a>&#8220;, il <a href="http://www.giorgiotave.it/forum/google/145374-google-vatican-cosa-e-successo.html" target="_blank">forum GT</a>, <a href="http://www.tallerseo.com/2010/07/vatican-google-parte-ii.html">Taller SEO (from Spain)</a>,</p>
<p>Per far sì che si tratti di Google Bombing è necessario che si abbia a disposizione un numero elevatissimo di risorse che linkino una pagina con degli specifici termini, come nel caso di miserable failure per George Bush, merda per italia.it, ecc.</p>
<p>In questo caso, però mi pare che il problema sia diverso, le attività di Google Bombing solitamente servono per associare un dominio noto ed affermato a temi diversi dal normale: in poche parole molti link con la parola “merda” portano Google a pensare che il portale turistico italia.it, sia associato non a temi turistici, ma a deiezioni umane.</p>
<p>I<strong>l risultato di questa azione, invece, è stato sostituire una pagina storicamente rilevante per un termine con un&#8217;altra pagina</strong>. Quindi che l&#8217;home page di pedofilo.com fosse ritenuta più rilevante dell&#8217;home page di www.vatican.va per parole chiave tipo vaticano, vatican, ecc.</p>
<p><strong>Come è possibile che sia avvenuto tutto ciò? Facciamo un po&#8217; di chiarezza per quanto possibile&#8230;<span id="more-470"></span><span style="font-weight: normal;">Prima di tutto escludiamo fenomeni di hacking subiti dal Vaticano, in quanto non sono dimostrabili.</span> </strong></p>
<p><strong>1) il sito pedofilo.com conteneva una copia del sito vatican.va (o parte di esso)</strong></p>
<p>Partiamo da una premessa, il dominio pedofilo.com che ora redirige al dominio dell&#8217;agenzia che ha svolto quest&#8217;attività, possedeva moltissimi contenuti clonati del dominio vatican.va. Non è possibile parlare di sito clone integralmente poiché non è più verificabile tale ipotesi.</p>
<p>Ecco la situazione dell&#8217;archivio di Google con il comando site:</p>
<p style="text-align: center; "><img class="size-full wp-image-473  aligncenter" title="Immagine 5" src="http://www.andreavit.com/blog/wp-content/uploads/2010/07/Immagine-5.png" alt="Immagine 5" width="721" height="444" /></p>
<p>In sostanza pare che il sito del vaticano sia stato clonato copiando nel dominio pedofilo.com i documenti e sostituendo tutte le occorrenze del testo www.vatican.va  presenti in pagina  con quelle del dominio www.pedofilo.com.</p>
<p>Eccone qui un esempio (notare i link in basso dei due documenti):</p>
<p style="text-align: center;"><img class="aligncenter size-full wp-image-475" title="Documento clonato di pedofilo.com con link riscritti" src="http://www.andreavit.com/blog/wp-content/uploads/2010/07/Immagine-71.png" alt="Documento clonato di pedofilo.com con link riscritti" width="404" height="497" /></p>
<p style="text-align: center;">
<p style="text-align: center;"><img class="aligncenter size-full wp-image-476" title="Documento clonato di vatican.va con link originali" src="http://www.andreavit.com/blog/wp-content/uploads/2010/07/Immagine-9.png" alt="Documento clonato di vatican.va con link originali" width="390" height="561" /></p>
<p><strong>2) il sito del Vaticano ha una miriade di contenuti/domini duplicati e un ottimizzazione SEO scadente</strong></p>
<p>Questa copia però non giustifica il fenomeno in quanto il sito della Santa Sede è da sempre fonte di attacchi di hacker e che ha uno svariato numero di domini che copiano-riportano integralmente dei contenuti.</p>
<p>Ecco alcuni esempi di siti reperiti che non sembrano molto trusted a prima vista&#8230; <img src='http://www.andreavit.com/blog/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /> </p>
<ul>
<li>http://www.0100101110101101.org/home/vaticano.org/spoof/index.html</li>
<li>http://www.jesus.2000.years.de/</li>
<li>http://ev6.org</li>
<li>http://lgrd.info</li>
</ul>
<p>Parrebbe inoltre che gli ultimi due siano associati all&#8217;IP della Santa Sede attraverso DNS.</p>
<p>Inoltre anche la Santa Sede ci mette del suo con un numero sterminato di domini da loro in possesso che contengono gli stessi contenuti:</p>
<ul>
<li>http://www.vatican.edu/</li>
<li>http://www.va</li>
<li>http://benedictumxvi.va/</li>
<li>http://www.vatican.net/</li>
<li>http://benedettoxvi.va/</li>
</ul>
<p>Ed una gestione degli errori 404 con un 302 verso l&#8217;homepage ed una pessima struttura del sito per i motori di ricerca (e per gli utenti <img src='http://www.andreavit.com/blog/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' />  )</p>
<p><strong>3) Google sembra aver fatto un po&#8217; di confusione con le diverse copie dei domini</strong></p>
<p>Nelle copie cache, ho notato una piccola stranezza che non so quanto possa essere utile a trarre conclusioni.<br />
Il dominio di riferimento della copia cache dei documenti di pedofilo.com è spesso diverso:  non solo pedofilo.com o quello “canonico” (passatemi la battuta) vatican.va .</p>
<p>Ecco una copia cache di pedofilo.com con il dominio corretto:</p>
<p style="text-align: left;"><img class="aligncenter size-full wp-image-481" src="http://www.andreavit.com/blog/wp-content/uploads/2010/07/Immagine-19.png" alt="" width="755" height="527" /><br />
Qui una copia riferita però al dominio www.vatican.va:</p>
<p style="text-align: center;"><img class="aligncenter size-full wp-image-488" src="http://www.andreavit.com/blog/wp-content/uploads/2010/07/Immagine-11.png" alt="" width="689" height="367" /></p>
<p>Qui un&#8217;altra riferita a www.va:</p>
<p><img style="display: block; margin-left: auto; margin-right: auto; border: 0px initial initial;" title="Copia cache associata a www.va" src="http://www.andreavit.com/blog/wp-content/uploads/2010/07/Immagine-26.png" alt="Copia cache associata a www.va" width="799" height="372" /></p>
<p>Qui una riferita a www.vatican.edu:</p>
<p><img style="display: block; margin-left: auto; margin-right: auto; border: 0px initial initial;" src="http://www.andreavit.com/blog/wp-content/uploads/2010/07/Immagine-28.png" alt="" width="446" height="416" /></p>
<p>Qui una riferita a http://www.jesus.2000.years.de/:</p>
<p style="text-align: center;"><img class="aligncenter size-full wp-image-480" src="http://www.andreavit.com/blog/wp-content/uploads/2010/07/Immagine-17.png" alt="" width="556" height="422" /></p>
<p>Ed infine una riferita a www.lgrd.info:</p>
<p><img style="display: block; margin-left: auto; margin-right: auto; border: 0px initial initial;" src="http://www.andreavit.com/blog/wp-content/uploads/2010/07/Immagine-27.png" alt="" width="524" height="416" /></p>
<p>In alcuni casi, ricercando dei documenti si può notare come <strong>Google restituisca i risultati dei domini “clonati” ma non del sito principale</strong>.</p>
<p style="text-align: center;"><img class="aligncenter size-full wp-image-482" title="Google mostra i risultati duplicati ma non quelli originali" src="http://www.andreavit.com/blog/wp-content/uploads/2010/07/Immagine-25.png" alt="Google mostra i risultati duplicati ma non quelli originali" width="494" height="248" /></p>
<p>Insomma pare che Google, per qualche ragione, abbia delle difficoltà a capire qual&#8217;è il dominio che “comanda” ovvero potrebbe essere <strong>afflitto da gravi problemi di canonizzazione dei documenti.</strong></p>
<p>Aggiungo inoltre che <strong>Google</strong><strong> sembra quasi associare il dominio vatican.va ai testi dei nomi dei domini duplicati </strong>“pedofilo.com”, &#8220;lgrd.info&#8221;, “vatican.edu”, ecc.</p>
<p style="text-align: center;"><img class="aligncenter size-full wp-image-483" src="http://www.andreavit.com/blog/wp-content/uploads/2010/07/Immagine-29.png" alt="" width="592" height="298" /></p>
<p style="text-align: center;">
<p style="text-align: center;"><img class="aligncenter size-full wp-image-484" src="http://www.andreavit.com/blog/wp-content/uploads/2010/07/Immagine-30.png" alt="" width="494" height="282" /></p>
<p><strong>4) Conclusioni</strong></p>
<p>Da una prima analisi, quindi, il motivo principale di questo inconveniente pare da ricondursi maggiormente a <strong>problemi di canonizzazione dei domini</strong> più che a fenomeni di Google Bombing. Facilitati in prima istanza dalla scarsissima ottimizzazione Seo del sito del Vaticano e alla presenza di moltissimi contenuti duplicati.<br />
Tuttavia alcuni pezzettini di questo bizzarro episodio restano parzialmente fumosi. Allo scenario potremmo anche aggiungere la possibilità che possano essere avvenuti fenomeni di &#8220;intrusione&#8221; nei sistemi del Vaticano come:</p>
<ul>
<li>intrusione nel<strong> DNS che gestisce il puntamento dei domini del vaticano</strong>;</li>
<li>un <strong>temporaneo</strong><strong> redirect dal dominio vatican.va verso il sito pedofilo.com</strong>;</li>
<li>una <strong>frau</strong><strong>dolenta validazione del Google Webmaster Tool del dominio vatican.va.</strong></li>
</ul>
<p>Si tratta di ipotesi da non escludere, purtroppo però non più verificabili e difficilmente lo verremo a scoprire. Quindi non mi va di gridare al lupo al lupo. <img src='http://www.andreavit.com/blog/wp-includes/images/smilies/icon_smile.gif' alt=':-)' class='wp-smiley' /> </p>
<p>Voi che cosa ne pensate in merito? Vi trovate d&#8217;accordo su alcuni punti della mia analisi?Avete qualcosa da aggiungere?</p>
]]></content:encoded>
			<wfw:commentRss>http://www.andreavit.com/blog/search-engine-optimization/analisi-sul-fenomeno-di-pedofilo-com-e-vatican-va-google-ed-il-vaticano-hanno-peccato-nella-canonizzazione-dei-domini.html/feed</wfw:commentRss>
		<slash:comments>21</slash:comments>
		</item>
		<item>
		<title>Lo spam e Google: nuovo brevetto contro spam, link farm e web ring.</title>
		<link>http://www.andreavit.com/blog/penalizzazioni-e-spam/lo-spam-e-google-nuovo-brevetto-contro-spam-link-farm-e-web-ring.html</link>
		<comments>http://www.andreavit.com/blog/penalizzazioni-e-spam/lo-spam-e-google-nuovo-brevetto-contro-spam-link-farm-e-web-ring.html#comments</comments>
		<pubDate>Thu, 02 Apr 2009 19:39:59 +0000</pubDate>
		<dc:creator>Andrea Vit</dc:creator>
				<category><![CDATA[Penalizzazioni e spam]]></category>
		<category><![CDATA[brevetti Google]]></category>
		<category><![CDATA[google spam]]></category>
		<category><![CDATA[link farm]]></category>
		<category><![CDATA[web ring]]></category>

		<guid isPermaLink="false">http://www.andreavit.com/blog/?p=175</guid>
		<description><![CDATA[Molto interessante un nuovo brevetto di Google &#8220;Method for detecting link spam in hyperlinked databases&#8220;, dedicato alla lotta allo spam e ai network artificiali di link registrato il 24 Marzo 2009. La registrazione del brevetto è volta al miglioramento delle attività di intercettazione algoritmica dello spam e in particolari di due noti fianchi parti per [...]]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">Molto interessante un nuovo brevetto di Google &#8220;<a href="http://patft.uspto.gov/netacgi/nph-Parser?Sect1=PTO2&amp;Sect2=HITOFF&amp;u=%2Fnetahtml%2FPTO%2Fsearch-adv.htm&amp;r=1&amp;p=1&amp;f=G&amp;l=50&amp;d=PTXT&amp;S1=7,509,344.PN.&amp;OS=pn/7,509,344&amp;RS=PN/7,509,344" target="_blank">Method for detecting link spam in hyperlinked databases</a>&#8220;, dedicato alla lotta allo spam e ai network artificiali di link registrato il 24 Marzo 2009.</p>
<p style="text-align: justify;">La registrazione del brevetto è volta al miglioramento delle attività di intercettazione algoritmica dello spam e in particolari di due noti fianchi parti per l&#8217;algoritmo di Google:</p>
<ul style="text-align: justify;">
<li><strong>la link farm: </strong>una serie di pagine che puntano tutte ad uno stesso documento al fine di aumentarne la popolarità.</li>
<li><strong>clique attack (o web ring):</strong> delle interconnessioni reciproche tra diversi documenti per forzare l&#8217;autorevolezza, l&#8217;importanza ed il trust delle pagine stesse.<span id="more-175"></span></li>
<p style="text-align: center;"><img class="alignnone size-full wp-image-176 aligncenter" title="Schema di Link farm e web Ring" src="http://www.andreavit.com/blog/wp-content/uploads/2009/04/google-link-spam.gif" alt="" width="335" height="452" /></p>
</ul>
<p style="text-align: justify;">Nel brevetto si dice che verranno eseguite delle elaborazioni  della base dati dei link presenti nel web, associandone un punteggio in base a  fattori principalmente storici e di trust delle fonti.</p>
<p style="text-align: justify;">Nella fase di definizione del trust, oltre ad una grande attenzione dell&#8217;andamento nel tempo dei backlink, ritengo interessante anche il &#8220;<strong>link coupling factor</strong>&#8220;: ovvero un  punteggio di ‘vicinanza&#8217; delle sorgenti dei link che permette di riuscire a  capire quanto delle sorgenti di link verso lo stesso sito siano correlate tra  loro.</p>
<p style="text-align: justify;">Questo dovrebbe essere il primo passo per capire se tali pattern di link abbiano la connotazione di link fasulli e quindi essere marchiati come spam.</p>
<p style="text-align: justify;">Va detto che <strong>più un sito che linka è trusted più la  soluzione algoritmica proposta non funziona</strong>: banalmente l&#8217;algoritmo dovrebbe  dare un giro di vite per le link farm ma non per network di link tra siti trusted.<em></em></p>
<p style="text-align: justify;">La soluzione avrà ancora difficoltà nella  declassificazione algoritimica della compra vendita dei link, che probabilmente  verrà eseguita prettamente in modo manuale.</p>
<p style="text-align: justify;">Per concludere, credo che sia interessante anche il passo dove vengono esposte, seppur in modo generico, le conseguenze dell&#8217;identificazione di pattern di link sospetti:</p>
<ol style="text-align: left;" type="1">
<li><em>Links from the page might not be  considered at all in determining link importance of other pages. </em></li>
<li><em>The impact of links from the page  might be reduced in importance.</em></li>
<li><em>A predetermined penalty might be  applied to the importance of links from the page.</em></li>
<li><em>The importance of the page might be  reduced in a way that doesn&#8217;t rely upon links.</em></li>
<li style="text-align: justify;"><em>The importance of the page might be  reduced in a way that doesn&#8217;t rely upon links, while also reducing the  importance of links from the page.</em></li>
</ol>
<p><strong>Link utili correlati:</strong></p>
<ul>
<li><a href="http://www.seobythesea.com/?p=1248" target="_blank">Recensione del brevetto di SEO by the Sea</a></li>
<li><a href="http://www.ukgimp.co.uk/2009/03/31/link-spam-in-hyperlinked-databases-google-patent-analysis/" target="_blank">Altra recensione di UK Gimp</a></li>
</ul>
]]></content:encoded>
			<wfw:commentRss>http://www.andreavit.com/blog/penalizzazioni-e-spam/lo-spam-e-google-nuovo-brevetto-contro-spam-link-farm-e-web-ring.html/feed</wfw:commentRss>
		<slash:comments>6</slash:comments>
		</item>
		<item>
		<title>Caso di penalizzazione su Google: post sul blog TSW</title>
		<link>http://www.andreavit.com/blog/penalizzazioni-e-spam/caso-di-penalizzazione-su-google-post-sul-blog-tsw.html</link>
		<comments>http://www.andreavit.com/blog/penalizzazioni-e-spam/caso-di-penalizzazione-su-google-post-sul-blog-tsw.html#comments</comments>
		<pubDate>Sat, 14 Mar 2009 13:22:58 +0000</pubDate>
		<dc:creator>Andrea Vit</dc:creator>
				<category><![CDATA[Penalizzazioni e spam]]></category>
		<category><![CDATA[penalizzazioni su google]]></category>
		<category><![CDATA[post TSW]]></category>

		<guid isPermaLink="false">http://www.andreavit.com/blog/?p=174</guid>
		<description><![CDATA[Dopo un po&#8217; di tempo faccio ritorno sul mio blog per segnalarvi la pubblicazione di un nuovo post nel blog aziendale di TSW, dove affronto alcune tematiche relative ad un caso di penalizzazione su Google particolare e alla risoluzione del caso. La causa della penalizzazione, infatti, non era dovuto alla palese rottura delle linee guida [...]]]></description>
			<content:encoded><![CDATA[<p>Dopo un po&#8217; di tempo faccio ritorno sul mio blog per segnalarvi la pubblicazione di un nuovo post nel blog aziendale di TSW, dove affronto alcune tematiche relative ad un <a href="http://blog.tsw.it/search-engine-optimization/un-caso-risolto-di-penalizzazione-su-google_0003248.html" target="_blank">caso di penalizzazione su Google</a> particolare e alla risoluzione del caso.</p>
<p>La causa della penalizzazione, infatti, non era dovuto alla palese rottura delle linee guida di Google. Piuttosto era causata da una progettazione che teneva poco conto della struttura sematica delle pagine e del numero di contenuti in pagina.</p>
<p>Voi che ne pensate sul questo caso di penalizzazioni?</p>
<p>Buona lettura.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.andreavit.com/blog/penalizzazioni-e-spam/caso-di-penalizzazione-su-google-post-sul-blog-tsw.html/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
	</channel>
</rss>

