Publié le 23/07/2010
Auteur fobec
Réseaux sociaux
0 partages
0 tweets
0 plus
0 commentaires

Google, le moteur de recherche rappel a l'ordre

Chaque seconde, des milliers de requęte sont envoyés sur le moteur de recherche Google. On peut penser que quelques requętes de plus devrait passer inapercu. Ce n'est pas le cas, Google surveille de près l'activité sur son moteur de recherche et en bloque l'accès le cas échéant.

Comment passer pour un spammer aux yeux de Google

Dans le cadre du référencement du site fobec.com, je développe une application SEO en JAVA. Pour vérifier l'indexation du site, l'outil teste les URL du sitemap sur Google une à une avec une requęte de type
http://www.google.com/search?q=inurl:http://www.fobec.com/CMS/...

Au fil de la boucle, le temps de traitement d'une URL passe de 0,15 sec à 5 sec. Vérification faite, aucune fuite mémoire dans mon code, c'est bien le temps de réponse de Google qui est devenu plus long.

Google rappel à l'ordre

En saisissant l'URL manuellement dans le navigateur internet Mozilla, on obtient un début d'explication:
google_colere

"nous ne pouvons pas traiter votre requęte pour le moment. Un virus informatique ou un spyware (logiciel espion) nous envoie des requętes automatiques, et il semble que votre ordinateur ou votre réseau soit infecté."

L'interface classique du moteur s'affiche à nouveau après le test gotcha. Par contre, que ce soit en java ou que ce soit sous Mozilla, toutes les requętes de type inurl ont un délai de réponse de 5 secondes.
A priori, Google sanctionne l'IP et une série de mot clé pour une période donnée.

Conclusion

Si vous souhaitez Scraper Google, la première chose à faire est de ne pas se faire prendre par les filtres anti-bot du moteur de recherche. Lorsque votre adresse IP est détectée comme suspecte, il n'est pas facile de retrouver le comportement normal à vos requetes sur Google. A priori, la solutions consiste à utiliser plusieurs adresses IP et de varier au maximum les UserAgent, le type de requete et d'arreter les requetes à la première alerte.

Ajouter un commentaire

Les champs marqués d'un * sont obligatoires, les adresses emails se sont pas publiées.

A lire aussi

Réseaux sociaux
Présentation de l'article
Catégorie
tuto - webmaster
Mise a jour
23/07/2010
Visualisation
vu 2833 fois
Public
Internaute
Auteur de la publication
Fobec
Admin
Auteur de 265 articles
|BIO_PSEUDO|
Commentaires récents

Publié par Romaingineer dans tuto

Question un peu similaire celle de nicolasterraes.

Je ne trouve pas de ligne dans wpcontentthemes, j'en trouve 2 ou trois dans WP includes mais qui utilsent la fonction echo...

Du coup...

Publié par nico dans java

Petite erreur constate.
Apparemment il faut remplacer :
&mailTo = &?body=Envoyer un email avec Java
par &mailTo = < et commercial sans '<' et '>' &body=Envoyer un email avec Java

Publié par bob le poisson dans java

Bonjour, votre script est tres bien mais attention l'utilisation du mot cle static sur la methode scale(BufferedImage bImage, double factor) est inutile et empeche de liberer la ressource.

Publié par Fred dans tuto

J'suis d'accord avec Do, PHP est deja un moteur de template.
Disons que le moteur de template permet de separer le code de la vue pour les debutants qui ont besoin qu'on leur impose des bornes...

Publié par Fobec dans java

oups quelques lignes manquent sur ce code ! ... l'exemple est corrige et complet
Merci Tom