Dans l’incessante partie de cache-cache qui m’oppose à Google, j’ai récemment commencé à m’intéresser de plus près à la façon dont leur équipe qualité évolue et bannit les sites qui gagnent plein d’argent ne rentrent pas dans leur critère.
Il se fait que ma situation professionnelle m’a justement amené à travailler dans la qualité au sein d’un très gros service informatique. Avec le temps, il m’est souvent arrivé de me dire que Google est certainement confronté aux mêmes problématiques que je rencontre tous les jours.
Mon travail consiste à évaluer les performances des différents prestataires informatiques évoluant au sein de l’entreprise. J’ai à ma disposition un gigantesque ensemble d’informations provenant de sources variées: fichiers, téléphones, bases de données, etc.
A partir de cela, je construis des indicateurs et fait des rapports, la plupart du temps sous forme de graphes et tableaux. Je fais aussi des analyses détaillées sur les chiffres que j’obtiens. Je peux aussi déclencher des alertes en fonction de critères bien précis.
La première chose à savoir, c’est que la production de ces indicateurs est généralement bien automatisée. En effet, des outils aussi géniaux que PHP, Oracle, Excel (Et oui !) ou encore XML permettent de traiter n’importe quel type de données. Mais la seconde chose que je constate, c’est qu’une bonne analyse ne pourra jamais être remplacée par un algorithme aussi puissant soit-il.
Je vous donne un exemple basique. Un technicien helpdesk gère une dizaine d’incidents par jour. Le technicien est bien noté et perçoit une prime en fonction du nombre d’incidents qu’il résout. Cette prime peut être automatiquement produite par un indicateur que je crée via un script qui va interroger la base de données des incidents. Un jour, je m’aperçois que cet indicateur s’est complètement effondré. Si je voulais agir à la manière d’un ordinateur, sa prime aurait dû être automatiquement réduite par l’algorithme. Mais après analyse, il s’avère que trois nouveaux techniciens sont arrivés au cours du mois et qu’ils ont été pris en charge par le technicien senior. Celui-ci a bien évidemment été forcé de réduire sa tâche de travail opérationnel (son nombre de tickets) pour former les jeunes recrues.
Il en ressort donc que l’on ne peut pas appliquer systématiquement une pénalité sur la seule base d’un indicateur calculé: il faut parfois une analyse complémentaire pour obtenir un résultat fiable.
Maintenant, je profite de ma situation pour me mettre à la place de l’équipe qualité de Google, puisque nous faisons un travail similaire. Tout ce que je vous livre est le pur fruit de ma réflexion professionnelle et n’est donc que spéculation. Mais je pense que cela vous amènera à réfléchir plus longuement sur leur problématique pour mieux la contourner.
Pour évaluer le résultat d’une requête, j’ai tout d’abord une problématique de taille: la volumétrie absolument gigantesque de l’information à traiter.
Le premier point est que je ne peux me permettre de mettre derrière chaque expression un analyste qui va décortiquer les résultats: il me faut des indicateurs, des alertes et surtout trier l’information. Je ne vais pas partir arbitrairement sur quelques mots clés. Après tout, il est très difficile d’évaluer le comportement d’un Internaute lambda: dans la vie de tous les jours, il ne passe pas son temps à chercher des vidéos ou acheter du viagra.
Pour ce faire, je commence par créer un indicateur de vigilance par expression. Celui-ci se calculera en fonction de la dynamique des liens et surtout des alertes que j’aurais généré dans mes analyses des backlinks. Ce dont je m’aperçois, c’est qu’il existe une grosse pression dans la construction des liens sur certains mots clé. C’est là que vont se dégager les « achat viagra » et autre « cialis », pourvoyeurs de très grosses quantités de liens.
Sur ce type d’expression, j’ai positionné mon indicateur à 5000. A côté du viagra, une longue traine comme « viagra pas cher à Douchy Les Mines » recevra une note de seulement 20. Grâce à la vigilance, je sais désormais où je dois appuyer mes analyses et mes efforts pour lutter contre le spam. J’ai ainsi résolu mon problème de volumétrie.
L’indicateur de vigilance va devoir évoluer avec le temps; dans la seconde partie où je détaillerai le fonctionnement de mon autre indicateur, j’aurai la possibilité d’augmenter ma vigilance. Chaque mois verra aussi la diminution arbitraire de ma vigilance, ceci pour pallier à une anomalie du système que l’on appelle le Buzz. Celui-ci est le résultat d’une actualité exceptionnelle mais qui ne représente pas véritablement un danger pour la pertinence des résultats: avec le temps, il finit par s’estomper. C’est le cas par exemple, d’un concours de référencement dont la vigilance va rapidement atteindre des sommets, avec un score de 4500 par exemple pour finir par dégringoler pratiquement à zéro quelques mois après la fin du concours.
Mon second indicateur est la vélocité. Les liens naturels sont variés et se construisent doucement au fil du temps. Le fait de passer de un à plus de 1000 backlinks en l’espace de quelques jours est un déclencheur élémentaire d’alerte. A chaque ajout de backlink, ma vélocité va augmenter. Mais tout comme ma vigilance, elle va aussi diminuer lentement au cours des jours à cause de l’effet Buzz.
Si ma vélocité dépasse un seuil alors je peux commencer par lancer une analyse automatique des backlinks. Il n’est pas bien difficile de déterminer la qualité d’un lien:
– les nouveaux liens sont-il uniformes ou pas (même mot clé sur même URL)
– combien d’OBL (liens sortants) sont présents sur la page ?
– la page contient-elle des mots clés disposant d’une vigilance importante (Viagra, Cialis) ?
– le lien est-il une ancre ou une url ?
– l’âge du domaine
– le profil du Webmaster (Voir Google, tu m’ennuies)
– etc.
A ce niveau, je peux déjà choisir de retirer automatiquement ou de pénaliser un site rien que sur quelques critères. Et si cela n’est pas probant, j’ai toujours la possibilité de me tourner vers la vigilance qui m’indique si je dois oui ou non engager une analyse manuelle.
Si l’une des analyses tranche en défaveur du sondé, qu’elle le déclare spammeur, alors la vigilance sera augmentée et assurera la pérennité de mon système de filtrage.
Voilà, vous avez désormais une idée de la façon dont j’aurai à gérer le filtrage si je faisais partie de l’équipe qualité de Google: en construisant un mécanisme composé de quelques indicateurs formant un scoring, et dans lequel l’analyse manuelle aurait toute sa place. Car comme, je vous l’ai déjà expliqué jamais un programme informatique ne sera capable de reproduire l’une des plus puissantes qualités de l’homme: le jugement.
Pour ma part, j’axerais également sur la « nébuleuse » du site internet et je me poserais la question de savoir si les liens proviennent d’étrangers au site (donc forte légitimité) ou bien s’ils proviennent de sites qui appartiennent au même webmaster.
Pour savoir s’ils appartiennent au même webmaster : même id adsense, même compte analytics, même compte GWT.
Pour la question de la même IP qui fait souvent débat, pour identifier s’il s’agit d’un mutu ou bien d’un dédié, je ferais un ratio :
– nombre de domaines hébergés sur le serveur,
– nombre de propriétaires de domaines différents (cf whois)
J’analyserais également le contenu (parce que content is king hein), en regardant la proportion entre « contenu » et contenu publicitaire = adsense, liens d’affil, bannières.
Je pense que l’empathie est effectivement le meilleur moyen de faire du reverse engineering sur Google, loin devant les tests SEO à une variable donc forcément faux ou incomplets et dans tous les cas très limités.
Je reste malgré tout surpris par les exemples de « fils a papa » ou d' »incompétence » qui permettent de ranker très haut : peu de sites qui pointent, de manière très rapide, et toujours avec la même ancre, vers un seul site. L’idéal serait de pouvoir créer des « google bombings » avec un seul et même réseau.
Tiens, ton PR est remonté ;)
héhé, merci pour la bannière ;)