Les secrets de l’algorithme du moteur de recherche Google dévoilés par la justice Américaine !
Google est sous le coup d’un procès antitrust aux Etats Unis. Ce procès est l’occasion de revoir des brevets et des fuites de documents encore inconnus sur le fonctionnement de l’algorithme de Google. Ce qui fait le bonheur des experts SEO autour du globe. Parcourons ensemble les principaux facteurs de référencements dévoilés dans cette procédure.
Nous allons utiliser pour cet article les informations dévoilées dans le témoignage du vice président d’alphabet (Pandu Nayak) ainsi que le rapport d’Edward A. Fox démenti par le professeur Douglas W Oard, sur limpact des données utilisateurs sur le ranking. Nous ajouterons bien sur la 410 Touch’ dans l’interprétation de ces éléments ainsi que nos conseils pour bien exploiter ces informations.
L’objectif de cet article est vraiment d’exploiter cette rare occasion de se baser sur du concret pour prodiguer des conseils SEO alors que d’habitude, seul le reverse engeenering permet de tirer des conclusions dont la précision peut varier.
L’analyse du comportement de l’internaute face aux résultats
Les premiers éléments de l’algorithme que nous allons analyser sont Navboost et RankBrain qui sont là pour aider Google à valider qu’il a présenté les bons résultats à l’internaute et éventuellement ajuster sa réponse en fonction des feedbacks utilisateurs ainsi recueillis.
L’impact de la navigation sur le ranking « Navboost »
C’est ici une pré-version de RankBrain que nous décrirons plus loin. Cet algorithme mesure sur quels résultats les internautes cliquent dans une page de résultat sur une requête donnée.
C’est en quelque sorte le vote de satisfaction des utilisateurs face à la réponse proposée par Google. Si un résultat est plus souvent choisi / cliqué qu’un résultat mieux classé, c’est sans doute qu’il faut changer l’ordre.
On peut donc en déduire l’impact du CTR sur le ranking, et de facto : l’importance de la balise title pour donner envie de cliquer. Idem pour la meta description (qui n’a qu’un impact CTR et pas un impact sémantique), l’importance des données structurées si le résultat y est éligible, des images en carrousel ou non, bref tout ce qui vient enrichir visuellement et peut donner envie de cliquer.
À noter que Google avait tenté de retirer cet algorithme et avait constaté une baisse de qualité.
En résumé sur Navboost :
Lancé en 2005 et maintenu depuis
Enregistre les clicks des 13 derniers mois
Fais la séparation entre Desktop et mobile
Tiens compte de l’emplacement et du périphérique de navigation utilisé
Le modèle mathématique tend à utiliser l’IS (Information Satisfaction score) un critère de validation humain pour pondérer les critères de ranking.
RankBrain : quand l’IA analyse votre comportement
En résumé, RankBrain est la version IA de Navboost. La partie analyse du comportement des Internautes face à un résultat donné est toujours présente, mais on y ajoute une meilleure compréhension de l’intention de recherche; plus particulièrement sur les requêtes ambiguës ou complexes. C’est ici que se décidera si une requête est vue comme commerciale ou informationnelle par exemple.
Rankbrain a lui été lancé en 2015, ce qui est cohérent avec les premiers déploiement du Deep Learning à grande échelle, il travaille en revanche sur des données plus fraiches que Navboost, ce qui en améliore la précision, mais peut également engendrer de la volatilité, que ce soit en termes de ranking ou de compréhension de l’évolution d’une intention de recherche.
En résumé sur RankBrain
Un modèle de deep learning pour améliorer le ranking
Entrainé avec l’interaction des clics des utilisations dans les résultats de recherche.
Affiné avec l’IS (Information Satisfaction score) une validation humaine
Analyse les requêtes avec un modèle unigram et bigrams (les fameux N grams de la sémantique)
Se concentre sur les premiers résultats, on suppose ici qu’il s’agit du top 10.
Couteux en exécution pour Google (en termes d’énergie / ressource machine). peut-on émettre l’hypothèse que toutes les requêtes ne sont pas forcément concernées ?
Entrain avec des données récentes de plusieurs langues et depuis plusieurs localisations.
Dévoilez le vrai du faux des secrets du SEO avec nos experts certifiés.
La compréhension de l’intention de recherche
Cette seconde vague d’algorithme vise à mieux comprendre l’intention de recherche de l’Internaute. Cela passe par l’extraction des termes importants, mais aussi l’analyse de leur ordre.
QSBT : la pondération des termes d’une requête
QSBT veut dire: Query Based Salient Terms, ce qui signifie extraction de la partie de la plus importante d’une recherche. C’est en grossissant le trait, ce qui exclu les mots de liaisons et tout terme neutre dans une recherche. On retrouve ici encore une fois l’importance de la sémantique.
Term Weighting: le poids des mots
C’est une variante de QSBT, qui est entrainé uniquement sur les requêtes et pas les documents.
DeepRank : le vrai nom de BERT
C’est la version la plus aboutie de la compréhension de l’intention de recherche et du contexte des requêtes. DeepRank est en fait le nom interne chez Google de BERT que vous avez probablement entendu ailleurs. BERT est pré entrainé avec une large base de documents et permet donc d’affiner la pertinence des résultats proposées sur une requête.
En résumé sur DeepRank :
Dernière couche des algos de deep learning de Google.
Pré entraine avec des données comme les URLs, les titres et les termes importants.
Affiné avec les données de clicks et l’IS
Fonctionne sur un ensemble de mot et non pas des paragraphes ou document entiers.
Ajuste sa compréhension et les nuances entre les langues en se basant sur des évaluations humaines.
RankEmbed-Bert : conjuguons UX et sémantique
Cette partie de l’agorithme sert à grouper les informations de Navboost et la compréhension avancées de l’intention par Bert. il est entrainé sur la base des pages web, des requêtes, des résultats de clicks, et l’évaluation humaine.
MUM: Bert sous steroids
Mum est certains beaucoup plus puissant que Bert (on parle d’un facteur de 1 à 1000), il est aussi beaucoup plus couteux en ressources de part son aspect multimodal en termes de formats, de nombres de langues : 75.
Mum en résumé :
Très couteux en énergie
Non utilisé en production en temps réel, car lent et pas sur l’ensemble des requêtes
utilisé pour entrain des modèles spécifiques de petites tailles.
Comment utiliser ces critères sur votre site ?
Identifiez bien les requêtes de vos prospects à l’aide de votre étude de mots clefs et plus particulièrement de la Search Console.
Travaillez vos pages et vos balises title à l’aide d’outil d’optimisation sémantiques pointus pour vous assurer que Google comprenne bien l’objectif de votre page.
Objectif principal : gagner en précision face à l’intention de recherche des Internautes.
La gestion de l’affichage des résultats de recherche
Une partie des algorithmes dévoilés concernent la gestion de l’affichage de la page de résultats. Nous allons ici décortiquer les différents composants pour mieux entrevoir les possibilités qui s’offre à nous pour travailler le référencement de nos sites web.
Tangram et Glue : quand Google joue à Tétris
Tangram a pour objectif simple d’afficher les résultats dans une SERP sous différents formats, qu’il s’agisse de résultats classiques en termes d’affichage, de carrousel, de snippets etc. (NB: Tangram s’appelait Tetris avant.)
Dans ce cas, c’est tangram qui décide si tel ou tel snippets est pertinent dans une serp pour l’UX, si il doit y avoir une carte etc etc…
Glue quand lui a été lancé en 2013 et exploite les données de Navboost pour ajuster la position des snippets dans une page de résultats. (Peut-on en déduire que de nombreux clics sur un carrousel vidéo le fera remonter ?). Glue est utilisé tant dans les résultats que les knowledge graph, les PAA, et permet d’exploiter les données issus des différents types de résultats de recherche et des pérphériques utilisés.
Freshness Node Tangram et Instant Glue
On l’a vue avec RankBrain, Google a toujours une version de fond, et une version pour s’adapter rapidement. Ici ces deux algorithmes vont faire en sorte de valoriser si c’est pertinent la fraicheur des informations. C’est la partie qui correspond le plus aux données de type Google News. elle fait d’ailleurs écho au légendaire « boost de fraicheur » même hors google news.
Cet algorithme (FNT) va en résumé contrôle que les critères de ranking fournissent des réponses qui sont toujours cohérents avec les documents les plus récents. ils joueront donc un rôle sur la bascule d’une SERP en news vers de l’informationnel classique.
Instant Glue est lui basé sur les dernières 24h avec une latence de 10mn. On est donc dans un cadre d’application des résultats les plus récents en termes de critères de ranking et de signal utilisateurs.
Comment utiliser ces critères sur votre site ?
Ajouter les médias pertinents dans vos contenus en fonction de ceux présents dans la page de résultats
Veillez à faire du contenu frais ou mettre à jour l’existant en fonction de l’actualité de votre secteur.
Objectif principal : suivre l’intention de recherche dans le temps, mettre à jour le type de réponse et son contenu.
Les critères d’évaluation de la qualité selon Google
Il a été démontré grâce au témoignage contradictoire du professeur Douglas W. Oard que Google utilise effectivement des signaux utilisateurs pour affiner et pondéré les critères de ces algorithmes afin d’obtenir les meilleurs résultats possibles. Dans la suite de cet article, nous allons passer en revue ces différents critères d’évaluation.
IS Score : Information Satisfaction score
L’IS score repose sur une évaluation humain des résultats de recherche. Les « évaluateurs » se voient présenter des résultats de recherche dans savoir si il s’agit de résultats issus de Bing ou de Google. Cette méthode pose question car bien que partant d’une bonne intention, on peut questionner son obsolescence face à des modèles comme MUM de plus en plus pertinents. En effet toute analyse humaine induit un nombre de biais conséquents. Ici le principal étant une surdose ou une absence de contexte : dans un cas l’humain peut surévaluer la pertinence d’un résultat à cause de la seule affinité qu’il a avec une marque, et dans un autre ignorer la pertinence d’une réponse faute de maitrise technique du sujet.
Parmi les autres biais, on notera les points suivants :
Le décalage temporel : les documents présentés en références peuvent être en décalage de l’état de l’art actuel permettant de juger les documents à évaluer avec précision
Réutilisation d’évaluation : certaines évaluations non reproduites en partant de zéro peuvent conduire à perte de pertinence de l’évaluation elle-même, en plus ou en moins.
La pertinence technique des requêtes : Un évaluateur novice dans un sujet qu’il soit technique, médecine, ou même science pourra difficilement évaluer la pertinence d’un propos contrairement à une IA.
L’évaluation de la notoriété : Tout évaluateur présente le risque de juger en fonction de ses affinités personnelles ou d’être victime de publicité plus ou moins ciblées. C’est d’ailleurs sans doute ce biais qui a laissé émerger la notion de parasite SEO sur laquelle nous reviendrons dans un prochain billet. (Un site avec une forte autorité peut se positionner sur à peu près n’importe quoi sans pour autant être légitime …) Les utilisateurs ayant tendance à considérer un site comme crédible en général et non comme crédible sur la requête ciblée.
La diversité des évaluateurs : Les évaluateurs présentent le risque de ne pas être représentatifs en termes de lieu d’age et de catégories socioprofessionnelles, ce qui ne représente pas, contrairement à des sondages réels, un échantillon représentatif.
Le contenu créé par les Internautes : les évaluateurs ont présenté une tendance à sous-évaluer le contenu généré par des Internautes comme les commentaires ou les avis qu’ils soient utiles ou non.
On peut ici supposer que la sortie de Google Notes (non encore déployé en FR) sur smartphone est là pour permettre à un public le plus large possible d’approuver ou non des résultats.
Qualité de la page
C’est une évaluation lié aux « quality raters ». On note ici 5 niveaux :
Très faible : page décevante, n’attirant pas la confiance, dangereuse pour la société ou avec un élément très désagréable (Ux autre ..)
Faible : page non concue pour répondre à l’intention, ou il manque une partie cruciale pour répondre
Moyen : la page répond à son besoin mais ne déclenche pas un effet waouh pour autant, ou la page est présente sur un site très crédible mais celle-ci précisément n’est pas terrible … (On sera là aussi sur un cas de parasite SEO)
Haut : la page est pensée intelligemment entre répondre à l’intention et servir l’objectif du site.
Excellente : Elle dépasse les attentes en termes d’intention et sert les objectifs du site.
À noter que ces documents ont montré que les quality raters n’évaluent les pages qu’en format mobile.
La comparaison de page de résultats
Dans le cadre de test d’évaluation de pertinence, Google propose aux évaluateurs deux versions de pages de résultats pour même requête. Cela permet aux évaluateurs de noter la pertinence relative de chaque SERP. On imagine que cela permet notamment de confirmer la notion de recherche 360 de tangram et la pertinence des widgets de recherche.
Les tests A/B et l’interleaving sur les serps
On le sait, les tests A/B sont la méthode idéale pour valider en conditions réelles des expérimentations, qu’il s’agisse d’UX ou de choix de résultats. Cela permet de valider avec de vrais utilisateurs et de se rendre rapidement compte ce qui plait ou non. Cela permet notamment de contrebalancer les biais évoqués en IS score.
Les critères d’évaluation mesurés sont :
Clique sur les résultats
Nombre de recherches
Abandon de recherche
Combien les visiteurs mettent de temps pour cliquer sur un résultat
Les tests sont également en utilisant l’interleaving, qui est un framework de tests affinés dédié aux algorithmes.
Fondateur de 410 Gone, passionné de e-commerce, expert Magento et SEO, j’accompagne les professionnels en e-commerce sur leurs choix techniques et Business. Je suis également Président du FePSeM SEOCamp depuis 2021.