Blog

Aperçu de la fuite du Content Warehouse de Google : implications pour le référencement, les éditeurs et l’avenir de la recherche

Maxime Topolov
Maxime Topolov
6 juin 2024
-
 
Aperçu de la fuite du Content Warehouse de Google : implications pour le référencement, les éditeurs et l’avenir de la recherche

‍Vouspouvez le trouver ici : https://hexdocs.pm/google_api_content_warehouse/0.4.0/api-reference.html

Le moteur de recherche de Google est alimenté par un vaste système sophistiqué de stockage et d'analyse de contenu, appelé Content Warehouse. Plus qu'une simple base de données, Content Warehouse est une puissante API et un ensemble d'outils qui permettent à Google de comprendre et de servir le contenu web de manière inédite.

En nous plongeant dans les capacités techniques de Content Warehouse, nous pouvons comprendre comment Google perçoit les pages web, les images et les vidéos - et quel est l'impact sur toute personne impliquée dans la création, l'optimisation ou l'analyse de contenu en ligne.

Le stockage structuré permet une analyse efficace

Content Warehouse utilise des tampons de protocole comme schéma de stockage principal.

Les tampons de protocole (protobuf) sont un mécanisme extensible, indépendant du langage et de la plate-forme, développé par Google pour sérialiser les données structurées. Ils vous permettent de définir la structure de vos données à l'aide d'un langage simple dans des fichiers .proto, puis le compilateur de tampons de protocole génère du code dans différents langages de programmation (tels que C++, Java et Python) pour créer, accéder et modifier efficacement les instances des types de messages définis. Le code généré fournit des accesseurs simples pour chaque champ et des méthodes pour sérialiser et analyser l'ensemble de la structure vers et depuis le format binaire compact, qui est plus petit et plus rapide que XML ou JSON. Les tampons de protocole sont conçus pour être rapides, extensibles et interopérables, ce qui les rend bien adaptés au développement de programmes qui communiquent sur un réseau ou stockent des données d'une manière compatible en amont et en aval. Ils sont largement utilisés chez Google pour le stockage et l'échange de données structurées dans divers systèmes, notamment les cadres RPC tels que gRPC et le stockage de données persistantes.

Les tampons de protocole appliquent un typage strict des champs tout en permettant une certaine flexibilité grâce à des fonctionnalités telles que les messages imbriqués et les champs répétés. Les principaux types de contenu sont les suivants

- CompositeDoc: L'unité principale de stockage des documents. Contient le contenu brut des pages, les métadonnées extraites, les signaux d'indexation, etc. Il comporte plus de 190 champs !
- ImageRepositoryWebImageMeta: Stocke les métadonnées spécifiques aux images, telles que les dimensions, le texte OCR, les données EXIF et les scores de sécurité du contenu.
- VideoRepositoryWebVideoMeta: Capture les métadonnées vidéo, les vignettes, les transcriptions et même les images clés extraites.

En stockant le contenu dans ce format hautement structuré, Google peut exécuter efficacement des charges de travail complexes d'analyse et de service sur l'ensemble de son corpus web. Par exemple, le message ImageSafesearchContentOCRAnnotation stocke le texte intégral extrait d'une image, ce qui permet de rechercher instantanément tous les mèmes et toutes les infographies.

Aperçu : Google étant de plus en plus à même d'analyser et d'extraire des données structurées à partir de contenus web non structurés, la publication de contenus dans des formats propres et sémantiques, tels que le balisage schema.org, deviendra de plus en plus importante pour obtenir un bon classement.

Relier les points avec les annotations sémantiques

L'entrepôt de contenu ne se contente pas de stocker des documents, des images et des vidéos. Il capture également la myriade de connexions entre eux par le biais d'annotations sémantiques telles que :

- AnchorsAnchor: Stocke le texte d'ancrage et le contexte d'un lien entre deux pages
- CrowdingPerDocDataNewsCluster: Suit l'évolution dans le temps des groupes d'articles de presse apparentés
- EntityAnnotations: Attache des entités du Knowledge Graph extraites d'une page

Ces annotations transforment le web d'une collection de pages isolées en un réseau interconnecté de connaissances. Elles sont à l'origine d'expériences telles que les snippets en vedette, les panneaux de connaissances et les articles d'actualité à couverture complète.

Insight : À l'ère de la recherche sémantique, une page ne se résume pas à son contenu. Les salles de presse et les créateurs de contenu doivent aller au-delà des mots-clés et réfléchir à la manière dont un nouvel article s'inscrit dans le contexte plus large d'un sujet ou d'un domaine de connaissances. Des outils tels que la fonction "Couverture complète" de Google Actualités peuvent générer un trafic massif pour les articles qui ajoutent un nouvel aspect à un sujet d'actualité plus large.

Les signaux d'indexation révèlent les classements

Alors que Google est réputé pour son secret sur son algorithme de classement, Content Warehouse donne quelques indices via les signaux d'indexation qu'il stocke pour chaque page. Parmi les signaux intéressants, citons

- SpamPerDocData: Probabilité qu'une page soit du webspam sur la base de diverses analyses de contenu et de liens
- MobilePerDocData: Score de convivialité mobile et problèmes spécifiques de compatibilité mobile détectés
- PageRankPerDocData: Le célèbre score PageRank

Le suivi des modifications apportées à ces champs peut aider à comprendre les principales fluctuations du classement. Si le score de SpamPerDocData augmente soudainement, cela peut expliquer une baisse de classement. De même, l'amélioration de la convivialité pour les téléphones portables pourrait améliorer le classement à mesure que les problèmes de compatibilité avec MobilePerDocData sont résolus.

Aperçu : Bien que l'algorithme de classement exact reste inconnu, Content Warehouse montre que Google s'appuie davantage sur l'apprentissage automatique et les signaux de contenu/d'utilisation pour déterminer les classements. Cela correspond à son message public qui met l'accent sur l'expérience de la page et l'autorité de la marque. Les éditeurs devraient investir dans la fourniture d'expériences utilisateur rapides et fiables sur tous les appareils.

Les champs restreints protègent la vie privée des utilisateurs

Parmi les nombreux champs du message CompositeDoc, certains sont soumis à des restrictions de lecture particulières :

- PersonalizationPerDocData: Stocke les informations spécifiques à l'utilisateur utilisées pour la personnalisation. Restreint à la plupart des API internes.
- SubresourceIntegrityPerDocData: Capture les hachages des scripts/ressources chargés par la page. Utilisé pour les contrôles de sécurité, mais caché à la plupart des ingénieurs pour éviter la fuite de données utilisateur.

Cela montre l'équilibre prudent que Google maintient entre l'utilisation des données des utilisateurs pour personnaliser les expériences et la préservation de la vie privée des utilisateurs. Au fur et à mesure que de nouvelles réglementations sur la protection de la vie privée seront mises en place, il faut s'attendre à voir encore plus de restrictions sur les données spécifiques à l'utilisateur qui peuvent être enregistrées et consultées.

Aperçu : Bien que les signaux de personnalisation soient importants pour le classement, les référenceurs devraient encore se concentrer principalement sur l'amélioration des facteurs de classement non personnalisés et orientés vers le public. La recherche de signaux spécifiques à l'utilisateur devrait devenir plus difficile à mesure que les restrictions en matière de protection de la vie privée augmentent.

Le versionnage permet de suivre l'évolution du Web

Le web est en constante évolution et Content Warehouse suit le mouvement en stockant des métadonnées sur les modifications apportées à chaque document au fil du temps :

- PerDocTempData: Stockage à court terme d'informations sur les mises à jour récentes des pages. Alimente l'indexation en temps réel.
- CrawlTimePerDocData: Permet de suivre l'horodatage de chaque tentative d'exploration. Permet de mesurer la fréquence des changements de contenu.
- PreviousVersions: Stocke des copies complètes des versions précédentes du contenu de la page. Permet de créer des liens vers des "pages en cache" dans les résultats de recherche.

En traitant chaque page comme une entité vivante et évolutive, Google peut actualiser son index tout en conservant l'historique et le contexte du contenu. Cela est particulièrement important pour les actualités, les médias sociaux et les autres contenus fréquemment mis à jour.

Réflexion : Les éditeurs devraient maintenir des URL stables dans la mesure du possible, même si le contenu change. Google utilise l'URL comme principal identifiant d'un élément de contenu. Le changement d'URL peut donc entraîner la perte de tout l'historique et du contexte associés à l'ancienne URL. La mise à jour du contenu sur place ou l'utilisation de redirections HTTP appropriées permettra à Google de reporter les signaux sur la nouvelle page.

L'analyse multimédia au service de la recherche visuelle

Certaines des capacités les plus impressionnantes du Content Warehouse concernent le stockage et l'analyse d'images et de vidéos. Il peut extraire du texte, des visages, des objets, des couleurs et d'autres détails grâce à l'IA de la vision par ordinateur. Parmi les composants clés, citons

- ImageUnderstandingIndexingAnnotation: Étiquettes et boîtes de délimitation d'objets dans une image, alimentées par l'apprentissage automatique
- VideoRepositoryAmarnaSignals: Résultats de modèles d'analyse vidéo comme Amarna qui détectent des produits, des logos, du texte et plus encore
- ImageSafesearchContentOCRAnnotation: L'extraction de texte OCR pleine page permet la "recherche par image" et Google Lens

Grâce à ces données, Google peut transformer chaque ressource multimédia en un trésor d'informations consultables. Il permet de faire apparaître n'importe quelle image ou vidéo à partir d'une requête textuelle, et vice versa. À mesure que la vision par ordinateur progresse, il n'y aura probablement plus de limites à ce que Google peut détecter et extraire du contenu visuel.

Aperçu : Si les techniques de base d'optimisation des images, comme le texte alt, restent importantes, les référenceurs devraient commencer à considérer le contenu visuel comme une partie intégrante de la recherche. Les images et les vidéos sont souvent plus importantes que le texte pour capter le trafic de recherche, en particulier dans les secteurs verticaux tels que les recettes, les produits et les guides pratiques. Les créateurs de contenu doivent se concentrer sur des visuels pertinents et de haute qualité qui mettent en évidence les aspects clés de la page.

Les connexions du graphe de connaissances renforcent l'expertise

Content Warehouse est parfaitement intégré au Knowledge Graph de Google, qui stocke des données structurées sur des personnes, des lieux et des objets du monde réel :

- EntityPerDocData: Stocke les entités du Knowledge Graph extraites du contenu de la page ou liées à celui-ci
- EntityClassificationPerDocData: Capture les catégories et les types d'entités trouvées sur la page
- EntityTrustSignals: Mesure l'autorité de la page pour divers sujets sur la base des entités.

En reliant les pages aux rubriques du Knowledge Graph, Google peut évaluer l'expertise et l'autorité d'un site web à un niveau beaucoup plus granulaire. Il ne s'agit pas seulement du nombre de liens que vous avez, mais plutôt de l'importance de votre contenu par rapport aux sujets que vous traitez.

Aperçu : Les éditeurs devraient se concentrer sur la création de pages piliers et de centres de contenu qui couvrent les entités clés et les sous-thèmes de leur domaine d'expertise. Pensez au-delà des mots-clés et créez des pages de ressources qui font autorité et qui peuvent servir d'associations d'entités sans ambiguïté. Au fil du temps, ces liens sémantiques solides vers le Knowledge Graph peuvent contribuer à consolider votre site en tant qu'autorité de confiance.

Conclusion

Content Warehouse est plus qu'une simple base de données : c'est le socle de connaissances sur lequel reposent les produits et services de Google. En nous plongeant dans cet échafaudage technique, nous pouvons mieux apprécier et comprendre la manière dont Google s'attaque à la nature en constante évolution du web.

Pour les praticiens de SEO et les éditeurs de contenu, Content Warehouse offre à la fois des conseils et des défis. Il met en évidence des domaines d'action clairs, tels que l'expérience mobile, la profondeur du contenu et les métadonnées des pages. Mais il montre également la rapidité avec laquelle Google progresse dans sa capacité à comprendre directement le contenu, en s'appuyant moins sur une optimisation technique explicite.

En fin de compte, le principal enseignement à tirer est que le site SEO moderne ne se résume pas à des mots-clés et à des liens. Il s'agit de créer un contenu qui fasse autorité, qui soit digne de confiance et très utile, qui tire parti du multimédia, du balisage sémantique et d'une compréhension approfondie de la façon dont les moteurs de recherche perçoivent le monde. En suivant l'évolution rapide de systèmes tels que Content Warehouse, les créateurs de contenu peuvent garder une longueur d'avance et continuer à récolter les fruits du trafic de recherche organique.

Partager cet article
 
CMS
SEO
Données
Médias et édition
Contenu
Maxime Topolov
Maxime Topolov
PDG

Vous pouvez également lire

API
Performances
Contenu
SEO
Données
Application pour les consommateurs
Ingénierie logicielle
Sur site
Développement mobile
ERP
E-commerce
Recrutement
Cloud
Migration de contenu
IA
Frontend
CMS
Headless
Backend
Low-code
Applications professionnelles
L'IA conversationnelle
Éducation
Médias et édition
Santé
Services financiers
Grandes entreprises
Start-Up