Por dentro do vazamento do Content Warehouse do Google: Implicações para SEO, editores e o futuro da pesquisa

Maxime Topolov

6 de junho de 2024

‍Vocêpode encontrá-lo aqui: https://hexdocs.pm/google_api_content_warehouse/0.4.0/api-reference.html

O mecanismo de pesquisa do Google é alimentado por um vasto e sofisticado sistema de armazenamento e análise de conteúdo conhecido como Content Warehouse. Mais do que um simples banco de dados, o Content Warehouse é uma poderosa API e um conjunto de ferramentas que permite ao Google entender e fornecer conteúdo da Web de maneiras inéditas.

Ao mergulhar nos recursos técnicos do Content Warehouse, podemos obter insights sobre como o Google vê páginas da Web, imagens e vídeos e como isso afeta qualquer pessoa envolvida na criação, otimização ou análise de conteúdo on-line.

O armazenamento estruturado permite uma análise eficiente

O Content Warehouse usa buffers de protocolo como seu esquema de armazenamento principal.

Os buffers de protocolo (protobuf) são um mecanismo extensível, independente de linguagem e de plataforma, desenvolvido pelo Google para serializar dados estruturados. Eles permitem que você defina a estrutura dos seus dados usando uma linguagem simples em arquivos .proto e, em seguida, o compilador de buffer de protocolo gera código em várias linguagens de programação (como C++, Java e Python) para criar, acessar e modificar eficientemente instâncias dos tipos de mensagens definidos. O código gerado fornece acessores simples para cada campo e métodos para serializar e analisar toda a estrutura do/para o formato binário compacto, que é menor e mais rápido do que XML ou JSON. Os buffers de protocolo são projetados para serem rápidos, extensíveis e interoperáveis, o que os torna adequados para o desenvolvimento de programas que se comunicam por meio de uma rede ou armazenam dados de forma compatível com versões anteriores e posteriores. Eles são amplamente usados no Google para armazenar e trocar dados estruturados em vários sistemas, incluindo estruturas RPC como gRPC e armazenamento de dados persistentes.

Os buffers de protocolo impõem uma digitação rigorosa dos campos e, ao mesmo tempo, permitem flexibilidade por meio de recursos como mensagens aninhadas e campos repetidos. Alguns dos principais tipos de conteúdo incluem:

- CompositeDoc: a principal unidade de armazenamento de documentos. Contém conteúdo bruto da página, metadados extraídos, sinais de indexação e muito mais. Tem mais de 190 campos!
- ImageRepositoryWebImageMeta: Armazena metadados específicos de imagens, como dimensões, texto OCR, dados EXIF e pontuações de segurança de conteúdo
- VideoRepositoryWebVideoMeta: Captura metadados de vídeo, miniaturas, transcrições e até mesmo quadros-chave extraídos

Ao armazenar o conteúdo nesse formato altamente estruturado, o Google pode executar com eficiência análises complexas e servir cargas de trabalho em todo o seu corpus da Web. Por exemplo, a mensagem ImageSafesearchContentOCRAnnotation armazena o texto completo extraído de uma imagem, tornando todos os memes e infográficos instantaneamente pesquisáveis.

Insights: À medida que o Google melhora a análise e a extração de dados estruturados de conteúdo não estruturado da Web, a publicação de conteúdo em formatos limpos e semânticos, como a marcação schema.org, se tornará cada vez mais importante para uma boa classificação.

Conectando os pontos com anotações semânticas

O Content Warehouse vai além do simples armazenamento de documentos, imagens e vídeos. Ele também captura as inúmeras conexões entre eles por meio de anotações semânticas como:

- AnchorsAnchor: Armazena o texto âncora e o contexto de um link entre duas páginas
- CrowdingPerDocDataNewsCluster: Rastreia grupos de notícias relacionadas ao longo do tempo
- EntityAnnotations: Anexa entidades do Knowledge Graph extraídas de uma página

Essas anotações transformam a Web de uma coleção de páginas isoladas em uma rede interconectada de conhecimento. Elas potencializam experiências como snippets em destaque, painéis de conhecimento e notícias de cobertura completa.

Insight: Na era da pesquisa semântica, uma página é mais do que apenas seu próprio conteúdo. As redações e os criadores de conteúdo devem pensar além das palavras-chave e considerar como um novo artigo se encaixa no quadro geral de uma história ou domínio de conhecimento. Ferramentas como o recurso Cobertura Completa do Google News podem gerar grandes quantidades de tráfego para artigos que acrescentam um aspecto novo a uma história de tendência maior.

Revelação de rankings de sinais de indexação

Embora o Google seja famoso por manter sigilo sobre seu algoritmo de classificação, o Content Warehouse fornece algumas pistas por meio dos sinais de indexação que armazena para cada página. Os mais interessantes incluem:

- SpamPerDocData: Probabilidade de uma página ser spam na Web com base em várias análises de conteúdo e links
- MobilePerDocData: Pontuação de compatibilidade com dispositivos móveis e problemas específicos de compatibilidade encontrados com dispositivos móveis
- PageRankPerDocData: A famosa pontuação do PageRank

O monitoramento das alterações nesses campos pode ajudar a entender as principais flutuações de classificação. Se a pontuação do SpamPerDocData aumentar repentinamente, isso pode explicar uma queda na classificação. Da mesma forma, melhorar a compatibilidade com dispositivos móveis pode aumentar as classificações à medida que os problemas de compatibilidade do MobilePerDocData forem resolvidos.

Insights: Embora o algoritmo exato de classificação permaneça desconhecido, o Content Warehouse mostra que o Google está confiando mais no aprendizado de máquina e nos sinais de conteúdo/uso para determinar as classificações. Isso se alinha com a mensagem pública do Google sobre o foco na experiência da página e na autoridade da marca. Os editores devem investir no fornecimento de experiências de usuário rápidas e confiáveis em todos os dispositivos.

Campos restritos protegem a privacidade do usuário

Entre os vários campos da mensagem CompositeDoc, alguns têm restrições especiais de leitura:

- PersonalizationPerDocData: Armazena informações específicas do usuário usadas para personalização. Restrito à maioria das APIs internas.
- SubresourceIntegrityPerDocData: Captura hashes para scripts/recursos carregados pela página. Usado para verificações de segurança, mas oculto da maioria dos engenheiros para evitar o vazamento de dados do usuário.

Isso mostra o equilíbrio cuidadoso que o Google mantém entre a utilização de dados do usuário para personalizar experiências e a preservação da privacidade do usuário. À medida que novas regulamentações de privacidade forem implementadas, espera-se ver ainda mais restrições sobre quais dados específicos do usuário podem ser registrados e acessados.

Insights: Embora os sinais de personalização sejam importantes para a classificação, os SEOs ainda devem se concentrar principalmente em melhorar os fatores de classificação não personalizados voltados para o público. A busca de sinais específicos do usuário provavelmente se tornará mais difícil à medida que as restrições de privacidade aumentarem.

O controle de versão rastreia a Web em movimento

A Web está em constante mudança, e o Content Warehouse acompanha esse ritmo armazenando metadados sobre as alterações feitas em cada documento ao longo do tempo:

- PerDocTempData: Armazenamento de curto prazo para informações sobre atualizações recentes de páginas. Potencializa a indexação em tempo real.
- CrawlTimePerDocData: Rastreia o registro de data e hora de cada tentativa de rastreamento. Permite medir a frequência das alterações de conteúdo.
- PreviousVersions: Armazena cópias completas de versões anteriores do conteúdo da página. Permite links de "página em cache" nos resultados de pesquisa.

Ao tratar cada página como uma entidade viva e em evolução, o Google pode manter seu índice atualizado e, ao mesmo tempo, manter o histórico e o contexto do conteúdo. Isso é especialmente importante para notícias, mídia social e outros conteúdos atualizados com frequência.

Insights: Os editores devem manter os URLs estáveis o máximo possível, mesmo quando o conteúdo muda. O Google usa o URL como o principal identificador de um conteúdo, portanto, a alteração do URL pode perder todo o histórico e o contexto associados ao URL antigo. Atualizar o conteúdo no local ou usar redirecionamentos HTTP adequados permitirá que o Google transfira os sinais para a nova página.

A análise multimídia impulsiona a pesquisa visual

Alguns dos recursos mais impressionantes do Content Warehouse giram em torno do armazenamento e da análise de imagens e vídeos. Ele pode extrair texto, rostos, objetos, cores e outros detalhes usando IA de visão computacional. Alguns dos principais componentes incluem:

- ImageUnderstandingIndexingAnnotation: Rótulos e caixas delimitadoras de objetos em uma imagem com base em aprendizado de máquina
- VideoRepositoryAmarnaSignals: Saídas de modelos de análise de vídeo, como o Amarna, que detectam produtos, logotipos, textos e muito mais
- ImageSafesearchContentOCRAnnotation: A extração de texto OCR de página inteira potencializa a "pesquisa por imagem" e o Google Lens

Com esses dados, o Google pode transformar cada ativo multimídia em um tesouro de insights pesquisáveis. Ele permite que qualquer imagem ou vídeo seja exibido com base em uma consulta de texto e vice-versa. Como a visão computacional continua avançando, provavelmente haverá poucos limites para o que o Google pode detectar e extrair do conteúdo visual.

Insights: Embora as técnicas básicas de otimização de imagens, como o texto alternativo adequado, ainda sejam importantes, os profissionais de SEO devem começar a tratar o conteúdo visual como parte integrante da pesquisa. Especialmente para verticais como receitas, produtos e conteúdo de instruções, as imagens e os vídeos geralmente são mais importantes do que o texto para capturar o tráfego de pesquisa. Os criadores de conteúdo devem se concentrar em recursos visuais relevantes e de alta qualidade que destaquem os principais aspectos da página.

As conexões do Knowledge Graph solidificam o conhecimento especializado

O Content Warehouse tem profunda integração com o Knowledge Graph do Google, que armazena dados estruturados sobre pessoas, lugares e coisas do mundo real:

- EntityPerDocData: Armazena entidades do Knowledge Graph extraídas ou relacionadas ao conteúdo da página
- EntityClassificationPerDocData: Captura as categorias e os tipos de entidades encontradas na página
- EntityTrustSignals: Mede a autoridade da página para vários tópicos com base em entidades

Ao conectar páginas a tópicos do Knowledge Graph, o Google pode avaliar o conhecimento especializado e a autoridade de um site em um nível muito mais granular. Não se trata apenas de quantos links você tem, mas de quão central é o seu conteúdo para os tópicos que você aborda.

Insights: Os editores devem se concentrar na criação de páginas de pilar e hubs de conteúdo que cubram as principais entidades e subtópicos dentro de seu domínio de especialização. Pense além das palavras-chave e crie páginas de recursos confiáveis que possam servir como associações inequívocas de entidades. Com o tempo, esses fortes links semânticos para o Knowledge Graph podem ajudar a solidificar seu site como uma autoridade confiável.

Conclusão

O Content Warehouse é mais do que apenas um banco de dados - é a base de conhecimento sobre a qual os produtos e serviços do Google são construídos. Ao nos aprofundarmos nessa estrutura técnica, podemos obter uma nova apreciação e compreensão de como o Google lida com a natureza em constante evolução da Web.

Para profissionais de SEO e editores de conteúdo, o Content Warehouse oferece orientação e desafios. Ele delineia áreas claras de foco, como experiência móvel, profundidade de conteúdo e metadados de página. Mas também mostra a rapidez com que o Google está avançando em sua capacidade de entender o conteúdo diretamente, confiando menos na otimização técnica explícita.

Em última análise, a principal conclusão é que o SEO moderno é muito mais do que palavras-chave e links. Trata-se de criar conteúdo com autoridade, confiável e altamente útil que aproveite a multimídia, a marcação semântica e um profundo entendimento de como os mecanismos de pesquisa veem o mundo. Ao acompanhar a rápida evolução de sistemas como o Content Warehouse, os criadores de conteúdo podem se manter um passo à frente e continuar a colher os frutos do tráfego de pesquisa orgânica.

Compartilhe esta publicação

CMS

SEO

Dados

Mídia e publicação

Conteúdo

Maxime Topolov

CEO