Blog

Por dentro do vazamento do Content Warehouse do Google: Implicações para SEO, editores e o futuro da pesquisa

Maxime Topolov
Maxime Topolov
6 de junho de 2024
-
 
Por dentro do vazamento do Content Warehouse do Google: Implicações para SEO, editores e o futuro da pesquisa

‍Vocêpode encontrá-lo aqui: https://hexdocs.pm/google_api_content_warehouse/0.4.0/api-reference.html

O mecanismo de pesquisa do Google é alimentado por um vasto e sofisticado sistema de armazenamento e análise de conteúdo conhecido como Content Warehouse. Mais do que um simples banco de dados, o Content Warehouse é uma poderosa API e um conjunto de ferramentas que permite ao Google entender e fornecer conteúdo da Web de maneiras sem precedentes.

Ao mergulhar nos recursos técnicos do Content Warehouse, podemos obter insights sobre como o Google vê páginas da Web, imagens e vídeos e como isso afeta qualquer pessoa envolvida na criação, otimização ou análise de conteúdo on-line.

O armazenamento estruturado permite uma análise eficiente

O Content Warehouse usa buffers de protocolo como seu esquema de armazenamento principal.

Os buffers de protocolo (protobuf) são um mecanismo extensível, independente de linguagem e de plataforma, desenvolvido pelo Google para serializar dados estruturados. Eles permitem que você defina a estrutura dos seus dados usando uma linguagem simples em arquivos .proto e, em seguida, o compilador de buffer de protocolo gera código em várias linguagens de programação (como C++, Java e Python) para criar, acessar e modificar eficientemente instâncias dos tipos de mensagens definidos. O código gerado fornece acessores simples para cada campo e métodos para serializar e analisar toda a estrutura de e para o formato binário compacto, que é menor e mais rápido do que XML ou JSON. Os buffers de protocolo são projetados para serem rápidos, extensíveis e interoperáveis, o que os torna adequados para o desenvolvimento de programas que se comunicam por meio de uma rede ou armazenam dados de forma compatível com versões anteriores e posteriores. Eles são amplamente usados no Google para armazenar e trocar dados estruturados em vários sistemas, incluindo estruturas RPC como gRPC e armazenamento de dados persistentes.

Os buffers de protocolo impõem uma digitação rigorosa dos campos e, ao mesmo tempo, permitem flexibilidade por meio de recursos como mensagens aninhadas e campos repetidos. Alguns dos principais tipos de conteúdo incluem:

- CompositeDoc: a principal unidade de armazenamento de documentos. Contém conteúdo bruto da página, metadados extraídos, sinais de indexação e muito mais. Tem mais de 190 campos!
- ImageRepositoryWebImageMeta: Armazena metadados específicos de imagens, como dimensões, texto OCR, dados EXIF e pontuações de segurança de conteúdo
- VideoRepositoryWebVideoMeta: Captura metadados de vídeo, miniaturas, transcrições e até mesmo quadros-chave extraídos

Ao armazenar o conteúdo nesse formato altamente estruturado, o Google pode executar com eficiência análises complexas e servir cargas de trabalho em todo o seu corpus da Web. Por exemplo, a mensagem ImageSafesearchContentOCRAnnotation armazena o texto completo extraído de uma imagem, tornando todos os memes e infográficos instantaneamente pesquisáveis.

Insights: À medida que o Google melhora a análise e a extração de dados estruturados de conteúdo não estruturado da Web, a publicação de conteúdo em formatos limpos e semânticos, como a marcação schema.org, se tornará cada vez mais importante para uma boa classificação.

Conectando os pontos com anotações semânticas

O Content Warehouse vai além do simples armazenamento de documentos, imagens e vídeos. Ele também captura as inúmeras conexões entre eles por meio de anotações semânticas como:

- AnchorsAnchor: Armazena o texto âncora e o contexto de um link entre duas páginas
- CrowdingPerDocDataNewsCluster: Rastreia grupos de notícias relacionadas ao longo do tempo
- EntityAnnotations: Anexa entidades do Knowledge Graph extraídas de uma página

Essas anotações transformam a Web de uma coleção de páginas isoladas em uma rede interconectada de conhecimento. Elas potencializam experiências como snippets em destaque, painéis de conhecimento e notícias de cobertura completa.

Insight: Na era da pesquisa semântica, uma página é mais do que apenas seu próprio conteúdo. As redações e os criadores de conteúdo devem pensar além das palavras-chave e considerar como um novo artigo se encaixa no quadro geral de uma história ou domínio de conhecimento. Ferramentas como o recurso Cobertura completa do Google News podem gerar grandes quantidades de tráfego para artigos que acrescentam um aspecto novo a uma história de tendência maior.

Sinais de indexação revelam classificações

Embora o Google seja famoso por manter sigilo sobre seu algoritmo de classificação, o Content Warehouse fornece algumas pistas por meio dos sinais de indexação que armazena para cada página. Alguns deles são interessantes:

- SpamPerDocData: Probabilidade de uma página ser spam na Web com base em várias análises de conteúdo e links
- MobilePerDocData: Pontuação de compatibilidade com dispositivos móveis e problemas específicos de compatibilidade com dispositivos móveis encontrados
- PageRankPerDocData: A famosa pontuação do PageRank

O monitoramento das alterações nesses campos pode ajudar a entender as principais flutuações de classificação. Se a pontuação do SpamPerDocData aumentar repentinamente, isso pode explicar uma queda na classificação. Da mesma forma, melhorar a compatibilidade com dispositivos móveis pode aumentar as classificações à medida que os problemas de compatibilidade do MobilePerDocData forem resolvidos.

Insights: Embora o algoritmo exato de classificação permaneça desconhecido, o Content Warehouse mostra que o Google está confiando mais no aprendizado de máquina e nos sinais de conteúdo/uso para determinar as classificações. Isso se alinha com a mensagem pública do Google sobre o foco na experiência da página e na autoridade da marca. Os editores devem investir no fornecimento de experiências de usuário rápidas e confiáveis em todos os dispositivos.

Campos restritos protegem a privacidade do usuário

Entre os vários campos da mensagem CompositeDoc, alguns têm restrições especiais de leitura:

- PersonalizationPerDocData: Armazena informações específicas do usuário usadas para personalização. Restrito à maioria das APIs internas.
- SubresourceIntegrityPerDocData: Captura hashes para scripts/recursos carregados pela página. Usado para verificações de segurança, mas oculto da maioria dos engenheiros para evitar o vazamento de dados do usuário.

Isso mostra o equilíbrio cuidadoso que o Google mantém entre a utilização de dados do usuário para personalizar experiências e a preservação da privacidade do usuário. À medida que novas regulamentações de privacidade forem implementadas, espera-se ver ainda mais restrições sobre quais dados específicos do usuário podem ser registrados e acessados.

Insights: Embora os sinais de personalização sejam importantes para a classificação, os SEOs ainda devem se concentrar principalmente em melhorar os fatores de classificação não personalizados voltados para o público. A busca de sinais específicos do usuário provavelmente se tornará mais difícil à medida que as restrições de privacidade aumentarem.

O controle de versão rastreia a Web em movimento

A Web está em constante mudança, e o Content Warehouse acompanha esse ritmo armazenando metadados sobre as alterações feitas em cada documento ao longo do tempo:

- PerDocTempData: Armazenamento de curto prazo para informações sobre atualizações recentes de páginas. Potencializa a indexação em tempo real.
- CrawlTimePerDocData: Rastreia o registro de data e hora de cada tentativa de rastreamento. Permite medir a frequência das alterações de conteúdo.
- PreviousVersions: Armazena cópias completas de versões anteriores do conteúdo da página. Permite links de "página em cache" nos resultados de pesquisa.

Ao tratar cada página como uma entidade viva e em evolução, o Google pode manter seu índice atualizado e, ao mesmo tempo, manter o histórico e o contexto do conteúdo. Isso é especialmente importante para notícias, mídia social e outros conteúdos atualizados com frequência.

Insights: Os editores devem manter os URLs estáveis o máximo possível, mesmo quando o conteúdo muda. O Google usa o URL como o principal identificador de um conteúdo, portanto, a alteração do URL pode perder todo o histórico e o contexto associados ao URL antigo. Atualizar o conteúdo no local ou usar redirecionamentos HTTP adequados permitirá que o Google transfira os sinais para a nova página.

A análise multimídia impulsiona a pesquisa visual

Alguns dos recursos mais impressionantes do Content Warehouse giram em torno do armazenamento e da análise de imagens e vídeos. Ele pode extrair texto, rostos, objetos, cores e outros detalhes usando IA de visão computacional. Alguns dos principais componentes incluem:

- ImageUnderstandingIndexingAnnotation: Rótulos e caixas delimitadoras de objetos em uma imagem com base em aprendizado de máquina
- VideoRepositoryAmarnaSignals: Saídas de modelos de análise de vídeo, como o Amarna, que detectam produtos, logotipos, textos e muito mais
- ImageSafesearchContentOCRAnnotation: A extração de texto OCR de página inteira potencializa a "pesquisa por imagem" e o Google Lens

Com esses dados, o Google pode transformar cada ativo multimídia em um tesouro de insights pesquisáveis. Ele permite que qualquer imagem ou vídeo seja exibido com base em uma consulta de texto e vice-versa. Como a visão computacional continua avançando, provavelmente haverá poucos limites para o que o Google pode detectar e extrair do conteúdo visual.

Insights: Embora as técnicas básicas de otimização de imagens, como o texto alternativo adequado, ainda sejam importantes, os profissionais de SEO devem começar a tratar o conteúdo visual como parte integrante da pesquisa. Especialmente para verticais como receitas, produtos e conteúdo de instruções, as imagens e os vídeos geralmente são mais importantes do que o texto para capturar o tráfego de pesquisa. Os criadores de conteúdo devem se concentrar em recursos visuais relevantes e de alta qualidade que destaquem os principais aspectos da página.

As conexões do Knowledge Graph solidificam o conhecimento especializado

O Content Warehouse tem profunda integração com o Knowledge Graph do Google, que armazena dados estruturados sobre pessoas, lugares e coisas do mundo real:

- EntityPerDocData: Armazena entidades do Knowledge Graph extraídas ou relacionadas ao conteúdo da página
- EntityClassificationPerDocData: Captura as categorias e os tipos de entidades encontradas na página
- EntityTrustSignals: Mede a autoridade da página para vários tópicos com base em entidades

Ao conectar páginas a tópicos do Knowledge Graph, o Google pode avaliar o conhecimento especializado e a autoridade de um site em um nível muito mais granular. Não se trata apenas de quantos links você tem, mas de quão central é o seu conteúdo para os tópicos que você aborda.

Insights: Os editores devem se concentrar na criação de páginas de pilar e hubs de conteúdo que cubram as principais entidades e subtópicos dentro de seu domínio de especialização. Pense além das palavras-chave e crie páginas de recursos confiáveis que possam servir como associações inequívocas de entidades. Com o tempo, esses fortes links semânticos para o Knowledge Graph podem ajudar a solidificar seu site como uma autoridade confiável.

Conclusão

O Content Warehouse é mais do que apenas um banco de dados - é a base de conhecimento sobre a qual os produtos e serviços do Google são construídos. Ao nos aprofundarmos nessa estrutura técnica, podemos obter uma nova apreciação e compreensão de como o Google lida com a natureza em constante evolução da Web.

Para profissionais de SEO e editores de conteúdo, o Content Warehouse oferece orientação e desafios. Ele delineia áreas claras de foco, como experiência móvel, profundidade de conteúdo e metadados de página. Mas também mostra a rapidez com que o Google está avançando em sua capacidade de entender o conteúdo diretamente, confiando menos na otimização técnica explícita.

Em última análise, a principal conclusão é que o SEO moderno é muito mais do que palavras-chave e links. Trata-se de criar conteúdo com autoridade, confiável e altamente útil que aproveite a multimídia, a marcação semântica e um profundo entendimento de como os mecanismos de pesquisa veem o mundo. Ao acompanhar a rápida evolução de sistemas como o Content Warehouse, os criadores de conteúdo podem se manter um passo à frente e continuar a colher os frutos do tráfego de pesquisa orgânica.

Compartilhe esta publicação
 
CMS
SEO
Dados
Mídia e publicação
Conteúdo
Maxime Topolov
Maxime Topolov
CEO

Você também pode ler

API
Desempenho
Conteúdo
SEO
Dados
Aplicativo do consumidor
Engenharia de software
No local
Desenvolvimento móvel
ERP
Comércio eletrônico
Recrutamento
Nuvem
Migração de conteúdo
IA
Front-end
CMS
Sem cabeça
Backend
Baixo código
Aplicativos de negócios
IA de conversão
Educação
Mídia e publicação
Assistência médica
Serviços financeiros
Grandes empresas
Início