Como o Google Descobre e Indexa Páginas: O Processo Completo

· 20 min de leitura · Por Fabio Santiago

O caminho de uma página até o índice do Google

Antes de uma página aparecer nos resultados de busca, ela passa por três etapas distintas: descoberta, rastreamento e indexação. A maioria das pessoas trata esse processo como mágica — “publiquei, o Google encontra”. Na prática, cada etapa tem gargalos que podem impedir sua página de chegar ao índice.

Visão geral do processo

URL descoberta → Fila de rastreamento → Crawl (HTML) → Fila de renderização →
Renderização (JS) → Processamento → Análise de qualidade → Índice (ou exclusão)

Entender cada etapa é fundamental para diagnosticar problemas de indexação — um dos motivos mais comuns de sites que produzem conteúdo mas não recebem tráfego.

Dados sobre indexação

Segundo dados do Google, o Googlebot rastreia centenas de bilhões de páginas regularmente. Porém, nem todas são indexadas. Um estudo da Ahrefs com 2 bilhões de páginas mostrou que apenas ~5% das páginas recebem tráfego orgânico do Google. A maioria falha em uma das três etapas abaixo.

Etapa 1: Descoberta — como o Google encontra URLs

O Google descobre URLs de várias formas, cada uma com diferentes velocidades e prioridades:

A forma mais natural e poderosa. O Googlebot está rastreando a Página A, encontra um link para a Página B e adiciona B à fila de rastreamento. Por isso links internos são tão importantes — eles são o mapa que guia o crawler pelo seu site.

Dados: páginas com 5+ links internos são descobertas, em média, 3x mais rápido do que páginas com apenas 1 link interno (dados do Screaming Frog).

Sitemap XML

O sitemap é uma lista de URLs que você envia ao Google dizendo “essas páginas existem, por favor rastreie”. Não garante indexação, mas acelera significativamente a descoberta.

<url>
  <loc>https://seusite.com/novo-artigo</loc>
  <lastmod>2024-02-18</lastmod>
  <changefreq>monthly</changefreq>
  <priority>0.8</priority>
</url>

Envie seu sitemap pelo Google Search Console em Sitemaps > Adicionar novo sitemap.

Dica: Use nosso Gerador de Sitemap XML para criar sitemaps rapidamente.

API de Indexação do Google

Para sites de notícias e páginas de emprego, o Google oferece a Indexing API, que permite notificar diretamente sobre novas URLs ou atualizações. É significativamente mais rápido que o sitemap (minutos vs horas/dias), mas limitado a tipos específicos de conteúdo.

Na prática, muitos SEOs usam a Indexing API para outros tipos de conteúdo com algum sucesso, mas o Google não garante suporte.

Inspeção de URL (Search Console)

Você pode solicitar o rastreamento de uma URL específica pelo botão “Solicitar indexação” na Inspeção de URL. Útil para páginas urgentes, mas limitado a ~10 solicitações por dia.

RSS/Atom Feeds

O Google monitora feeds RSS como fonte de descoberta de novos conteúdos. Isso é especialmente útil para blogs que publicam frequentemente.

Quando outro site linka para uma página sua, o Googlebot pode descobri-la ao rastrear o site externo. Backlinks de sites com rastreamento frequente (portais de notícias, por exemplo) aceleram muito a descoberta.

Etapa 2: Rastreamento (Crawling)

Depois de descobrir a URL, o Googlebot entra na fila de rastreamento. Quando chega a vez da URL:

  1. O bot verifica o robots.txt para saber se tem permissão de rastrear.
  2. Faz uma requisição HTTP GET para a URL.
  3. Baixa o HTML da página.
  4. Se a página usa JavaScript para renderizar conteúdo, entra na fila de renderização.

O robots.txt como porteiro

User-agent: Googlebot
Disallow: /admin/
Disallow: /busca/
Allow: /

Sitemap: https://seusite.com/sitemap.xml

Se uma URL está bloqueada no robots.txt, o Googlebot não a rastreia. Mas atenção: bloquear no robots.txt não impede a indexação. Se outra página linka para a URL bloqueada, o Google pode indexar a URL (sem conteúdo, apenas o título baseado em anchor texts).

Use nosso Gerador de robots.txt para criar uma configuração profissional em segundos.

Crawl budget: o orçamento de rastreamento

O Google não rastreia páginas infinitamente. Cada site tem um crawl budget — o número de páginas que o Googlebot está disposto a rastrear em um período.

O crawl budget depende de:

  • Crawl capacity limit: a velocidade máxima que o Google pode rastrear sem prejudicar o servidor.
  • Crawl demand: a “vontade” do Google de rastrear baseada em popularidade, freshness e tipo de conteúdo.

Impacto prático: sites com milhares de páginas de baixa qualidade (tags, filtros, paginação infinita) desperdiçam crawl budget em páginas inúteis, enquanto páginas importantes ficam sem rastreamento.

Renderização JavaScript (Web Rendering Service)

O Google usa uma versão headless do Chrome (Chromium) para renderizar páginas com JavaScript. Mas existe um delay significativo: a renderização acontece em uma segunda onda, após o rastreamento HTML inicial.

Timeline típico:

HTML baixado (1ª onda) → Minutos a horas
JavaScript renderizado (2ª onda) → Horas a dias (pode levar semanas)

Isso significa que conteúdo renderizado apenas via JavaScript demora mais para ser indexado. Para conteúdo crítico, prefira:

  • Server-Side Rendering (SSR): Next.js, Nuxt.js
  • Static Site Generation (SSG): Astro, Hugo, Gatsby
  • Pre-rendering: renderedizar o HTML no servidor antes de enviar ao crawler

Códigos de status HTTP e o que o Google faz

StatusO que o Google fazAção recomendada
200 OKProcessa normalmenteManter
301 Moved PermanentlySegue o redirect, transfere autoridadeUsar para migrações
302 FoundSegue, mas pode manter a URL original no índiceUsar para temporários
304 Not ModifiedNão reprocessa, usa versão em cacheConfigurar ETags
404 Not FoundRemove do índice após confirmarRedirecionar se possível
410 GoneRemove do índice mais rápido que 404Usar para remoção intencional
500 Server ErrorTenta novamente; se persistir, reduz frequênciaCorrigir urgentemente
503 Service UnavailableTenta depois; indica problema temporárioUsar em manutenção

Leia mais sobre redirecionamentos no nosso guia de 301 vs 302.

Etapa 3: Indexação — o Google decide se sua página merece

Após rastrear e renderizar, o Google processa o conteúdo em vários passos:

Análise do conteúdo

O Google extrai e analisa:

  • Texto: palavras-chave, entidades, tópicos semânticos
  • Headings: hierarquia de H1 a H6 como sumário
  • Imagens: alt text, contexto, EXIF data
  • Links: internos e externos, anchor texts
  • Dados estruturados: Schema.org em JSON-LD
  • Meta tags: title, description, canonical, robots

Verificação de duplicação

O Google compara o conteúdo com outras páginas no índice usando algoritmos de fingerprinting (como SimHash). Se detecta duplicação, aplica sinais de canonicalização para escolher a versão preferida.

Avaliação de qualidade

Nem toda página rastreada é indexada. O Google pode decidir que a página:

  • Tem conteúdo fino ou insuficiente (thin content)
  • É duplicata de outra página
  • Não atende a padrões mínimos de qualidade (E-E-A-T)
  • Não tem valor único suficiente para ser indexada
  • É uma página de baixa utilidade (tags, páginas de busca interna, etc.)

Essas páginas ficam no status “Rastreada, mas não indexada” ou “Descoberta, mas não indexada” no Search Console.

Sinais coletados durante a indexação

O Google coleta centenas de sinais:

  • On-page: palavras-chave no título, headings e corpo
  • Links: internos e externos apontando para a página
  • Dados estruturados: Schema.org (FAQ, Article, Product)
  • Freshness: data de publicação e atualização
  • UX signals: Core Web Vitals, mobile-friendliness
  • E-E-A-T: sinais de experiência, expertise, autoridade e confiança

Por que páginas não são indexadas — diagnóstico completo

”Descoberta, mas não indexada”

O Google conhece a URL mas ainda não a rastreou. Possíveis causas:

  • Crawl budget insuficiente (site muito grande com muitas URLs de baixa qualidade)
  • Página de baixa prioridade (poucos links internos, conteúdo fino)
  • Servidor lento na época da tentativa de rastreamento
  • Site novo com pouca autoridade

Solução: melhore links internos para a página, garanta que ela está no sitemap, otimize a velocidade do servidor e consolide páginas de baixa qualidade.

”Rastreada, mas não indexada”

O Google rastreou mas decidiu não indexar. Este é o status mais frustrante e comum:

  • Conteúdo duplicado ou muito similar a outra página
  • Conteúdo insuficiente ou de baixa qualidade
  • Página sem valor único (ex.: apenas uma lista de links)
  • Conteúdo gerado automaticamente sem edição humana

Solução: expanda o conteúdo (mínimo 1.500 palavras para artigos), adicione valor único, dados e exemplos, ou consolide com outra página similar via 301 redirect.

”Excluída por tag noindex”

Funciona como esperado — a meta tag noindex ou header X-Robots-Tag está dizendo ao Google para não indexar. Verifique se é intencional.

”Bloqueada pelo robots.txt”

O Google não pode rastrear, então não pode avaliar o conteúdo. Se esta página deveria estar indexada, corrija o robots.txt.

”URL alternativa — Google selecionou canonical diferente”

O Google encontrou sua página, mas decidiu que outra URL é a versão canônica. Use canonical tags para controlar isso.

Timeline realista de indexação

Quanto tempo leva para uma página nova ser indexada?

Tipo de siteTempo médioFator principal
Sites com alta autoridade (DR 70+)Horas a 2 diasCrawl demand alto
Sites estabelecidos (DR 30-70)3 a 14 diasLinks internos + sitemap
Sites novos (DR 0-20)2 a 8 semanasTudo precisa ser construído
Páginas com poucos links1 a 3 mesesBaixa prioridade

Não existe garantia de prazo. O processo depende de autoridade do domínio, frequência de rastreamento, qualidade do conteúdo e competição no nicho.

Como acelerar a indexação: 10 táticas

  1. Links internos fortes: conecte a nova página a partir de páginas já indexadas e com tráfego.
  2. Sitemap atualizado: adicione a URL ao sitemap imediatamente após publicar.
  3. Solicitar indexação: use a Inspeção de URL no Search Console (limite ~10/dia).
  4. Servidor rápido: TTFB abaixo de 200ms é ideal.
  5. Conteúdo único e relevante: páginas com conteúdo fino são despriorizadas.
  6. Compartilhamento: links em redes sociais e fóruns podem acelerar a descoberta.
  7. RSS feed: mantenha um feed atualizado para o Google monitorar.
  8. Ping no Google: após atualizar o sitemap, faça ping em https://www.google.com/ping?sitemap=URL_DO_SITEMAP.
  9. Elimine páginas de baixa qualidade: consolide com redirects para liberar crawl budget.
  10. Backlinks de qualidade: links de sites frequentemente rastreados aceleram descoberta.

Monitorando o processo de indexação

Search Console — Relatório de Indexação

O painel principal mostra quantas páginas estão indexadas e os motivos de exclusão. Revise semanalmente e priorize:

  • Páginas “Rastreada, mas não indexada” → melhorar conteúdo
  • Páginas “Descoberta, mas não indexada” → melhorar links internos
  • Erros de servidor (5xx) → corrigir imediatamente

Search Console — Inspeção de URL

Para verificar uma página específica: quando foi rastreada pela última vez, se está indexada, qual é a canonical selecionada e se existe alguma melhoria pendente.

Logs do servidor (análise avançada)

Para entender exatamente quando o Googlebot visitou cada página:

# Ver as últimas visitas do Googlebot
grep "Googlebot" /var/log/apache2/access.log | awk '{print $4, $7, $9}' | tail -20

# Contar rastreamentos por URL
grep "Googlebot" /var/log/apache2/access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20

O log mostra data, hora, URL e status code de cada visita do Googlebot. É a fonte de verdade sobre o comportamento do crawler no seu site.

Ferramentas de monitoramento de indexação

  • Google Search Console: relatórios oficiais do Google
  • Bing Webmaster Tools: dados complementares do Bing
  • Screaming Frog: rastreamento local para identificar problemas técnicos
  • IndexNow: protocolo para notificar buscadores sobre mudanças (suportado pelo Bing, adotado parcialmente pelo Google)

Checklist de indexação

  • Sitemap.xml atualizado e enviado ao Search Console
  • robots.txt não bloqueia páginas importantes
  • Links internos conectam a nova página a pelo menos 3-5 páginas existentes
  • Canonical tag auto-referente presente
  • Meta robots: sem noindex acidental
  • Servidor responde em menos de 500ms (TTFB < 200ms ideal)
  • Conteúdo único com pelo menos 1.500 palavras para artigos
  • Dados estruturados Schema.org implementados
  • Solicitar indexação via Search Console para páginas novas
  • Monitorar status no Search Console após 1 semana

FAQ: Perguntas frequentes sobre indexação

Quanto tempo leva para o Google indexar uma página nova?

Depende da autoridade do site. Sites estabelecidos: 3-14 dias. Sites novos: 2-8 semanas. Não há garantia de prazo. Use sitemap, links internos e solicite indexação pelo Search Console para acelerar.

Por que minha página aparece como “Rastreada, mas não indexada”?

O Google rastreou mas decidiu que a página não tem valor suficiente para indexar. Expanda o conteúdo, adicione informações únicas e dados, melhore os links internos e reenvie para indexação.

O Google indexa todo conteúdo JavaScript?

O Google renderiza JavaScript usando Chromium, mas com delay (horas a dias). Conteúdo crítico deve ser renderizado no servidor (SSR/SSG) para indexação rápida e confiável.

Sitemap garante indexação?

Não. O sitemap acelera a descoberta, mas não garante que o Google vai indexar a página. A indexação depende de qualidade, unicidade e relevância do conteúdo.

Como remover uma página do índice do Google?

Use a meta tag <meta name="robots" content="noindex">, o header HTTP X-Robots-Tag: noindex, ou a ferramenta de remoção temporária no Search Console. Saiba mais em nosso guia sobre robots.txt.

IndexNow: o futuro da notificação de indexação

O IndexNow é um protocolo aberto que permite notificar buscadores instantaneamente quando uma URL é criada, atualizada ou deletada. Em vez de esperar o crawler descobrir mudanças, você avisa proativamente.

Como funciona

  1. Gere uma chave API no site do IndexNow.
  2. Hospede a chave como arquivo na raiz do site (/indexnow-key.txt).
  3. Envie requisições POST para a API quando publicar ou atualizar conteúdo.
curl -X POST "https://api.indexnow.org/IndexNow" \
  -H "Content-Type: application/json" \
  -d '{
    "host": "seusite.com",
    "key": "sua-chave-api",
    "urlList": [
      "https://seusite.com/novo-artigo",
      "https://seusite.com/artigo-atualizado"
    ]
  }'

Quem suporta

BuscadorSuporte IndexNowStatus
Bing✅ CompletoAtivo desde 2021
Yandex✅ CompletoAtivo desde 2021
Naver✅ CompletoAtivo
Google⏳ Em avaliaçãoPiloto em andamento

Recomendação: implemente IndexNow mesmo que o Google ainda não suporte plenamente. Beneficia o Bing (segundo maior buscador) e o custo de implementação é mínimo.

Erros técnicos que impedem indexação

Redirect loops e cadeias

Cadeias de redirect (A → B → C → D) desperdiçam crawl budget e podem fazer o Googlebot desistir. Máximo recomendado: 3 hops. Idealmente, cada redirect deve ir direto ao destino final.

Ruim:  /antigo → /meio → /novo → /final
Bom:   /antigo → /final

Use a ferramenta de Inspeção de URL no Search Console para verificar se há chains afetando suas páginas.

Conteúdo duplicado não gerenciado

Parâmetros de URL (?utm_source=, ?sessao=, ?filtro=), versões com e sem www, com e sem trailing slash — todas criam duplicatas que confundem o Google e diluem sinais de ranqueamento.

Solução: configure canonical tags auto-referentes em todas as páginas e use o Google Search Console para definir o domínio preferido. Leia nosso guia completo sobre canonical tags.

Soft 404s

Páginas que retornam status 200 mas exibem mensagens de “página não encontrada” são chamadas de soft 404s. O Google detecta esse padrão e marca a página no Search Console, mas gasta crawl budget desnecessariamente.

Solução: retorne status HTTP 404 ou 410 para páginas realmente inexistentes. Nunca retorne 200 para conteúdo de erro.

Orphan pages (páginas órfãs)

Páginas que existem no site mas nenhuma outra página linka para elas. O Googlebot só pode descobri-las via sitemap — e mesmo assim, a falta de links internos sinaliza baixa importância.

# Encontrar páginas sem links internos (usando Screaming Frog)
# Exporte: Bulk Export > Links > All Inlinks
# Filtre URLs com 0 inlinks internos

Solução: adicione links internos relevantes a partir de pelo menos 3-5 páginas existentes.

Estudo de caso: diagnóstico de indexação

Situação

Site de e-commerce com 5.000 produtos. Apenas 1.200 páginas indexadas (24%). O restante aparecia como “Rastreada, mas não indexada” no Search Console.

Diagnóstico

  1. Conteúdo duplicado: 60% dos produtos tinham descrições copiadas do fabricante.
  2. Páginas de filtro indexáveis: combinações de filtros geravam 15.000 URLs extras.
  3. Links internos fracos: produtos novos tinham 0-1 links internos.

Ações tomadas

  1. Reescreveram 500 descrições de produtos mais importantes (conteúdo único).
  2. Adicionaram noindex nas páginas de filtro.
  3. Implementaram links internos automáticos (“Produtos relacionados”, “Mais vendidos na categoria”).
  4. Atualizaram o sitemap removendo URLs noindex.

Resultado (após 3 meses)

  • Páginas indexadas: 1.200 → 3.800 (+216%)
  • Tráfego orgânico: +180%
  • Crawl budget economizado: eliminação de 15.000 URLs desnecessárias

Conclusão

O processo de indexação do Google é previsível quando você entende as regras:

  • Descoberta depende de links e sitemap
  • Rastreamento depende de acessibilidade técnica e velocidade do servidor
  • Indexação depende de qualidade e unicidade do conteúdo

Se suas páginas não estão sendo indexadas, o problema está em uma dessas três etapas. Use o Search Console para diagnosticar, corrija o gargalo e monitore o progresso.

Próximos passos:

  1. Verifique o relatório de Indexação no Search Console.
  2. Corrija as páginas “Descoberta, mas não indexada” com links internos.
  3. Expanda as páginas “Rastreada, mas não indexada” com conteúdo de valor.
  4. Use o Gerador de Sitemap XML para criar um sitemap otimizado.
  5. Configure o robots.txt corretamente.

Resumo das prioridades por etapa

EtapaProblema mais comumSolução rápida
DescobertaPoucos links internosAdicionar 3-5 links de páginas existentes
RastreamentoCrawl budget desperdiçadonoindex em filtros, paginação e tags
IndexaçãoConteúdo fino ou duplicadoExpandir para 1.500+ palavras, tornar único

Lembre-se: indexação não é garantia de ranqueamento. Uma página indexada ainda precisa de autoridade, relevância e sinais de qualidade para aparecer nas primeiras posições. Mas sem indexação, nada disso importa — o ponto de partida é garantir que suas páginas passem pelas três etapas com sucesso.

Para SEO técnico completo, leia nosso guia de SEO Técnico para Desenvolvedores.

Gratuito

Gostou deste artigo?

Receba dicas exclusivas de SEO, novas ferramentas e guias toda semana. Sem spam — apenas conteúdo útil.

Sem spam. Cancele quando quiser.