O caminho de uma página até o índice do Google
Antes de uma página aparecer nos resultados de busca, ela passa por três etapas distintas: descoberta, rastreamento e indexação. A maioria das pessoas trata esse processo como mágica — “publiquei, o Google encontra”. Na prática, cada etapa tem gargalos que podem impedir sua página de chegar ao índice.
Visão geral do processo
URL descoberta → Fila de rastreamento → Crawl (HTML) → Fila de renderização →
Renderização (JS) → Processamento → Análise de qualidade → Índice (ou exclusão)
Entender cada etapa é fundamental para diagnosticar problemas de indexação — um dos motivos mais comuns de sites que produzem conteúdo mas não recebem tráfego.
Dados sobre indexação
Segundo dados do Google, o Googlebot rastreia centenas de bilhões de páginas regularmente. Porém, nem todas são indexadas. Um estudo da Ahrefs com 2 bilhões de páginas mostrou que apenas ~5% das páginas recebem tráfego orgânico do Google. A maioria falha em uma das três etapas abaixo.
Etapa 1: Descoberta — como o Google encontra URLs
O Google descobre URLs de várias formas, cada uma com diferentes velocidades e prioridades:
Links de outras páginas (método principal)
A forma mais natural e poderosa. O Googlebot está rastreando a Página A, encontra um link para a Página B e adiciona B à fila de rastreamento. Por isso links internos são tão importantes — eles são o mapa que guia o crawler pelo seu site.
Dados: páginas com 5+ links internos são descobertas, em média, 3x mais rápido do que páginas com apenas 1 link interno (dados do Screaming Frog).
Sitemap XML
O sitemap é uma lista de URLs que você envia ao Google dizendo “essas páginas existem, por favor rastreie”. Não garante indexação, mas acelera significativamente a descoberta.
<url>
<loc>https://seusite.com/novo-artigo</loc>
<lastmod>2024-02-18</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
Envie seu sitemap pelo Google Search Console em Sitemaps > Adicionar novo sitemap.
Dica: Use nosso Gerador de Sitemap XML para criar sitemaps rapidamente.
API de Indexação do Google
Para sites de notícias e páginas de emprego, o Google oferece a Indexing API, que permite notificar diretamente sobre novas URLs ou atualizações. É significativamente mais rápido que o sitemap (minutos vs horas/dias), mas limitado a tipos específicos de conteúdo.
Na prática, muitos SEOs usam a Indexing API para outros tipos de conteúdo com algum sucesso, mas o Google não garante suporte.
Inspeção de URL (Search Console)
Você pode solicitar o rastreamento de uma URL específica pelo botão “Solicitar indexação” na Inspeção de URL. Útil para páginas urgentes, mas limitado a ~10 solicitações por dia.
RSS/Atom Feeds
O Google monitora feeds RSS como fonte de descoberta de novos conteúdos. Isso é especialmente útil para blogs que publicam frequentemente.
Links externos (backlinks)
Quando outro site linka para uma página sua, o Googlebot pode descobri-la ao rastrear o site externo. Backlinks de sites com rastreamento frequente (portais de notícias, por exemplo) aceleram muito a descoberta.
Etapa 2: Rastreamento (Crawling)
Depois de descobrir a URL, o Googlebot entra na fila de rastreamento. Quando chega a vez da URL:
- O bot verifica o robots.txt para saber se tem permissão de rastrear.
- Faz uma requisição HTTP GET para a URL.
- Baixa o HTML da página.
- Se a página usa JavaScript para renderizar conteúdo, entra na fila de renderização.
O robots.txt como porteiro
User-agent: Googlebot
Disallow: /admin/
Disallow: /busca/
Allow: /
Sitemap: https://seusite.com/sitemap.xml
Se uma URL está bloqueada no robots.txt, o Googlebot não a rastreia. Mas atenção: bloquear no robots.txt não impede a indexação. Se outra página linka para a URL bloqueada, o Google pode indexar a URL (sem conteúdo, apenas o título baseado em anchor texts).
Use nosso Gerador de robots.txt para criar uma configuração profissional em segundos.
Crawl budget: o orçamento de rastreamento
O Google não rastreia páginas infinitamente. Cada site tem um crawl budget — o número de páginas que o Googlebot está disposto a rastrear em um período.
O crawl budget depende de:
- Crawl capacity limit: a velocidade máxima que o Google pode rastrear sem prejudicar o servidor.
- Crawl demand: a “vontade” do Google de rastrear baseada em popularidade, freshness e tipo de conteúdo.
Impacto prático: sites com milhares de páginas de baixa qualidade (tags, filtros, paginação infinita) desperdiçam crawl budget em páginas inúteis, enquanto páginas importantes ficam sem rastreamento.
Renderização JavaScript (Web Rendering Service)
O Google usa uma versão headless do Chrome (Chromium) para renderizar páginas com JavaScript. Mas existe um delay significativo: a renderização acontece em uma segunda onda, após o rastreamento HTML inicial.
Timeline típico:
HTML baixado (1ª onda) → Minutos a horas
JavaScript renderizado (2ª onda) → Horas a dias (pode levar semanas)
Isso significa que conteúdo renderizado apenas via JavaScript demora mais para ser indexado. Para conteúdo crítico, prefira:
- Server-Side Rendering (SSR): Next.js, Nuxt.js
- Static Site Generation (SSG): Astro, Hugo, Gatsby
- Pre-rendering: renderedizar o HTML no servidor antes de enviar ao crawler
Códigos de status HTTP e o que o Google faz
| Status | O que o Google faz | Ação recomendada |
|---|---|---|
| 200 OK | Processa normalmente | Manter |
| 301 Moved Permanently | Segue o redirect, transfere autoridade | Usar para migrações |
| 302 Found | Segue, mas pode manter a URL original no índice | Usar para temporários |
| 304 Not Modified | Não reprocessa, usa versão em cache | Configurar ETags |
| 404 Not Found | Remove do índice após confirmar | Redirecionar se possível |
| 410 Gone | Remove do índice mais rápido que 404 | Usar para remoção intencional |
| 500 Server Error | Tenta novamente; se persistir, reduz frequência | Corrigir urgentemente |
| 503 Service Unavailable | Tenta depois; indica problema temporário | Usar em manutenção |
Leia mais sobre redirecionamentos no nosso guia de 301 vs 302.
Etapa 3: Indexação — o Google decide se sua página merece
Após rastrear e renderizar, o Google processa o conteúdo em vários passos:
Análise do conteúdo
O Google extrai e analisa:
- Texto: palavras-chave, entidades, tópicos semânticos
- Headings: hierarquia de H1 a H6 como sumário
- Imagens: alt text, contexto, EXIF data
- Links: internos e externos, anchor texts
- Dados estruturados: Schema.org em JSON-LD
- Meta tags: title, description, canonical, robots
Verificação de duplicação
O Google compara o conteúdo com outras páginas no índice usando algoritmos de fingerprinting (como SimHash). Se detecta duplicação, aplica sinais de canonicalização para escolher a versão preferida.
Avaliação de qualidade
Nem toda página rastreada é indexada. O Google pode decidir que a página:
- Tem conteúdo fino ou insuficiente (thin content)
- É duplicata de outra página
- Não atende a padrões mínimos de qualidade (E-E-A-T)
- Não tem valor único suficiente para ser indexada
- É uma página de baixa utilidade (tags, páginas de busca interna, etc.)
Essas páginas ficam no status “Rastreada, mas não indexada” ou “Descoberta, mas não indexada” no Search Console.
Sinais coletados durante a indexação
O Google coleta centenas de sinais:
- On-page: palavras-chave no título, headings e corpo
- Links: internos e externos apontando para a página
- Dados estruturados: Schema.org (FAQ, Article, Product)
- Freshness: data de publicação e atualização
- UX signals: Core Web Vitals, mobile-friendliness
- E-E-A-T: sinais de experiência, expertise, autoridade e confiança
Por que páginas não são indexadas — diagnóstico completo
”Descoberta, mas não indexada”
O Google conhece a URL mas ainda não a rastreou. Possíveis causas:
- Crawl budget insuficiente (site muito grande com muitas URLs de baixa qualidade)
- Página de baixa prioridade (poucos links internos, conteúdo fino)
- Servidor lento na época da tentativa de rastreamento
- Site novo com pouca autoridade
Solução: melhore links internos para a página, garanta que ela está no sitemap, otimize a velocidade do servidor e consolide páginas de baixa qualidade.
”Rastreada, mas não indexada”
O Google rastreou mas decidiu não indexar. Este é o status mais frustrante e comum:
- Conteúdo duplicado ou muito similar a outra página
- Conteúdo insuficiente ou de baixa qualidade
- Página sem valor único (ex.: apenas uma lista de links)
- Conteúdo gerado automaticamente sem edição humana
Solução: expanda o conteúdo (mínimo 1.500 palavras para artigos), adicione valor único, dados e exemplos, ou consolide com outra página similar via 301 redirect.
”Excluída por tag noindex”
Funciona como esperado — a meta tag noindex ou header X-Robots-Tag está dizendo ao Google para não indexar. Verifique se é intencional.
”Bloqueada pelo robots.txt”
O Google não pode rastrear, então não pode avaliar o conteúdo. Se esta página deveria estar indexada, corrija o robots.txt.
”URL alternativa — Google selecionou canonical diferente”
O Google encontrou sua página, mas decidiu que outra URL é a versão canônica. Use canonical tags para controlar isso.
Timeline realista de indexação
Quanto tempo leva para uma página nova ser indexada?
| Tipo de site | Tempo médio | Fator principal |
|---|---|---|
| Sites com alta autoridade (DR 70+) | Horas a 2 dias | Crawl demand alto |
| Sites estabelecidos (DR 30-70) | 3 a 14 dias | Links internos + sitemap |
| Sites novos (DR 0-20) | 2 a 8 semanas | Tudo precisa ser construído |
| Páginas com poucos links | 1 a 3 meses | Baixa prioridade |
Não existe garantia de prazo. O processo depende de autoridade do domínio, frequência de rastreamento, qualidade do conteúdo e competição no nicho.
Como acelerar a indexação: 10 táticas
- Links internos fortes: conecte a nova página a partir de páginas já indexadas e com tráfego.
- Sitemap atualizado: adicione a URL ao sitemap imediatamente após publicar.
- Solicitar indexação: use a Inspeção de URL no Search Console (limite ~10/dia).
- Servidor rápido: TTFB abaixo de 200ms é ideal.
- Conteúdo único e relevante: páginas com conteúdo fino são despriorizadas.
- Compartilhamento: links em redes sociais e fóruns podem acelerar a descoberta.
- RSS feed: mantenha um feed atualizado para o Google monitorar.
- Ping no Google: após atualizar o sitemap, faça ping em
https://www.google.com/ping?sitemap=URL_DO_SITEMAP. - Elimine páginas de baixa qualidade: consolide com redirects para liberar crawl budget.
- Backlinks de qualidade: links de sites frequentemente rastreados aceleram descoberta.
Monitorando o processo de indexação
Search Console — Relatório de Indexação
O painel principal mostra quantas páginas estão indexadas e os motivos de exclusão. Revise semanalmente e priorize:
- Páginas “Rastreada, mas não indexada” → melhorar conteúdo
- Páginas “Descoberta, mas não indexada” → melhorar links internos
- Erros de servidor (5xx) → corrigir imediatamente
Search Console — Inspeção de URL
Para verificar uma página específica: quando foi rastreada pela última vez, se está indexada, qual é a canonical selecionada e se existe alguma melhoria pendente.
Logs do servidor (análise avançada)
Para entender exatamente quando o Googlebot visitou cada página:
# Ver as últimas visitas do Googlebot
grep "Googlebot" /var/log/apache2/access.log | awk '{print $4, $7, $9}' | tail -20
# Contar rastreamentos por URL
grep "Googlebot" /var/log/apache2/access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20
O log mostra data, hora, URL e status code de cada visita do Googlebot. É a fonte de verdade sobre o comportamento do crawler no seu site.
Ferramentas de monitoramento de indexação
- Google Search Console: relatórios oficiais do Google
- Bing Webmaster Tools: dados complementares do Bing
- Screaming Frog: rastreamento local para identificar problemas técnicos
- IndexNow: protocolo para notificar buscadores sobre mudanças (suportado pelo Bing, adotado parcialmente pelo Google)
Checklist de indexação
- Sitemap.xml atualizado e enviado ao Search Console
- robots.txt não bloqueia páginas importantes
- Links internos conectam a nova página a pelo menos 3-5 páginas existentes
- Canonical tag auto-referente presente
- Meta robots: sem
noindexacidental - Servidor responde em menos de 500ms (TTFB < 200ms ideal)
- Conteúdo único com pelo menos 1.500 palavras para artigos
- Dados estruturados Schema.org implementados
- Solicitar indexação via Search Console para páginas novas
- Monitorar status no Search Console após 1 semana
FAQ: Perguntas frequentes sobre indexação
Quanto tempo leva para o Google indexar uma página nova?
Depende da autoridade do site. Sites estabelecidos: 3-14 dias. Sites novos: 2-8 semanas. Não há garantia de prazo. Use sitemap, links internos e solicite indexação pelo Search Console para acelerar.
Por que minha página aparece como “Rastreada, mas não indexada”?
O Google rastreou mas decidiu que a página não tem valor suficiente para indexar. Expanda o conteúdo, adicione informações únicas e dados, melhore os links internos e reenvie para indexação.
O Google indexa todo conteúdo JavaScript?
O Google renderiza JavaScript usando Chromium, mas com delay (horas a dias). Conteúdo crítico deve ser renderizado no servidor (SSR/SSG) para indexação rápida e confiável.
Sitemap garante indexação?
Não. O sitemap acelera a descoberta, mas não garante que o Google vai indexar a página. A indexação depende de qualidade, unicidade e relevância do conteúdo.
Como remover uma página do índice do Google?
Use a meta tag <meta name="robots" content="noindex">, o header HTTP X-Robots-Tag: noindex, ou a ferramenta de remoção temporária no Search Console. Saiba mais em nosso guia sobre robots.txt.
IndexNow: o futuro da notificação de indexação
O IndexNow é um protocolo aberto que permite notificar buscadores instantaneamente quando uma URL é criada, atualizada ou deletada. Em vez de esperar o crawler descobrir mudanças, você avisa proativamente.
Como funciona
- Gere uma chave API no site do IndexNow.
- Hospede a chave como arquivo na raiz do site (
/indexnow-key.txt). - Envie requisições POST para a API quando publicar ou atualizar conteúdo.
curl -X POST "https://api.indexnow.org/IndexNow" \
-H "Content-Type: application/json" \
-d '{
"host": "seusite.com",
"key": "sua-chave-api",
"urlList": [
"https://seusite.com/novo-artigo",
"https://seusite.com/artigo-atualizado"
]
}'
Quem suporta
| Buscador | Suporte IndexNow | Status |
|---|---|---|
| Bing | ✅ Completo | Ativo desde 2021 |
| Yandex | ✅ Completo | Ativo desde 2021 |
| Naver | ✅ Completo | Ativo |
| ⏳ Em avaliação | Piloto em andamento |
Recomendação: implemente IndexNow mesmo que o Google ainda não suporte plenamente. Beneficia o Bing (segundo maior buscador) e o custo de implementação é mínimo.
Erros técnicos que impedem indexação
Redirect loops e cadeias
Cadeias de redirect (A → B → C → D) desperdiçam crawl budget e podem fazer o Googlebot desistir. Máximo recomendado: 3 hops. Idealmente, cada redirect deve ir direto ao destino final.
Ruim: /antigo → /meio → /novo → /final
Bom: /antigo → /final
Use a ferramenta de Inspeção de URL no Search Console para verificar se há chains afetando suas páginas.
Conteúdo duplicado não gerenciado
Parâmetros de URL (?utm_source=, ?sessao=, ?filtro=), versões com e sem www, com e sem trailing slash — todas criam duplicatas que confundem o Google e diluem sinais de ranqueamento.
Solução: configure canonical tags auto-referentes em todas as páginas e use o Google Search Console para definir o domínio preferido. Leia nosso guia completo sobre canonical tags.
Soft 404s
Páginas que retornam status 200 mas exibem mensagens de “página não encontrada” são chamadas de soft 404s. O Google detecta esse padrão e marca a página no Search Console, mas gasta crawl budget desnecessariamente.
Solução: retorne status HTTP 404 ou 410 para páginas realmente inexistentes. Nunca retorne 200 para conteúdo de erro.
Orphan pages (páginas órfãs)
Páginas que existem no site mas nenhuma outra página linka para elas. O Googlebot só pode descobri-las via sitemap — e mesmo assim, a falta de links internos sinaliza baixa importância.
# Encontrar páginas sem links internos (usando Screaming Frog)
# Exporte: Bulk Export > Links > All Inlinks
# Filtre URLs com 0 inlinks internos
Solução: adicione links internos relevantes a partir de pelo menos 3-5 páginas existentes.
Estudo de caso: diagnóstico de indexação
Situação
Site de e-commerce com 5.000 produtos. Apenas 1.200 páginas indexadas (24%). O restante aparecia como “Rastreada, mas não indexada” no Search Console.
Diagnóstico
- Conteúdo duplicado: 60% dos produtos tinham descrições copiadas do fabricante.
- Páginas de filtro indexáveis: combinações de filtros geravam 15.000 URLs extras.
- Links internos fracos: produtos novos tinham 0-1 links internos.
Ações tomadas
- Reescreveram 500 descrições de produtos mais importantes (conteúdo único).
- Adicionaram
noindexnas páginas de filtro. - Implementaram links internos automáticos (“Produtos relacionados”, “Mais vendidos na categoria”).
- Atualizaram o sitemap removendo URLs noindex.
Resultado (após 3 meses)
- Páginas indexadas: 1.200 → 3.800 (+216%)
- Tráfego orgânico: +180%
- Crawl budget economizado: eliminação de 15.000 URLs desnecessárias
Conclusão
O processo de indexação do Google é previsível quando você entende as regras:
- Descoberta depende de links e sitemap
- Rastreamento depende de acessibilidade técnica e velocidade do servidor
- Indexação depende de qualidade e unicidade do conteúdo
Se suas páginas não estão sendo indexadas, o problema está em uma dessas três etapas. Use o Search Console para diagnosticar, corrija o gargalo e monitore o progresso.
Próximos passos:
- Verifique o relatório de Indexação no Search Console.
- Corrija as páginas “Descoberta, mas não indexada” com links internos.
- Expanda as páginas “Rastreada, mas não indexada” com conteúdo de valor.
- Use o Gerador de Sitemap XML para criar um sitemap otimizado.
- Configure o robots.txt corretamente.
Resumo das prioridades por etapa
| Etapa | Problema mais comum | Solução rápida |
|---|---|---|
| Descoberta | Poucos links internos | Adicionar 3-5 links de páginas existentes |
| Rastreamento | Crawl budget desperdiçado | noindex em filtros, paginação e tags |
| Indexação | Conteúdo fino ou duplicado | Expandir para 1.500+ palavras, tornar único |
Lembre-se: indexação não é garantia de ranqueamento. Uma página indexada ainda precisa de autoridade, relevância e sinais de qualidade para aparecer nas primeiras posições. Mas sem indexação, nada disso importa — o ponto de partida é garantir que suas páginas passem pelas três etapas com sucesso.
Para SEO técnico completo, leia nosso guia de SEO Técnico para Desenvolvedores.