Dwenola
Chapitre 2 : SEO technique

Sitemap, robots.txt et directives d'indexation

Par Billy Rousseau8 min de lectureLeçon 4 · Chapitre 2

Le sitemap XML indique à Google quelles pages de votre site existent et méritent d'être indexées. Le fichier robots.txt contrôle quelles parties de votre site les robots peuvent explorer. Les directives d'indexation (noindex, canonical) déterminent quelles pages apparaissent dans les résultats de recherche. Ces trois outils forment le système de pilotage de votre visibilité technique.

Le sitemap XML : la carte de votre site pour Google

Qu'est-ce qu'un sitemap XML ?

Un sitemap XML est un fichier qui liste toutes les URLs de votre site que vous souhaitez voir indexées par Google. C'est comme donner un plan détaillé de votre magasin à un visiteur qui arrive pour la première fois.

À quoi ressemble un sitemap ?

Voici un exemple simplifié :

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.exemple.fr/</loc>
    <lastmod>2026-04-01</lastmod>
    <changefreq>weekly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://www.exemple.fr/services/seo</loc>
    <lastmod>2026-03-15</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

Chaque entrée contient :

  • loc : l'URL de la page (obligatoire)
  • lastmod : la date de dernière modification (recommandé)
  • changefreq : la fréquence de mise à jour estimée (optionnel, peu utilisé par Google)
  • priority : l'importance relative de la page sur votre site (optionnel, peu utilisé par Google)

Les bonnes pratiques pour votre sitemap

Incluez uniquement les pages que vous voulez voir indexées. N'ajoutez pas les pages en noindex, les pages redirigées ou les pages d'erreur. Le sitemap doit être cohérent avec vos directives d'indexation.

Maintenez-le à jour. Un sitemap avec des URLs obsolètes envoie un mauvais signal à Google. La plupart des CMS (WordPress, Next.js) génèrent le sitemap automatiquement.

Soumettez-le dans Google Search Console. Rendez-vous dans la section "Sitemaps" et ajoutez l'URL de votre sitemap (généralement votredomaine.fr/sitemap.xml). Google le consultera régulièrement.

Respectez la limite de 50 000 URLs par fichier. Si votre site dépasse cette limite, créez un sitemap index qui référence plusieurs fichiers sitemap :

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://www.exemple.fr/sitemap-pages.xml</loc>
  </sitemap>
  <sitemap>
    <loc>https://www.exemple.fr/sitemap-articles.xml</loc>
  </sitemap>
</sitemapindex>

Créez des sitemaps thématiques pour les gros sites. Séparer les pages par type (pages, articles, produits, catégories) facilite le suivi dans Google Search Console et permet d'identifier plus rapidement les problèmes d'indexation.

Sitemap images et vidéos

Si votre site contient beaucoup de visuels ou de vidéos, des sitemaps dédiés (image sitemap, video sitemap) peuvent aider Google à mieux indexer ces contenus. C'est particulièrement utile pour les sites e-commerce et les sites médias.

Le fichier robots.txt : le gardien de votre site

Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt est un simple fichier texte placé à la racine de votre site (votredomaine.fr/robots.txt) qui indique aux robots d'exploration quelles parties de votre site ils peuvent ou ne peuvent pas visiter.

Exemple de fichier robots.txt

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /panier/
Disallow: /mon-compte/

Sitemap: https://www.exemple.fr/sitemap.xml

User-agent : le robot concerné (* signifie tous les robots) Allow : autoriser l'accès (par défaut, tout est autorisé) Disallow : interdire l'accès à un répertoire ou une page Sitemap : indiquer l'emplacement du sitemap XML

Ce qu'il faut bloquer (et ne pas bloquer)

À bloquer À ne pas bloquer
Pages d'administration (/admin/) Fichiers CSS et JavaScript
Pages de panier et compte utilisateur Images et médias
Pages de résultats de recherche interne Pages de contenu
Pages de filtres/tri en double Le sitemap XML
Environnements de staging ou de test Les pages de catégories

Attention : une erreur fréquente consiste à bloquer les fichiers CSS et JavaScript. Si Googlebot ne peut pas accéder à ces fichiers, il ne peut pas rendre votre page correctement et ne verra pas votre site comme vos visiteurs le voient. Cela peut impacter négativement votre classement.

Les limites du robots.txt

Le robots.txt est une directive, pas un ordre. Les robots bien intentionnés (Googlebot, Bingbot) le respectent, mais un robot malveillant peut l'ignorer. De plus, le robots.txt n'empêche pas l'indexation. Si une page bloquée par robots.txt reçoit des liens externes, Google peut quand même l'indexer (sans la crawler), en affichant un résultat minimal dans les SERPs. Pour vraiment empêcher l'indexation, utilisez la balise noindex.

Les directives d'indexation : noindex, canonical et consorts

La balise meta robots (noindex)

La balise meta robots est placée dans le <head> de votre page HTML :

<meta name="robots" content="noindex, follow">

Les principales directives :

Directive Effet
index Autorise l'indexation (comportement par défaut)
noindex Empêche l'indexation de la page
follow Autorise le suivi des liens de la page
nofollow Empêche le suivi des liens de la page
nosnippet Empêche l'affichage d'un extrait dans les résultats
max-snippet:N Limite la longueur de l'extrait à N caractères

Quand utiliser noindex :

  • Pages de résultats de recherche interne
  • Pages de mentions légales et politique de confidentialité (optionnel)
  • Pages de tri et filtrage qui créent du contenu dupliqué
  • Pages temporaires ou en cours de développement
  • Pages de remerciement après soumission de formulaire

La balise canonical

La balise canonical indique à Google quelle est la version "officielle" d'une page quand plusieurs URLs affichent un contenu similaire :

<link rel="canonical" href="https://www.exemple.fr/page-officielle">

Cas d'utilisation courants :

  • Un même produit accessible via plusieurs catégories (/chaussures/nike-air et /promotions/nike-air)
  • Des variantes d'URL avec paramètres (/produit?couleur=rouge et /produit?couleur=bleu)
  • Du contenu syndiqué (republié sur un autre site)
  • Des versions HTTP/HTTPS ou www/non-www d'une même page

Règle importante : chaque page doit avoir une balise canonical, même si elle pointe vers elle-même. C'est une bonne pratique qui évite les ambiguïtés.

L'en-tête HTTP X-Robots-Tag

Pour les fichiers non HTML (PDF, images), vous ne pouvez pas utiliser de balise meta robots. L'en-tête HTTP X-Robots-Tag offre une alternative :

X-Robots-Tag: noindex

Cette configuration se fait côté serveur (dans le fichier .htaccess pour Apache, dans la configuration Nginx, etc.).

La cohérence entre ces trois outils

L'erreur la plus fréquente est l'incohérence entre le sitemap, le robots.txt et les directives d'indexation. Voici les règles de cohérence à respecter :

  • Une page dans le sitemap ne doit pas être en noindex. Si vous ne voulez pas qu'une page soit indexée, ne la mettez pas dans le sitemap.
  • Une page bloquée par robots.txt ne devrait pas être dans le sitemap. Si Google ne peut pas l'explorer, inutile de lui dire qu'elle existe.
  • Une page avec canonical vers une autre page ne devrait pas être dans le sitemap. Seule la page canonique doit y figurer.
  • Ne bloquez pas une page par robots.txt ET par noindex en même temps. Si le robots.txt empêche le crawl, Googlebot ne verra jamais la balise noindex. La page pourrait rester indexée (avec un résultat minimal).

Checklist de vérification

Voici comment vérifier la cohérence de vos directives d'indexation :

  1. Accédez à votre robots.txt (votredomaine.fr/robots.txt) et vérifiez qu'il ne bloque pas de pages importantes
  2. Vérifiez votre sitemap (votredomaine.fr/sitemap.xml) et assurez-vous qu'il ne contient que des pages indexables
  3. Crawlez votre site avec Screaming Frog et filtrez les pages noindex : aucune ne devrait être dans le sitemap
  4. Vérifiez les canonicals : chaque page devrait pointer vers la bonne URL canonique
  5. Consultez Google Search Console > "Pages" pour identifier les pages exclues et comprendre pourquoi

Quand nous réalisons un audit technique chez Dwenola, la cohérence entre ces trois systèmes fait partie des premiers points que nous vérifions. Une incohérence peut neutraliser des mois d'efforts SEO.

FAQ

Mon site a besoin d'un sitemap si j'ai moins de 50 pages ?

Un sitemap n'est pas strictement nécessaire pour un petit site dont toutes les pages sont liées entre elles. Googlebot les trouvera en suivant les liens. Cependant, avoir un sitemap est une bonne pratique dans tous les cas : il facilite le suivi dans Google Search Console et garantit que Google connaît toutes vos pages.

Puis-je utiliser robots.txt pour empêcher l'indexation d'une page ?

Non, le robots.txt empêche le crawl mais pas l'indexation. Google peut indexer une page bloquée par robots.txt si elle reçoit des liens externes. Pour empêcher l'indexation, utilisez la balise noindex. Et si vous utilisez noindex, ne bloquez pas le crawl de cette page dans le robots.txt, sinon Google ne verra jamais la directive noindex.

Que faire si Google Search Console signale des pages "Exclues" ?

Toutes les pages exclues ne sont pas problématiques. Les pages en noindex volontaire, les pages canonicalisées vers une autre URL et les redirections apparaissent comme "exclues" et c'est normal. Concentrez-vous sur les exclusions non souhaitées : pages découvertes mais non indexées, erreurs de crawl et pages bloquées par erreur.

Comment gérer le sitemap d'un site multilingue ?

Pour un site multilingue, vous avez deux options : un sitemap unique avec des balises hreflang pour chaque entrée, ou des sitemaps séparés par langue. Les deux approches fonctionnent, mais les sitemaps séparés sont plus faciles à gérer et à débuguer.

Votre site est invisible sur Google ? On fait un diagnostic gratuit en 30 minutes. On en discute ?

Résumer l'article avec