Fondamentaux

Avant d’écrire la moindre balise <meta>, de configurer un sitemap ou d’acheter un lien entrant, vous devez d’abord vous forger une « vision du monde » : comment fonctionne réellement un moteur de recherche ? Que veut vraiment l’utilisateur quand il fait une recherche ? Sur quelle base Google décide-t-il qui apparaît en premier ? Cette couche n’enseigne aucune manipulation concrète ; elle se contente d’expliquer à fond ces quelques concepts fondamentaux. Tout ce qui suit — la construction du site, le contenu, les liens, l’optimisation technique — n’est que la conséquence logique de cette vision.

En tant que personne qui sait coder, vous avez en réalité un avantage naturel : un moteur de recherche n’est au fond rien d’autre qu’un gigantesque système distribué — avec un robot d’exploration (Crawler), un pipeline d’analyse et de rendu (Pipeline), un stockage (Index) et un algorithme de classement (Ranking). Considérez-le comme un « système externe » auquel vous devez vous interfacer, et beaucoup de choses deviennent soudain limpides.

Comment fonctionne un moteur de recherche : exploration → indexation → classement

Imaginez la plus grande bibliothèque du monde, mais sans aucun catalogue. Il y a un bibliothécaire infatigable (c’est le robot d’exploration de Google) qui fait trois choses :

Il parcourt le monde entier et feuillette chaque livre qu’il parvient à trouver (exploration / Crawling) ;
Il rédige un résumé de chaque livre, en enregistre les mots-clés et les inscrit dans un immense catalogue de fiches (indexation / Indexing) ;
Quand un lecteur arrive et demande « je cherche un livre sur le pain au levain », il sélectionne dans le catalogue les quelques ouvrages les plus pertinents et les plus fiables, et vous les tend dans l’ordre (classement / Ranking).

Toute l’industrie du SEO consiste, au fond, à aider ce bibliothécaire à accomplir ces trois étapes plus facilement. Si l’une d’elles bloque, votre page n’arrivera jamais devant l’utilisateur.

Exploration (Crawling) : comment le robot vous découvre

Le robot d’exploration de Google s’appelle Googlebot. Il découvre les nouvelles pages principalement par deux voies :

Suivre les liens : il part de pages déjà connues et saute de lien en lien le long des <a href="..."> présents dans les pages, comme on tire sur un fil. C’est pour cela que les « liens internes » et les « liens externes » sont si importants en SEO — une page vers laquelle aucun lien ne pointe est comme une île isolée qu’aucune route ne dessert.
Lire le sitemap : vous pouvez soumettre vous-même un sitemap.xml, ce qui revient à remettre directement la liste des ouvrages au bibliothécaire en lui disant « voici mes pages, jetez-y un œil ».

Vous pouvez aussi utiliser robots.txt, un simple fichier texte placé à la racine du site, pour indiquer au robot les zones où il ne doit pas entrer. Attention : ce fichier régit l’« exploration », pas l’« indexation » — c’est le piège le plus fréquent chez les débutants (on y reviendra dans la partie sur l’indexation) :

# https://yourdomain.com/robots.txt
User-agent: *
Disallow: /admin/        # 后台不要抓
Disallow: /cart/         # 购物车这类临时页不要抓
Sitemap: https://yourdomain.com/sitemap.xml

💡 Astuce : Google attribue à chaque site un « budget d’exploration (Crawl Budget) » approximatif — c’est-à-dire la quantité de ressources qu’il est prêt à consacrer à vous explorer. Les petits sites n’ont quasiment pas à s’en soucier ; mais si vous avez des centaines de milliers de pages, plus un tas d’URL parasites paramétrées, vous devez activement utiliser robots.txt et une structure de site cohérente pour orienter ce budget vers les pages qui comptent vraiment.

Indexation (Indexing) : être exploré ne signifie pas être indexé

L’exploration ne fait que « télécharger » la page. Ensuite, Google doit analyser (Parse) et restituer (Render) cette page : lire le HTML, extraire le titre et le corps du texte, exécuter le JavaScript, comprendre de quoi parle réellement la page — et seulement après, décider s’il l’enregistre ou non dans l’index.

Il y a ici un piège particulièrement crucial pour les développeurs : le rendu JavaScript. Si votre page est une application monopage en rendu purement côté client (CSR), le HTML initial est quasiment vide et tout le contenu est généré par le JS dans le navigateur — Googlebot sait certes exécuter le JS, mais ce rendu est « remis dans une seconde file d’attente, traité avec délai », ce qui est à la fois lent et sans garantie d’exhaustivité. Résultat : le contenu risque d’être indexé très tardivement, voire de ne jamais être vu du tout. C’est aussi pour cela que le SEO recommande fortement le rendu côté serveur (SSR) ou la génération statique (SSG) — afin que le robot trouve d’emblée le contenu complet dans le HTML.

Le cas d’une page « explorée mais non indexée » est très courant ; les causes habituelles sont :

un contenu trop maigre, dupliqué, ou jugé de faible qualité — Google estime qu’il ne vaut pas la peine d’être indexé ;
une page bloquée par une balise noindex (exemple plus bas) ;
une balise canonical qui pointe vers une autre page — Google considère alors qu’il ne s’agit que d’une copie ;
un échec de rendu : le robot ne voit qu’une page blanche.

Classement (Ranking) : choisir un ordre parmi des centaines de signaux

Quand l’utilisateur saisit une requête, Google sort en quelques millisecondes les pages candidates de l’index, puis les note et les classe à l’aide de plusieurs centaines de signaux de classement. Aucun facteur isolé ne peut « décider » du classement — c’est le résultat d’un arbitrage global.

Derrière le classement se cachent encore deux niveaux de traitement que vous ne voyez pas :

Compréhension de la requête : Google analyse ce que vous voulez vraiment demander avec cette phrase, gère les synonymes, corrige les fautes de frappe, identifie si vous voulez acheter quelque chose ou apprendre quelque chose (c’est l’« intention de recherche » de la section suivante).
Personnalisation : votre localisation géographique, votre langue, votre appareil et même votre historique de recherche viennent ajuster les résultats. Dire « mon classement » est donc une formulation imprécise en soi — des personnes différentes, en des lieux différents, peuvent voir des SERP complètement différentes.

🧑‍💻 Point de vue développeur : pour savoir si votre page est réellement indexée, deux outils sont à portée de main.

Tapez site:yourdomain.com dans la barre de recherche Google : vous verrez quelles pages de ce domaine Google a indexées, et vous aurez une idée du nombre. Pour vérifier une seule page : site:yourdomain.com/your-page.

Connectez-vous à la Google Search Console et utilisez l’outil « Inspection de l’URL (URL Inspection) » : collez n’importe quelle URL et il vous indiquera l’état d’exploration de la page, son état d’indexation, le HTML après rendu, ainsi que la raison pour laquelle elle n’a pas été indexée — c’est le point de départ de tout diagnostic.

Voici à quoi ressemble un HTML minimal « accueillant pour le robot » et indexable — le contenu est écrit directement dans le HTML, les titres ont une sémantique claire, et le corps du texte n’est pas caché derrière du JS :

<!DOCTYPE html>
<html lang="zh-CN">
  <head>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <title>家庭烘焙入门：第一次做酸面包</title>
    <meta name="description" content="零基础也能上手的酸面包教程，含发酵时间表与常见翻车点。" />
    <link rel="canonical" href="https://yourdomain.com/sourdough-101" />
  </head>
  <body>
    <h1>第一次做酸面包，从养酵种开始</h1>
    <p>酸面包不靠商业酵母，全靠你自己养的天然酵种……</p>
  </body>
</html>

⚠️ Attention : si vous voulez empêcher activement l’indexation d’une page, utilisez <meta name="robots" content="noindex">. Mais à condition que cette page ne soit pas bloquée par robots.txt — car le robot doit d’abord pouvoir explorer la page pour lire la directive noindex qu’elle contient. Utiliser les deux ensemble rendra au contraire le noindex inopérant.

Intention de recherche (Search Intent)

L’intention de recherche désigne l’objectif que l’utilisateur cherche réellement à atteindre dans sa tête au moment où il tape cette suite de mots-clés. C’est le cœur du SEO moderne : Google ne classe pas « la page qui correspond le mieux aux mots-clés », mais « la page qui satisfait le mieux cette intention ». Aussi bien rédigé que soit votre contenu, si vous répondez à côté de la question que l’utilisateur se pose, vous ne serez tout de même pas bien classé.

L’intention se répartit généralement en quatre catégories :

Informationnelle (Informational) : vouloir apprendre quelque chose, trouver une réponse. Ex. : comment réinitialiser un routeur, qu'est-ce que https, utilisation de react useEffect.
Navigationnelle (Navigational) : vouloir se rendre sur un site/une page précis. Ex. : connexion github, bilibili, stripe dashboard.
Investigation commerciale (Commercial Investigation) : avoir l’intention d’acheter, mais être encore en train de comparer et de se renseigner. Ex. : meilleur logiciel de prise de notes, iphone 15 vs 16, test de notion.
Transactionnelle (Transactional) : être prêt à passer à l’acte immédiatement (acheter, télécharger, s’inscrire). Ex. : buy airpods pro, prix de notion, télécharger vscode.

Comment déterminer l’intention derrière un mot-clé ?

La méthode la plus fiable n’est pas de se fier à son intuition, mais d’aller directement faire la recherche sur Google et de regarder à quoi ressemble la véritable SERP (page de résultats). Google a déjà validé pour vous, à partir de données massives, ce que veulent les utilisateurs ; la page de résultats est la réponse :

Un écran rempli d’articles de blog, de tutoriels, de Wikipédia → intention informationnelle, vous devriez écrire un article approfondi.
Une rangée de cartes produits, des annonces shopping, des prix → intention transactionnelle, vous devriez faire une page produit / une page d’atterrissage.
Des classements du type « les meilleurs X recommandés », « comparatif des dix meilleurs X » → investigation commerciale, vous devriez faire un comparatif/test.
En tête, le site officiel d’une marque + ses liens internes → intention navigationnelle, que seule cette marque peut en pratique occuper.

💡 Astuce : si la SERP d’un mot-clé est entièrement composée de pages produits mais que vous, vous avez péniblement rédigé un long article de vulgarisation, il est quasiment impossible que vous vous classiez — le format de contenu que vous livrez n’a tout simplement rien à voir avec ce que veut l’utilisateur. Regardez d’abord la SERP, puis décidez quel type de page créer.

Type d’intention	Requête typique	Type de page à créer
Informationnelle	`qu'est-ce que le SEO`, `comment obtenir un certificat https`	tutoriels, guides, longs articles de blog, FAQ
Navigationnelle	`connexion github`, `documentation stripe`	site officiel de la marque, portail de documentation produit
Investigation commerciale	`meilleur service CDN`, `vercel vs netlify`	comparatifs, classements, tests approfondis
Transactionnelle	`acheter un nom de domaine`, `prix de l'édition équipe de notion`	page produit, page tarifs, page d’atterrissage d’inscription/achat

E-E-A-T (Expérience, Expertise, Autorité, Fiabilité)

E-E-A-T est un cadre d’évaluation de la qualité issu des « Consignes aux évaluateurs de la qualité de la recherche » de Google ; ses quatre lettres représentent respectivement :

Experience (Expérience) : le créateur du contenu a-t-il une expérience personnelle de première main ? Celui qui écrit sur le pain au levain en a-t-il vraiment cuit ? Celui qui teste un appareil photo l’a-t-il réellement tenu en main pour photographier ? C’est le premier E que Google a ajouté par la suite, spécialement pour lutter contre le contenu « copié à droite à gauche, jamais utilisé soi-même ».
Expertise (Expertise) : l’auteur s’y connaît-il vraiment dans ce domaine ? Un article médical gagne à être rédigé par un médecin, un tutoriel de code par un ingénieur ayant de l’expérience de terrain.
Authoritativeness (Autorité) : vous (ou votre site, ou votre auteur) êtes-vous reconnu comme une source faisant autorité dans ce domaine ? Cela se reflète en grande partie dans « la façon dont les autres vous perçoivent » — par exemple, combien de sites de grande qualité vous citent et pointent vers vous.
Trustworthiness (Fiabilité) : l’ensemble du site est-il digne de confiance ? Les informations sont-elles exactes ? Y a-t-il du HTTPS ? Y a-t-il des coordonnées claires, une politique de remboursement, une signature d’auteur ? C’est l’élément que Google considère comme le plus important des quatre.

Deux malentendus fréquents doivent ici être dissipés :

E-E-A-T n’est pas un « facteur de classement » que l’on peut régler directement. Vous ne pouvez pas écrire une ligne de code pour faire +10 à l’E-E-A-T. C’est le cadre global que Google utilise pour entraîner ses algorithmes et évaluer « si la qualité de cette page est à la hauteur ou non ». Il influence le classement, mais de façon indirecte, à travers d’innombrables signaux concrets.
Son « niveau d’exigence » varie selon les sujets. Cela amène à parler de YMYL (Your Money or Your Life) — les sujets « touchant à votre argent ou à votre vie », incluant la santé, la finance, le droit, la sécurité des personnes, etc. Une erreur dans ce type de contenu peut nuire directement à l’utilisateur, c’est pourquoi Google y applique des exigences d’E-E-A-T bien plus élevées. Si vous ratez un guide de jeu vidéo, personne n’est blessé ; mais une erreur dans un article sur le dosage d’un médicament peut coûter une vie — les standards sont, naturellement, à des années-lumière l’un de l’autre.

🧑‍💻 Checklist concrète (rendre l’E-E-A-T visible et tangible) :

Informations sur l’auteur : signer chaque article, joindre une biographie de l’auteur, son titre, ses expériences pertinentes, idéalement avec un lien vers une vraie page d’auteur.

Sources citées : indiquer la provenance des données et conclusions clés, créer un lien vers les sources d’origine faisant autorité, plutôt que d’affirmer sans fondement.

HTTPS : imposer le HTTPS sur tout le site ; c’est le seuil minimal de la « fiabilité », que les navigateurs comme Google examinent.

Page À propos / Page Contact : expliquer clairement « qui nous sommes et comment nous joindre ». Un site qui n’a même pas de coordonnées, comment parler de confiance ?

Cas réels et matériel de première main : vos propres captures d’écran, des données mesurées, des photos d’utilisation réelles valent bien mieux que des illustrations génériques.

Fraîcheur du contenu : indiquer la date de mise à jour, réexaminer régulièrement le contenu obsolète (ce site affiche un champ updated en haut de chaque article — c’est précisément donner l’exemple).

Principaux facteurs de classement

Bien que Google ait des centaines de signaux, on peut globalement les rattacher à quatre grands piliers. Comprendre ces quatre piliers vous donne un cadre pour juger « où concentrer vos efforts » :

Pertinence du contenu (Relevance) : votre contenu répond-il réellement à l’intention de recherche de l’utilisateur, couvre-t-il le sujet avec la profondeur attendue ? C’est la fondation — si le contenu n’est pas bon, les trois autres points, aussi excellents soient-ils, ne pourront rien y faire.
Liens et autorité (Authority / Backlinks) : combien de sites externes de grande qualité pointent vers vous. Chaque lien provenant d’un site digne de confiance est comme un « vote » qui dit à Google « ce type mérite qu’on lui fasse confiance ».
Expérience utilisateur (User Experience) : la page s’ouvre-t-elle vite, est-elle agréable à utiliser sur mobile, ne fait-elle pas surgir des publicités intempestives ? Un ensemble d’indicateurs quantifiables s’appelle Core Web Vitals (signaux web essentiels) et mesure la vitesse de chargement, la réactivité aux interactions et la stabilité visuelle — cette partie sera détaillée spécifiquement dans la deuxième couche, « La construction du site » : comment la mesurer et comment l’optimiser.
Santé technique (Technical Health) : le site peut-il être exploré et indexé sans accroc, dispose-t-il du HTTPS, est-il adapté au mobile, a-t-il des données structurées, est-il exempt de liens morts et de chaînes de redirections ? C’est le préalable pour que les trois premiers points « puissent être vus normalement par Google ».

Pilier	Explication en une phrase
Pertinence du contenu	Le contenu vise-t-il précisément l’intention de recherche, est-il assez approfondi — la fondation de tout
Liens / Autorité	Les backlinks de qualité sont les « votes de confiance » que d’autres sites vous accordent
Expérience utilisateur	Vitesse, adaptation au mobile, Core Web Vitals : n’exaspérez pas l’utilisateur (détaillé dans la deuxième couche)
Santé technique	Explorable, indexable, HTTPS, sans liens morts — le préalable pour que les trois premiers soient vus par Google

💡 Astuce : les débutants adorent se focaliser d’emblée sur les « liens » (acheter des backlinks). Mais l’ordre devrait être inversé : consolidez d’abord la santé technique et le contenu, sinon le poids que vous attirez se déversera sur une fondation qui fuit, et tout sera gaspillé.

Récapitulatif

L’esprit de cette couche peut se condenser en trois phrases :

Considérez le moteur de recherche comme un système auquel vous devez vous interfacer — pouvoir être exploré, pouvoir être indexé, pouvoir être classé sont trois épreuves successives et progressives.
Posez-vous d’abord la question de l’intention, puis créez la page — quelle que soit la forme de réponse que veut l’utilisateur, livrez cette forme-là, ne faites pas cavalier seul.
La qualité n’est pas de la magie noire, mais des signaux concrets que l’on peut mettre en œuvre — l’E-E-A-T et les quatre grands piliers peuvent chacun se décomposer en actions concrètes que vous pouvez entreprendre dès aujourd’hui.

✅ Avant de quitter cette couche, demandez-vous si vous avez vraiment tout compris :

Je peux expliquer avec mes propres mots ce que font respectivement les trois étapes « exploration → indexation → classement »
Je sais comment utiliser site: et la Search Console pour vérifier si une page a été indexée
Je comprends pourquoi le rendu purement côté client (CSR) n’est pas favorable au SEO
Je sais distinguer les quatre types d’intention de recherche et je connais la méthode « regarder d’abord la vraie SERP »
Je comprends que l’E-E-A-T n’est pas un facteur unique, et je sais pourquoi le YMYL impose des exigences plus strictes
Je peux citer les quatre grands piliers du classement et je sais dans quel ordre concentrer mes efforts

Forts de cette vision du monde, il est temps de passer à la pratique. Entrons dans la deuxième couche « La construction du site » : nous allons commencer à appliquer ces principes pour bâtir un site réellement capable d’être correctement exploré, indexé, et d’obtenir de bons résultats auprès des moteurs de recherche.