Aller au contenu

GEO : Comment fonctionnent les moteurs de recherche IA (Partie 1)

Introduction

Vu que j'ai eu pas mal de retours autour du GEO ces derniers temps, et que le sujet a l'air d'intéresser, je me suis dit que ce serait bien de creuser les bases pour ceux qui veulent comprendre comment ça fonctionne.

Le GEO, pour Generative Engine Optimization, c'est l'art de se faire référencer et citer par les moteurs de recherche basés sur l'IA. En gros, c'est le SEO version IA. Et comme pour le SEO classique, avant de chercher à optimiser quoi que ce soit, il faut d'abord comprendre comment ça marche derrière.

Ce post est le premier d'une série de trois. Comment les moteurs de recherche IA fonctionnent (1). Comment se faire référencer dessus (2). Et comment analyser sa visibilité (3).

Commençons par le fonctionnement.


Le LLM et ses connaissances internes

Il y a une distinction importante à faire quand on parle de ces outils.

D'un côté, il y a le LLM et ses connaissances internes, celles qu'il a acquises pendant l'entraînement. Ces données sont figées, souvent arrêtées quelque part en 2024. Là-dessus, on n'a aucun contrôle.

Par exemple, quand on utilise ChatGPT, on utilise un de leurs modèles LLM, comme GPT 5.3 ou GPT 5.4. Ce modèle n'a que les connaissances sur lesquelles il a été entraîné. Si vous lui posez une question sur un événement de la semaine dernière, il ne saura pas y répondre avec ses connaissances seules.

Si vous avez lu mon article sur l'utilisation efficace de ChatGPT, vous savez déjà que le LLM de base a des limites très concrètes. Pas d'accès au web, pas d'informations récentes, pas de vérification de sources. Pour mieux comprendre comment fonctionnent ces modèles de langage, vous pouvez aussi lire mon guide sur l'IA générative.


ChatGPT, ce n'est pas juste un modèle

Mais ChatGPT, ce n'est pas juste un modèle. C'est un modèle LLM entouré d'autres outils qui lui permettent de faire des choses en dehors de la génération de texte. Créer des slides, générer des images, exécuter du code, et surtout, faire des recherches web.

Si vous voulez mieux comprendre ce concept d'outils autour du LLM, c'est ce qu'on appelle les agents IA. Le LLM devient le cerveau central, et les outils autour de lui sont comme des extensions qui lui permettent d'agir sur le monde réel.

Parmi ces outils, il y a le module de recherche web. Quand vous posez une question à ChatGPT, il peut aller chercher des infos en temps réel sur le web via un outil qu'on appelle souvent "web_search". C'est ce qui lui permet de vous donner des résultats récents et de citer des sources.

Si vous connaissez le RAG, le parallèle est assez direct. Dans un RAG classique, le LLM va chercher des morceaux de documents internes pour répondre à une question. Ici, c'est pareil, sauf que la base de documents, c'est le web. L'agent ChatGPT décide de lancer une recherche, récupère les résultats, et les utilise pour construire sa réponse. C'est du RAG à l'échelle d'internet.

Pour le déclencher, soit vous lui dites directement "utilise la recherche web", soit vous sélectionnez l'option "Recherche sur le web" dans le petit "+" de l'interface.


Comment les IA trouvent vos contenus

Et c'est là que ça devient intéressant. Comment ces IA trouvent vos contenus quand elles font cette recherche web ?

Pour reprendre l'analogie avec le RAG, dans un système RAG classique, vous choisissez quels documents vous indexez dans votre base vectorielle. Ici, la question devient plutôt dans quelle base vectorielle (ou quel index) ces moteurs IA vont chercher. Et c'est là que ça se complique.

Soit elles ont leur propre base d'indexation, un peu comme Google avec son index. Soit elles s'appuient sur les API d'autres moteurs de recherche existants. Par exemple, à ses débuts, Perplexity passait par l'API de Bing. Concrètement, si votre site n'était pas indexé sur Bing, Perplexity ne pouvait tout simplement pas le trouver.

Une fois qu'on comprend ça, on sait où agir.

Le problème, c'est que la transparence n'est pas vraiment le point fort des grandes entreprises de l'IA. Très peu publient sur les méthodes qu'elles utilisent en coulisses. Il faut souvent aller chercher l'information dans des interviews, des articles de recherche ou des analyses indépendantes pour reconstituer le puzzle.


Ce qu'on sait aujourd'hui sur chaque moteur

Voici ce que j'ai pu rassembler sur les sources de données de chaque plateforme.

ChatGPT s'appuie majoritairement sur Bing. Microsoft étant un investisseur majeur d'OpenAI, ce n'est pas vraiment une surprise. Quand ChatGPT fait une recherche web, il passe par l'infrastructure Bing pour trouver les résultats. OpenAI a ajouté ses propres mécanismes de classement par-dessus, mais la base reste Bing. Ce qui veut dire que si votre site n'est pas indexé dans Bing, ChatGPT ne le trouvera probablement pas lors d'une recherche web.

Perplexity a commencé avec l'API Bing, mais a depuis développé son propre crawler (PerplexityBot) et son propre index. Aujourd'hui, Perplexity combine plusieurs sources. Ce qui est intéressant chez Perplexity, c'est qu'ils ne se contentent pas d'indexer des pages entières. Ils découpent les contenus en morceaux plus fins pour pouvoir citer des passages précis. Un peu comme du RAG appliqué au web. Si vous connaissez le principe du chunking en RAG, c'est exactement la même logique, mais à l'échelle du web entier.

Gemini appartient à Google, donc naturellement il s'appuie sur l'index de Google Search et le Knowledge Graph. C'est l'avantage massif de Gemini. Si votre site est bien référencé sur Google, il y a de bonnes chances que Gemini le trouve aussi. Pas besoin de réinventer la roue ici, le SEO classique fait le travail.

Claude utilise l'API de Brave Search selon les sources disponibles en 2025. C'est un choix plus discret, Brave étant un moteur de recherche moins connu que Google ou Bing, mais qui gagne en pertinence. Pour être visible sur Claude, il faut donc que votre site soit indexé par Brave.


En résumé

Plateforme Source de recherche Ce que ça implique
ChatGPT Bing (majoritairement) Être indexé sur Bing est essentiel
Perplexity Bing + index propre + autres sources Être indexé sur Bing et Google
Gemini Google Search + Knowledge Graph Le SEO Google classique suffit
Claude Brave Search Être indexé par Brave

Au final, quand on prend du recul, le fonctionnement de ces moteurs de recherche IA repose sur des briques qu'on connaît déjà bien. Un agent IA qui orchestre le tout, un système de retrieval pour aller chercher les bons contenus, et un LLM qui génère la réponse finale en citant ses sources. C'est du RAG agentique, mais à l'échelle du web. Et comprendre ça, c'est comprendre sur quoi on peut agir.

Bref, le GEO c'est encore flou pour beaucoup, mais une fois qu'on comprend la mécanique derrière, ça devient beaucoup plus concret. Pour se faire référencer par les IA, il faut d'abord comprendre où elles vont chercher leurs informations. Et maintenant vous le savez.

La suite au prochain post, où on verra concrètement comment se faire référencer sur ces moteurs.

Si vous êtes une entreprise et que vous souhaitez être accompagné sur votre stratégie de visibilité IA, je propose des audits GEO sur tensoria.fr.

Pour aller plus loin


Si mes articles vous intéressent et que vous avez des questions ou simplement envie de discuter de vos propres défis, n'hésitez pas à m'écrire à anas0rabhi@gmail.com, j'aime échanger sur ces sujets !

Vous pouvez aussi réserver un créneau d'échange ou vous abonner à ma newsletter :)


À propos de moi

Je suis Anas Rabhi, consultant Data Scientist freelance. J'accompagne les entreprises dans leur stratégie et mise en œuvre de solutions d'IA (RAG, Agents, NLP).

Découvrez mes services sur tensoria.fr ou testez notre solution d'agents IA heeya.fr.

FAQ : Référencement sur les moteurs de recherche IA

1. C'est quoi le GEO exactement ?
Le GEO (Generative Engine Optimization) c'est l'équivalent du SEO mais pour les moteurs de recherche basés sur l'IA comme ChatGPT, Perplexity, Gemini ou Claude. L'objectif est de faire en sorte que ces IA citent et référencent votre contenu quand elles répondent aux questions des utilisateurs.

2. Est-ce que le SEO classique suffit pour être visible sur les IA ?
Pas complètement. Le SEO Google classique aide pour Gemini, qui s'appuie sur l'index de Google. Mais pour ChatGPT il faut aussi être indexé sur Bing, et pour Claude il faut être visible sur Brave Search. Chaque moteur IA a ses propres sources de données.

3. Quelle est la différence entre les connaissances du LLM et la recherche web ?
Le LLM a des connaissances figées, acquises pendant son entraînement (souvent arrêtées en 2024). La recherche web est un outil séparé qui permet à l'IA d'aller chercher des informations récentes sur internet en temps réel. C'est sur cette recherche web que le GEO agit.

4. Pourquoi Bing est devenu si important pour le référencement IA ?
Parce que ChatGPT et Perplexity, deux des plus gros moteurs de recherche IA, s'appuient sur l'infrastructure Bing pour leurs recherches web. Si votre site n'est pas indexé dans Bing, il est invisible pour ces plateformes.

5. Comment savoir si mon site est indexé sur Bing et Brave ?
Pour Bing, vous pouvez utiliser Bing Webmaster Tools, l'équivalent de Google Search Console. Pour Brave, vous pouvez vérifier en cherchant votre site directement sur search.brave.com. On verra les détails dans le prochain article de la série.