Aller au contenu

IA

Mémoire d'un agent IA : comment ça marche, comment l'implémenter

Sans mémoire, un agent IA est juste un meilleur chatbot.

Avec une mémoire mal conçue, c'est un agent qui invente des souvenirs, contredit ce qu'il a dit la semaine dernière, et vous coûte une fortune en tokens. La mémoire est la fonctionnalité la plus sous-estimée des agents IA en 2026. Et c'est aussi celle qui fait la différence entre un prototype sympa et un produit qui crée vraiment de la valeur.

Dans cet article, je vais vous expliquer la taxonomie réelle de la mémoire dans les agents IA, le pattern technique central que très peu de gens expliquent clairement (un petit LLM dédié qui filtre ce qui mérite d'être retenu), les outils du marché avec leurs vrais chiffres de benchmark, et comment choisir selon votre cas.


Parsing PDF pour RAG : extraire vraiment la donnée

Le parsing, première cause d'échec des RAG en entreprise

Sur 10 RAG qui ne fonctionnent pas en entreprise, 8 ont un problème de parsing en amont. Pas de modèle, pas de prompt, pas de retriever. Juste un PDF mal lu au départ.

C'est le constat que je fais sur presque tous les projets que j'accompagne. Une entreprise investit des semaines à choisir son modèle de langage, à configurer sa base vectorielle, à affiner ses prompts... et le système répond à côté. Parce que le document source a été mal lu dès le début.

Le parsing (l'extraction structurée des données depuis un document) est l'étape la plus sous-estimée du RAG. Si la récupération d'informations depuis vos fichiers est approximative, peu importe la sophistication du reste du pipeline : vous construisez sur du sable. Un tableau mal extrait, des colonnes confondues, un schéma technique ignoré... et votre LLM génère des réponses fausses avec une confiance absolue.

Dans cet article, je vais vous montrer pourquoi cette structuration des documents est si difficile, comment les 4 grands outils du marché se comparent vraiment, et ce que j'ai appris sur deux projets très différents : des documentations d'usine chez Continental, et un site e-commerce avec des milliers de fiches produit.


Agent IA vs n8n, Make, Zapier : Quel Choix pour votre PME ?

6 PME sur 10 qui demandent un agent IA n'en ont pas besoin

Sur 10 PME qui me contactent en disant "on veut un agent IA", 6 n'ont en réalité pas besoin d'un agent IA.

Elles ont besoin d'un bon workflow n8n avec un nœud OpenAI bien configuré. Et personne ne le leur dit. Parce que les agences custom préfèrent vendre des agents IA à 30K€ qu'un workflow n8n à 3K€. C'est humain. Mais ce n'est pas honnête.

Alors dans cet article, je vais vous donner la grille de décision que j'utilise avec mes propres clients. Pas de discours commercial. Juste les critères qui permettent de trancher entre agent IA vs n8n (ou Make, ou Zapier) selon votre cas réel.

Position claire dès le départ : dans la majorité des cas PME, un n8n bien fait avec un nœud LLM suffit. L'agent IA custom n'est nécessaire que dans des cas précis. Je vais vous montrer exactement lesquels.


Évaluer un RAG en production : métriques et RAGAS

80% des RAG que j'audite n'ont pas de système d'évaluation

C'est un chiffre que j'aurais aimé pouvoir citer avec une source académique. Mais il vient directement du terrain : sur les projets RAG en production que j'ai eu à auditer ces deux dernières années, environ 8 sur 10 n'ont aucun système d'évaluation structuré en place.

Le scénario est toujours le même. Le projet a été livré. L'équipe a "vérifié à la main" sur 10 ou 15 questions pendant la recette. Les retours utilisateurs semblent corrects. Et plus personne ne mesure rien.

Le coût caché de cette absence est massif. Vous ne savez pas si le RAG dérive après une mise à jour des documents. Vous ne savez pas si un changement de modèle d'embeddings a cassé quelque chose. Vous ne savez pas si les améliorations que vous apportez apportent vraiment un gain, ou si elles compensent juste une régression ailleurs. Vous optimisez à l'aveugle.

C'est le sujet numéro un qui sépare un RAG POC d'un RAG production mature. Un POC, ça "marche". Un système production, ça se mesure, ça se surveille, et ça s'améliore de façon contrôlée. Cet article couvre les métriques RAG qui comptent, les frameworks d'évaluation (RAGAS, DeepEval, TruLens), comment construire un dataset d'évaluation solide, et comment mettre en place une évaluation continue en production.


MCP (Model Context Protocol) : Le Standard des Agents IA

Tout le monde parle d'agents IA. Personne ne parle de comment ils se connectent vraiment à vos outils.

Voici le problème concret que rencontrent 90% des équipes qui veulent construire un agent IA sérieux : elles ont un LLM capable, un cas d'usage clair, et 4 ou 5 outils à connecter (une base SQL, un Slack, un Notion, un GitHub). Et là, elles se retrouvent à coder une intégration custom pour chaque outil, pour chaque modèle. Si demain elles changent de LLM, elles recommencent. Si un collègue veut réutiliser l'intégration Slack sur un autre agent, il repart de zéro.

C'est le problème N fois M. N agents, M outils. On aboutit à N×M intégrations à coder et à maintenir.

MCP résout exactement ce problème. Le Model Context Protocol est le standard ouvert lancé par Anthropic en novembre 2024, et il est en train de devenir en 2026 ce qu'HTTP est au web : l'infrastructure invisible sur laquelle tout repose. OpenAI, Google, Microsoft, AWS : tout l'écosystème converge dessus. 97 millions de téléchargements mensuels du SDK en mars 2026, contre 2 millions au lancement. C'est une adoption sans précédent dans l'outillage IA.

Dans cet article, je vais vous expliquer ce qu'est MCP vraiment, comment son architecture fonctionne, en quoi il diffère du function calling classique, et surtout : sur quels projets l'utiliser (et sur quels projets ne pas l'utiliser).


Les 5 Domaines de l'IA (Et Pourquoi ChatGPT n'est qu'une Brique)

Introduction

Depuis deux ans, dès que je dis « je travaille dans l'IA », la première réaction est presque toujours la même : « Ah, comme ChatGPT ? ». Et c'est normal. ChatGPT a complètement aspiré l'image que les gens se font de l'intelligence artificielle. Pour beaucoup, IA = ChatGPT, et en dehors de ça, il n'y a rien.

Sauf que c'est très loin de la réalité. ChatGPT, c'est une partie de l'IA, parmi beaucoup d'autres. La plupart des IA qui tournent aujourd'hui dans les entreprises et dans nos vies n'ont rien à voir avec ChatGPT. Elles existent depuis bien plus longtemps, elles sont moins visibles, mais elles font tourner Netflix, votre filtre anti spam, votre application bancaire ou les usines qui produisent les pièces de votre voiture.

Sur le terrain, je vois souvent des entreprises me demander un projet « ChatGPT » alors que ce dont elles ont vraiment besoin, c'est d'un modèle de prévision sur leurs données Excel ou d'un système de vision sur leur ligne de production. Et la confusion est compréhensible : on ne peut pas choisir le bon outil si on ne connaît pas la boîte à outils.

Dans cet article, je vais faire le tour des grands domaines de l'IA, avec des exemples concrets de ce que les entreprises font vraiment avec (et certains projets sur lesquels j'ai travaillé personnellement). L'objectif : que vous compreniez en lisant que ChatGPT, c'est juste un type d'IA parmi d'autres, et que selon ce qu'on veut faire, on choisit un domaine différent et un modèle différent.


RAG, Finetuning ou Entraînement : Quel choix pour votre IA ?

Introduction

Une question revient souvent quand j'accompagne des entreprises sur leurs projets IA : « Est-ce qu'on doit entraîner notre propre modèle ? ». Ou alors la variante un peu plus avancée : « On veut finetuner un modèle sur nos données ».

Et à chaque fois, je dois prendre un peu de temps pour expliquer ce que ça veut dire concrètement. Parce que entre entraîner un modèle de zéro, le finetuner sur ses propres données, ou simplement lui donner du contexte avec un RAG, il y a un monde de différence. En coût, en temps, en complexité, et surtout en résultat.

Dans cet article, je vais essayer de poser les choses simplement. C'est quoi un modèle d'IA, comment on l'entraîne, combien ça coûte, à quel moment ça vaut le coup, et surtout pourquoi dans 95% des cas, vous n'avez probablement pas besoin de faire ni l'un ni l'autre.


Optimiser un RAG : 8 Techniques de Production & Gains Mesurés

Vous optimisez probablement dans le mauvais sens

Quand un RAG ne fonctionne pas bien, voici ce que font 90% des équipes : elles changent le prompt.

On reformule les instructions, on essaie différents modèles, on ajuste la température. Et parfois ça aide un peu. Mais le plus souvent, le problème n'est pas là.

Jason Liu, l'un des experts RAG les plus suivis, a une formulation que j'ai trouvée juste : "Avant de toucher à quoi que ce soit, atteignez 97% de recall en retrieval."

97% de recall, ça veut dire que dans 97 cas sur 100, le chunk qui contient la bonne réponse est bien dans les résultats que vous passez au LLM. Si vous n'êtes pas là, le meilleur prompt du monde ne changera rien. Le LLM ne peut pas inventer une information qui n'est pas dans son contexte.

Le vrai ordre d'optimisation d'un RAG, c'est : mesurer d'abord, puis retrieval, puis génération. Pas l'inverse.


Chunking RAG : quelle stratégie choisir en 2026 ?

Le chunking que vous utilisez probablement est le pire testé

Je vais commencer par un résultat qui m'a surpris quand je l'ai vu.

Chroma Research a publié un benchmark comparant toutes les stratégies de chunking courantes. Ils ont testé les paramètres par défaut d'OpenAI Assistants : 800 tokens, 400 tokens d'overlap. Leur verdict est sans appel, c'est la configuration avec la précision la plus basse de tous les tests. 1.4% de précision. Leur commentaire exact : "particularly poor recall-efficiency tradeoffs".

Ce sont les paramètres que des dizaines de milliers de projets utilisent en ce moment, souvent parce que c'est ce que suggère le quick start de LangChain ou LlamaIndex.

Et pendant ce temps, des configurations 4x plus simples (200 tokens, zéro overlap) font 3.7x mieux en précision.

Le chunking, c'est la décision sur laquelle la plupart des équipes passent le moins de temps. Et pourtant, c'est probablement celle qui a le plus d'impact sur la qualité de votre RAG.


GEO : comment fonctionnent les moteurs de recherche IA (partie 1)

Introduction

Vu que j'ai eu pas mal de retours autour du GEO ces derniers temps, et que le sujet a l'air d'intéresser, je me suis dit que ce serait bien de creuser les bases pour ceux qui veulent comprendre comment ça fonctionne.

Le GEO, pour Generative Engine Optimization, c'est l'art de se faire référencer et citer par les moteurs de recherche basés sur l'IA. En gros, c'est le SEO version IA. Et comme pour le SEO classique, avant de chercher à optimiser quoi que ce soit, il faut d'abord comprendre comment ça marche derrière.

Ce post est le premier d'une série de trois. Comment les moteurs de recherche IA fonctionnent (1). Comment se faire référencer dessus (2). Et comment analyser sa visibilité (3).

Commençons par le fonctionnement.