Aller au contenu

Blog

CrewAI, LangGraph, AutoGen, Pydantic AI : le comparatif pragmatique des frameworks d'agents IA en 2026

Tous les trois mois, un nouveau framework d'agents IA sort en faisant la une de Reddit et de Hacker News. CrewAI. LangGraph. AutoGen. Pydantic AI. Smolagents. Et maintenant Mastra, Agno, Letta, OpenAI Agents SDK, Inferable... La liste grossit chaque trimestre.

La question que tout le monde pose : lequel choisir ?

Le piège, c'est de croire qu'il y a un "meilleur framework". La vérité, c'est que ces outils ne s'adressent pas au même public. Et certains ne sont franchement pas faits pour des data scientists sérieux qui veulent comprendre, optimiser et maîtriser ce qu'ils construisent.

Dans cet article, je vais passer en revue les cinq frameworks principaux avec leurs forces réelles, leurs faiblesses concrètes, et le public auquel chacun s'adresse honnêtement. Plus quelques outsiders à connaître. Et une recommandation directe sur ce que je choisis sur mes missions.


Les embeddings : c'est quoi, et pourquoi c'est la brique de base de toute l'IA moderne

Sans embeddings, pas de ChatGPT qui répond à vos questions sur vos documents. Pas de recherche sémantique qui retrouve un article même quand vous tapez des synonymes. Pas d'agent IA qui se souvient de ce que vous lui avez dit la semaine dernière.

Les embeddings sont la brique de base de toute l'IA moderne. Et pourtant, dans la grande majorité des projets que j'accompagne, c'est la brique la moins bien comprise. On les utilise, souvent sans trop savoir pourquoi, et on s'étonne des résultats décevants.

Dans cet article, je vous explique ce que c'est vraiment, comment ça fonctionne vu de loin, pourquoi c'est aussi important, comment choisir le bon modèle en 2026, et les pièges concrets à éviter. Que vous soyez manager ou développeur, vous devriez repartir avec une compréhension solide du sujet.


Stack IA en production : pourquoi LangChain et LlamaIndex ne sont pas la solution ultime

Il n'y a pas de librairie IA parfaite. Et ce n'est pas grave.

J'ai utilisé LangChain et LlamaIndex sur plus d'une vingtaine de projets, d'abord comme développeur, ensuite comme lead data scientist chargé de piloter des équipes. Sur des RAG de gestion documentaire, des agents de traitement de données métier, des pipelines d'extraction, des assistants sectoriels.

Voilà ce que j'en pense vraiment : il n'y a pas de librairie IA parfaite. Ni LangChain, ni LlamaIndex. Et toutes les équipes qui construisent des produits IA sérieux sur le long terme finissent par développer leur propre stack.

Ce n'est pas un bashing. C'est un constat pragmatique, fondé sur ce que j'ai vécu sur le terrain. Ces librairies ont de vraies qualités, elles rendent de vrais services, et il y a des situations où les utiliser est clairement le bon choix. Mais il y a aussi un moment ou une réalité que personne ne dit franchement : au fond, LangChain et LlamaIndex ne font qu'appeler des APIs. Les APIs d'OpenAI, d'Anthropic, de Google, de Mistral. Et ces APIs, on peut les appeler directement, avec un code qui reste sous notre contrôle.

Dans cet article, je couvre les vraies limites des deux librairies, quand elles conviennent, pourquoi on bascule vers du custom, et comment le SDK OpenAI seul couvre aujourd'hui une fraction énorme des besoins en production.


Prompt caching : réduire la facture LLM jusqu'à 90% (la meilleure optimisation 2026)

Si vous payez plein tarif vos appels LLM en 2026, vous laissez 50 à 90% de réduction sur la table

Le prompt caching est devenu la première optimisation de coût à mettre en place dans tout projet LLM en production, et bizarrement, personne n'en parle assez.

La réalité des projets que j'accompagne : les équipes passent des heures à comparer les modèles, à négocier des remises volume avec les providers, à chercher des alternatives open-source. Et pendant ce temps, leur code repaie intégralement le même system prompt de 10 000 tokens à chaque appel, sans jamais avoir entendu parler de cache_control.

Dans cet article, vous allez voir comment fonctionne le prompt caching au niveau technique (le KV cache), comment les trois providers majeurs l'implémentent différemment (Anthropic, OpenAI, Gemini), les patterns qui font vraiment chuter la facture, et le calcul de ROI sur un cas concret.


La mémoire d'un agent IA : comment ça marche vraiment (et comment l'implémenter)

Sans mémoire, un agent IA est juste un meilleur chatbot.

Avec une mémoire mal conçue, c'est un agent qui invente des souvenirs, contredit ce qu'il a dit la semaine dernière, et vous coûte une fortune en tokens. La mémoire est la fonctionnalité la plus sous-estimée des agents IA en 2026. Et c'est aussi celle qui fait la différence entre un prototype sympa et un produit qui crée vraiment de la valeur.

Dans cet article, je vais vous expliquer la taxonomie réelle de la mémoire dans les agents IA, le pattern technique central que très peu de gens expliquent clairement (un petit LLM dédié qui filtre ce qui mérite d'être retenu), les outils du marché avec leurs vrais chiffres de benchmark, et comment choisir selon votre cas.


Parsing PDF pour RAG : comment vraiment extraire la donnée de vos documents

Le problème que personne ne veut regarder en face

Sur 10 RAG qui ne fonctionnent pas en entreprise, 8 ont un problème de parsing en amont. Pas de modèle, pas de prompt, pas de retriever. Juste un PDF mal lu au départ.

C'est le constat que je fais sur presque tous les projets que j'accompagne. Une entreprise investit des semaines à choisir son modèle de langage, à configurer sa base vectorielle, à affiner ses prompts... et le système répond à côté. Parce que le document source a été mal lu dès le début.

Le parsing (l'extraction structurée des données depuis un document) est l'étape la plus sous-estimée du RAG. Si la récupération d'informations depuis vos fichiers est approximative, peu importe la sophistication du reste du pipeline : vous construisez sur du sable. Un tableau mal extrait, des colonnes confondues, un schéma technique ignoré... et votre LLM génère des réponses fausses avec une confiance absolue.

Dans cet article, je vais vous montrer pourquoi cette structuration des documents est si difficile, comment les 4 grands outils du marché se comparent vraiment, et ce que j'ai appris sur deux projets très différents : des documentations d'usine chez Continental, et un site e-commerce avec des milliers de fiches produit.


Agent IA vs automatisation no-code (n8n, Make, Zapier) : que choisir vraiment en 2026 ?

La vérité que les agences IA ne vous disent pas

Sur 10 PME qui me contactent en disant "on veut un agent IA", 6 n'ont en réalité pas besoin d'un agent IA.

Elles ont besoin d'un bon workflow n8n avec un nœud OpenAI bien configuré. Et personne ne le leur dit. Parce que les agences custom préfèrent vendre des agents IA à 30K€ qu'un workflow n8n à 3K€. C'est humain. Mais ce n'est pas honnête.

Alors dans cet article, je vais vous donner la grille de décision que j'utilise avec mes propres clients. Pas de discours commercial. Juste les critères qui permettent de trancher entre agent IA vs n8n (ou Make, ou Zapier) selon votre cas réel.

Position claire dès le départ : dans la majorité des cas PME, un n8n bien fait avec un nœud LLM suffit. L'agent IA custom n'est nécessaire que dans des cas précis. Je vais vous montrer exactement lesquels.


Comment évaluer un RAG en production : métriques, RAGAS et méthodologie d'audit

80% des RAG que j'audite n'ont pas de système d'évaluation

C'est un chiffre que j'aurais aimé pouvoir citer avec une source académique. Mais il vient directement du terrain : sur les projets RAG en production que j'ai eu à auditer ces deux dernières années, environ 8 sur 10 n'ont aucun système d'évaluation structuré en place.

Le scénario est toujours le même. Le projet a été livré. L'équipe a "vérifié à la main" sur 10 ou 15 questions pendant la recette. Les retours utilisateurs semblent corrects. Et plus personne ne mesure rien.

Le coût caché de cette absence est massif. Vous ne savez pas si le RAG dérive après une mise à jour des documents. Vous ne savez pas si un changement de modèle d'embeddings a cassé quelque chose. Vous ne savez pas si les améliorations que vous apportez apportent vraiment un gain, ou si elles compensent juste une régression ailleurs. Vous optimisez à l'aveugle.

C'est le sujet numéro un qui sépare un RAG POC d'un RAG production mature. Un POC, ça "marche". Un système production, ça se mesure, ça se surveille, et ça s'améliore de façon contrôlée. Cet article couvre les métriques RAG qui comptent, les frameworks d'évaluation (RAGAS, DeepEval, TruLens), comment construire un dataset d'évaluation solide, et comment mettre en place une évaluation continue en production.


MCP (Model Context Protocol) : le standard qui change les agents IA en 2026

Tout le monde parle d'agents IA. Personne ne parle de comment ils se connectent vraiment à vos outils.

Voici le problème concret que rencontrent 90% des équipes qui veulent construire un agent IA sérieux : elles ont un LLM capable, un cas d'usage clair, et 4 ou 5 outils à connecter (une base SQL, un Slack, un Notion, un GitHub). Et là, elles se retrouvent à coder une intégration custom pour chaque outil, pour chaque modèle. Si demain elles changent de LLM, elles recommencent. Si un collègue veut réutiliser l'intégration Slack sur un autre agent, il repart de zéro.

C'est le problème N fois M. N agents, M outils. On aboutit à N×M intégrations à coder et à maintenir.

MCP résout exactement ce problème. Le Model Context Protocol est le standard ouvert lancé par Anthropic en novembre 2024, et il est en train de devenir en 2026 ce qu'HTTP est au web : l'infrastructure invisible sur laquelle tout repose. OpenAI, Google, Microsoft, AWS : tout l'écosystème converge dessus. 97 millions de téléchargements mensuels du SDK en mars 2026, contre 2 millions au lancement. C'est une adoption sans précédent dans l'outillage IA.

Dans cet article, je vais vous expliquer ce qu'est MCP vraiment, comment son architecture fonctionne, en quoi il diffère du function calling classique, et surtout : sur quels projets l'utiliser (et sur quels projets ne pas l'utiliser).


Les différents domaines de l'IA : pourquoi ChatGPT n'est qu'une petite partie

Introduction

Depuis deux ans, dès que je dis « je travaille dans l'IA », la première réaction est presque toujours la même : « Ah, comme ChatGPT ? ». Et c'est normal. ChatGPT a complètement aspiré l'image que les gens se font de l'intelligence artificielle. Pour beaucoup, IA = ChatGPT, et en dehors de ça, il n'y a rien.

Sauf que c'est très loin de la réalité. ChatGPT, c'est une partie de l'IA, parmi beaucoup d'autres. La plupart des IA qui tournent aujourd'hui dans les entreprises et dans nos vies n'ont rien à voir avec ChatGPT. Elles existent depuis bien plus longtemps, elles sont moins visibles, mais elles font tourner Netflix, votre filtre anti spam, votre application bancaire ou les usines qui produisent les pièces de votre voiture.

Sur le terrain, je vois souvent des entreprises me demander un projet « ChatGPT » alors que ce dont elles ont vraiment besoin, c'est d'un modèle de prévision sur leurs données Excel ou d'un système de vision sur leur ligne de production. Et la confusion est compréhensible : on ne peut pas choisir le bon outil si on ne connaît pas la boîte à outils.

Dans cet article, je vais faire le tour des grands domaines de l'IA, avec des exemples concrets de ce que les entreprises font vraiment avec (et certains projets sur lesquels j'ai travaillé personnellement). L'objectif : que vous compreniez en lisant que ChatGPT, c'est juste un type d'IA parmi d'autres, et que selon ce qu'on veut faire, on choisit un domaine différent et un modèle différent.