Aller au contenu

IA

Systèmes multi-agents : ce qui marche vraiment

Un système multi-agents, c'est bien souvent la première architecture qu'on envisage. Plusieurs agents spécialisés, un orchestrateur qui distribue les tâches, des hand-offs propres entre les rôles. Sur le papier, c'est élégant.

En production, c'est une autre histoire.

Les systèmes multi-agents échouent entre 41 % et 86,7 % du temps selon le framework utilisé, d'après l'étude MAST publiée par UC Berkeley en mars 2025 sur 1 600 traces d'exécution. Et quand ils échouent, le problème vient rarement du modèle lui-même : il vient de l'architecture.

Voici ce que les données disent réellement, et comment décider si vous avez besoin de plusieurs agents ou d'un seul bien équipé.


Outil IA sur mesure : pourquoi ChatGPT ne suffit pas pour votre métier

Introduction : pourquoi on me contacte de plus en plus

Ces derniers mois, de plus en plus d'entreprises me contactent avec le même constat : "On utilise ChatGPT, c'est pratique, mais ça ne règle pas vraiment nos problèmes du quotidien."

Et je les comprends. ChatGPT, Claude et les autres plateformes généralistes sont d'excellents outils. Anthropic pousse même le concept encore plus loin avec Cowork, qui se veut hyper pratique et s'utilise directement au bureau pour nous aider dans nos tâches. Mais malgré tous ces efforts, il reste un problème de fond : dans un métier, ce qu'on veut automatiser, ce sont souvent des tâches très ciblées. Et c'est exactement là que les plateformes généralistes deviennent moyennement utiles.


CrewAI, LangGraph, AutoGen, Pydantic AI : comparatif 2026

Tous les trois mois, un nouveau framework d'agents IA sort en faisant la une de Reddit et de Hacker News. CrewAI. LangGraph. AutoGen. Pydantic AI. Smolagents. Et maintenant Mastra, Agno, Letta, OpenAI Agents SDK, Inferable... La liste grossit chaque trimestre.

La question que tout le monde pose : lequel choisir ?

Le piège, c'est de croire qu'il y a un "meilleur framework". La vérité, c'est que ces outils ne s'adressent pas au même public. Et certains ne sont franchement pas faits pour des data scientists sérieux qui veulent comprendre, optimiser et maîtriser ce qu'ils construisent.

Dans cet article, je vais passer en revue les cinq frameworks principaux avec leurs forces réelles, leurs faiblesses concrètes, et le public auquel chacun s'adresse honnêtement. Plus quelques outsiders à connaître. Et une recommandation directe sur ce que je choisis sur mes missions.


Embeddings : la brique de base de toute l'IA moderne

Sans embeddings, pas de ChatGPT qui répond à vos questions sur vos documents. Pas de recherche sémantique qui retrouve un article même quand vous tapez des synonymes. Pas d'agent IA qui se souvient de ce que vous lui avez dit la semaine dernière.

Les embeddings sont la brique de base de toute l'IA moderne. Et pourtant, dans la grande majorité des projets que j'accompagne, c'est la brique la moins bien comprise. On les utilise, souvent sans trop savoir pourquoi, et on s'étonne des résultats décevants.

Dans cet article, je vous explique ce que c'est vraiment, comment ça fonctionne vu de loin, pourquoi c'est aussi important, comment choisir le bon modèle en 2026, et les pièges concrets à éviter. Que vous soyez manager ou développeur, vous devriez repartir avec une compréhension solide du sujet.


Stack IA production : LangChain et LlamaIndex, vraies limites

Il n'y a pas de librairie IA parfaite. Et ce n'est pas grave.

J'ai utilisé LangChain et LlamaIndex sur plus d'une vingtaine de projets, d'abord comme développeur, ensuite comme lead data scientist chargé de piloter des équipes. Sur des RAG de gestion documentaire, des agents de traitement de données métier, des pipelines d'extraction, des assistants sectoriels.

Voilà ce que j'en pense vraiment : il n'y a pas de librairie IA parfaite. Ni LangChain, ni LlamaIndex. Et toutes les équipes qui construisent des produits IA sérieux sur le long terme finissent par développer leur propre stack.

Ce n'est pas un bashing. C'est un constat pragmatique, fondé sur ce que j'ai vécu sur le terrain. Ces librairies ont de vraies qualités, elles rendent de vrais services, et il y a des situations où les utiliser est clairement le bon choix. Mais il y a aussi une réalité qu'on entend rarement : au fond, LangChain et LlamaIndex ne font qu'appeler des APIs. Les APIs d'OpenAI, d'Anthropic, de Google, de Mistral. Et ces APIs, on peut les appeler directement, avec un code qui reste sous notre contrôle.

Dans cet article, je couvre les vraies limites des deux librairies, quand elles conviennent, pourquoi on bascule vers du custom, et comment le SDK OpenAI seul couvre aujourd'hui une fraction énorme des besoins en production.


Les 7 mauvais réflexes des équipes RAG (et comment les corriger)

Introduction

Quand un projet RAG patine, ce n'est presque jamais à cause d'une techno manquante. C'est à cause d'un enchaînement de réflexes contre-productifs que les équipes adoptent sans s'en rendre compte. On retouche le prompt alors que le problème est dans le retrieval. On juge "ça marche" sur quatre essais à la main. On empile les techniques avancées avant d'avoir compris où ça bloque.

Après une vingtaine de projets RAG en mission ou en audit, je retrouve toujours les mêmes 7 réflexes. Ce ne sont pas des erreurs techniques, ce sont des biais cognitifs. Mais ils sabotent les performances aussi sûrement qu'un mauvais chunking. Voici la liste, et à chaque fois le réflexe à substituer.


Prompt caching : divisez la facture LLM jusqu'à 90% en 2026

Si vous payez plein tarif vos appels LLM en 2026, vous laissez 50 à 90% de réduction sur la table

Le prompt caching est devenu la première optimisation de coût à mettre en place dans tout projet LLM en production, et bizarrement, personne n'en parle assez.

La réalité des projets que j'accompagne : les équipes passent des heures à comparer les modèles, à négocier des remises volume avec les providers, à chercher des alternatives open-source. Et pendant ce temps, leur code repaie intégralement le même system prompt de 10 000 tokens à chaque appel, sans jamais avoir entendu parler de cache_control.

Dans cet article, vous allez voir comment fonctionne le prompt caching au niveau technique (le KV cache), comment les trois providers majeurs l'implémentent différemment (Anthropic, OpenAI, Gemini), les patterns qui font vraiment chuter la facture, et le calcul de ROI sur un cas concret.


UX d'un produit IA : 5 patterns qui multiplient le feedback par 5

L'UX est le levier d'optimisation IA le plus sous-estimé

Quand un produit IA fonctionne mal, les équipes techniques se ruent sur le pipeline : nouveau modèle d'embeddings, reranker plus malin, prompt retravaillé, chunking modifié. Tout ça est utile, mais ça passe à côté du levier qui a le meilleur rapport effort / impact : l'interface utilisateur.

L'UX ne fait pas que présenter la réponse. Bien conçue, elle devient un capteur qui collecte de la donnée d'amélioration en continu. C'est exactement le type de donnée qui manque à 80 % des projets que j'audite, et sans laquelle aucune optimisation pipeline ne fonctionne vraiment.

Dans cet article, je détaille 5 patterns UX que j'applique systématiquement sur mes projets, avec les chiffres derrière chacun.


Long context vs RAG en 2026 : quand utiliser quoi ?

Introduction

À chaque sortie d'un modèle avec une fenêtre contextuelle plus grande, le débat revient : « le RAG, c'est fini, on met tout dans le contexte ». En 2026, Gemini 3.1 Pro pousse jusqu'à 2 millions de tokens, Claude et GPT tiennent le 1M. La question est légitime.

Mais sur le terrain, ce n'est pas si simple. J'ai vu des équipes brûler des milliers d'euros en API en pensant qu'elles « simplifiaient » leur stack en virant le RAG. J'ai vu aussi des équipes monter un RAG pour répondre à des questions sur 3 pages de doc. Dans les deux cas, on utilise le mauvais outil pour le problème.