TL;DR : Ollama v0.14.0 permet enfin d’utiliser Claude Code avec des modèles locaux. Sur le papier, c’est révolutionnaire. En pratique, les modèles open source ne sont pas encore à la hauteur pour le workflow agentic.
L’annonce qui a fait saliver les devs
Mi-janvier 2026, Ollama a annoncé le support natif de l’API Anthropic. Traduction : Claude Code, l’outil de coding agentic d’Anthropic, peut désormais tourner sur des modèles locaux comme Qwen, Mistral ou LLaMA. Fini les tokens facturés à l’usage, fini l’envoi de code propriétaire dans le cloud. Le Graal du développeur privacy-conscious.
J’ai voulu tester. Voici ce que j’ai appris.
Le setup (qui fonctionne)
Prérequis : Ollama v0.14.0 minimum. Si vous êtes sur Mac :
brew upgrade ollama
brew services restart ollama
ollama --version # doit afficher 0.14.0+
Ensuite, deux variables d’environnement suffisent :
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_BASE_URL=http://localhost:11434
Et on lance Claude Code avec le modèle de son choix :
ollama pull qwen3-coder
claude --model qwen3-coder
Ollama recommande des modèles avec au moins 32K tokens de context window. Qwen3-coder et gpt-oss:20b sont les plus adaptés.
Là où ça coince
Claude Code n’est pas un simple chatbot. C’est un agent qui utilise des tool calls pour lire des fichiers, exécuter du code, naviguer dans une codebase. Le problème : les modèles open source ne maîtrisent pas parfaitement le format de tool-use d’Anthropic.
Concrètement, voici ce que j’ai observé avec qwen2.5-coder:7b :
❯ fais un hello world
⏺ {"name": "Skill", "arguments": {"skill": "console", "args": "Hello, World!"}}
Le modèle essaie d’émettre un tool call, mais il balance du JSON brut au lieu de l’exécuter. Avec qwen3-coder (plus gros), le /init a pris 4 minutes pour… ne pas créer le fichier CLAUDE.md attendu. Avec gpt-oss:20b, j’ai obtenu “Invalid tool parameters”.
Le pattern est clair : les modèles locaux comprennent vaguement ce qu’on leur demande, mais ils ne structurent pas leurs réponses comme Claude le ferait nativement.
Pourquoi c’était prévisible
Claude Code a été conçu pour Claude. Son system prompt, son schéma de tools, ses conventions de réponse — tout est calibré pour les modèles d’Anthropic. Quand vous branchez un modèle tiers, il doit :
- Comprendre un system prompt massif (plusieurs milliers de tokens)
- Respecter un format de tool call très spécifique
- Raisonner sur plusieurs étapes (planification, exécution, vérification)
- Gérer un context window qui grossit à chaque interaction
Les modèles 7B-20B n’ont tout simplement pas la capacité cognitive pour jongler avec tout ça. Même les 32B+ galèrent sur les workflows complexes.
Les alternatives qui fonctionnent mieux
Si vous voulez du coding assisté local, plusieurs options sont plus matures :
- Continue (extension VS Code) : conçu dès le départ pour les modèles locaux
- Cline : agent de coding qui supporte nativement Ollama
- aider : CLI de pair programming, excellent avec GPT-4 mais fonctionne aussi en local
- OpenCode : alternative open source à Claude Code, pensée pour être provider-agnostic
Ces outils ont des prompts et des workflows adaptés aux limitations des modèles open source.
Le verdict
L’intégration Ollama + Claude Code est une avancée technique réelle. Pour la première fois, on peut faire tourner l’agent d’Anthropic sans envoyer une seule requête à leurs serveurs. Mais l’expérience est dégradée : lenteur, tool calls mal formatés, workflows qui plantent.
Mon conseil : si vous avez un abonnement Claude Pro ou un budget API, restez sur Claude natif pour le travail sérieux. Utilisez les alternatives locales pour l’expérimentation, les projets perso, ou les environnements air-gapped.
La promesse du coding agentic 100% local est là. Les modèles ne le sont pas encore.
Testé sur Mac avec Ollama 0.14.0, Claude Code v2.1.15, qwen2.5-coder:7b, qwen3-coder et gpt-oss:20b.