Claude Code + Ollama : le rêve du coding local gratuit se heurte à la réalité

medo
January 22, 2026
4 min read
32 Views
No Comments
Data,data-science

TL;DR : Ollama v0.14.0 permet enfin d’utiliser Claude Code avec des modèles locaux. Sur le papier, c’est révolutionnaire. En pratique, les modèles open source ne sont pas encore à la hauteur pour le workflow agentic.

L’annonce qui a fait saliver les devs

Mi-janvier 2026, Ollama a annoncé le support natif de l’API Anthropic. Traduction : Claude Code, l’outil de coding agentic d’Anthropic, peut désormais tourner sur des modèles locaux comme Qwen, Mistral ou LLaMA. Fini les tokens facturés à l’usage, fini l’envoi de code propriétaire dans le cloud. Le Graal du développeur privacy-conscious.

J’ai voulu tester. Voici ce que j’ai appris.

Le setup (qui fonctionne)

Prérequis : Ollama v0.14.0 minimum. Si vous êtes sur Mac :

brew upgrade ollama
brew services restart ollama
ollama --version  # doit afficher 0.14.0+

Ensuite, deux variables d’environnement suffisent :

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_BASE_URL=http://localhost:11434

Et on lance Claude Code avec le modèle de son choix :

ollama pull qwen3-coder
claude --model qwen3-coder

Ollama recommande des modèles avec au moins 32K tokens de context window. Qwen3-coder et gpt-oss:20b sont les plus adaptés.

Là où ça coince

Claude Code n’est pas un simple chatbot. C’est un agent qui utilise des tool calls pour lire des fichiers, exécuter du code, naviguer dans une codebase. Le problème : les modèles open source ne maîtrisent pas parfaitement le format de tool-use d’Anthropic.

Concrètement, voici ce que j’ai observé avec qwen2.5-coder:7b :

❯ fais un hello world
⏺ {"name": "Skill", "arguments": {"skill": "console", "args": "Hello, World!"}}

Le modèle essaie d’émettre un tool call, mais il balance du JSON brut au lieu de l’exécuter. Avec qwen3-coder (plus gros), le /init a pris 4 minutes pour… ne pas créer le fichier CLAUDE.md attendu. Avec gpt-oss:20b, j’ai obtenu “Invalid tool parameters”.

Le pattern est clair : les modèles locaux comprennent vaguement ce qu’on leur demande, mais ils ne structurent pas leurs réponses comme Claude le ferait nativement.

Pourquoi c’était prévisible

Claude Code a été conçu pour Claude. Son system prompt, son schéma de tools, ses conventions de réponse — tout est calibré pour les modèles d’Anthropic. Quand vous branchez un modèle tiers, il doit :

Comprendre un system prompt massif (plusieurs milliers de tokens)
Respecter un format de tool call très spécifique
Raisonner sur plusieurs étapes (planification, exécution, vérification)
Gérer un context window qui grossit à chaque interaction

Les modèles 7B-20B n’ont tout simplement pas la capacité cognitive pour jongler avec tout ça. Même les 32B+ galèrent sur les workflows complexes.

Les alternatives qui fonctionnent mieux

Si vous voulez du coding assisté local, plusieurs options sont plus matures :

Continue (extension VS Code) : conçu dès le départ pour les modèles locaux
Cline : agent de coding qui supporte nativement Ollama
aider : CLI de pair programming, excellent avec GPT-4 mais fonctionne aussi en local
OpenCode : alternative open source à Claude Code, pensée pour être provider-agnostic

Ces outils ont des prompts et des workflows adaptés aux limitations des modèles open source.

Le verdict

L’intégration Ollama + Claude Code est une avancée technique réelle. Pour la première fois, on peut faire tourner l’agent d’Anthropic sans envoyer une seule requête à leurs serveurs. Mais l’expérience est dégradée : lenteur, tool calls mal formatés, workflows qui plantent.

Mon conseil : si vous avez un abonnement Claude Pro ou un budget API, restez sur Claude natif pour le travail sérieux. Utilisez les alternatives locales pour l’expérimentation, les projets perso, ou les environnements air-gapped.

La promesse du coding agentic 100% local est là. Les modèles ne le sont pas encore.

Testé sur Mac avec Ollama 0.14.0, Claude Code v2.1.15, qwen2.5-coder:7b, qwen3-coder et gpt-oss:20b.