Aller au contenu

Modèles

mini-claude se moque du modèle que vous lancez, tant que le serveur d’inférence parle l’API compatible OpenAI. Voici comment réfléchir aux compromis.

Pour commencer

Si vous débutez avec les LLM locaux et voulez quelque chose de rapide sur CPU :

  • llama3.2:1b — ~1,3 Go, très rapide, correct pour discuter et les tâches simples.
  • llama3.2:3b — ~2 Go, notre modèle par défaut. Bon équilibre vitesse/qualité.
  • qwen2.5:0.5b — ~400 Mo. Stress-test du streaming avec des réponses quasi instantanées.

Monter en gamme

Si vous avez un GPU ou beaucoup de RAM :

  • qwen2.5:7b — un 7B polyvalent solide.
  • llama3.1:8b — un bon généraliste.
  • mistral:7b — rapide, focalisé.

Notes de performance

Section en chantier. On ajoutera des benchmarks dès qu’on aura des mesures reproductibles sur quelques machines de référence.

Changer à chaud

Ouvrez le sélecteur avec /model ou changez directement avec /model qwen2.5:7b. Voir Commandes slash.