Ollama : Définition et Exemples

Ollama est un outil open source qui permet d'exécuter des modèles de langage (LLM) en local sur son propre ordinateur, sans connexion internet ni dépendance à un service cloud.

Définition complète

Ollama est une plateforme open source conçue pour simplifier l'exécution de grands modèles de langage (LLM) directement sur une machine locale. Là où l'utilisation de modèles comme Llama, Mistral ou Gemma nécessitait auparavant des configurations complexes, Ollama propose une interface en ligne de commande intuitive qui automatise le téléchargement, la configuration et l'exécution des modèles en quelques commandes.

L'un des principaux avantages d'Ollama est la confidentialité des données : toutes les interactions avec le modèle restent sur la machine de l'utilisateur, sans qu'aucune donnée ne transite par des serveurs externes. Cela en fait un outil particulièrement prisé par les développeurs, les chercheurs et les entreprises soucieuses de la protection de leurs données sensibles.

Ollama gère automatiquement l'optimisation des modèles selon le matériel disponible (CPU, GPU, mémoire RAM) et propose une API REST locale compatible avec de nombreux outils et frameworks. Il supporte un large catalogue de modèles pré-quantifiés, ce qui permet d'exécuter des LLM performants même sur du matériel grand public sans carte graphique haut de gamme.

Grâce à son système de "Modelfile" inspiré des Dockerfiles, Ollama permet également de personnaliser les modèles en définissant des prompts système, des paramètres de génération et des templates de conversation. Cette approche rend l'outil accessible aussi bien aux débutants qu'aux utilisateurs avancés souhaitant créer des assistants IA sur mesure.

Étymologie

Le nom "Ollama" est un jeu de mots combinant "llama" (en référence à la famille de modèles LLaMA de Meta) et une sonorité évoquant la simplicité d'utilisation. Le projet a été créé en 2023 et s'est rapidement imposé comme la référence pour l'exécution locale de LLM.

Exemples concrets

Installer et lancer un modèle en local pour du prompt engineering

ollama run llama3 "Explique-moi le concept de chain-of-thought en prompt engineering avec des exemples concrets"

Créer un assistant spécialisé avec un Modelfile personnalisé

FROM mistral
SYSTEM Tu es un expert en rédaction SEO. Tu rédiges toujours en français, avec un ton professionnel et des paragraphes structurés. Tu inclus des mots-clés naturellement dans le texte.

Utiliser l'API locale d'Ollama dans une application de prompt engineering

curl http://localhost:11434/api/generate -d '{"model": "llama3", "prompt": "Génère 5 variantes de ce prompt pour améliorer la créativité des réponses : Décris les avantages de l'IA générative"}'

Usage pratique

En prompt engineering, Ollama permet de tester et itérer rapidement sur des prompts sans coût d'API ni latence réseau. Il est idéal pour expérimenter avec différents modèles, comparer leurs réponses à un même prompt, et développer des systèmes de prompts complexes en toute confidentialité avant de les déployer en production.

Concepts liés

LLM (Large Language Model)Inférence localeQuantification de modèlesPrompt système

FAQ

Ollama est-il gratuit ?

Oui, Ollama est entièrement gratuit et open source. Les modèles disponibles sont également gratuits à télécharger et à utiliser. Il n'y a aucun coût d'API puisque tout s'exécute localement sur votre machine.

Quelle configuration matérielle faut-il pour utiliser Ollama ?

La configuration minimale dépend du modèle choisi. Pour des modèles légers (7B paramètres), 8 Go de RAM suffisent. Pour des modèles plus grands (70B), il faut 64 Go de RAM ou plus. Un GPU compatible CUDA ou Metal accélère significativement la génération, mais n'est pas obligatoire : Ollama fonctionne aussi sur CPU seul.

Quelle est la différence entre Ollama et une API cloud comme OpenAI ?

Avec Ollama, le modèle tourne sur votre machine : vos données restent privées, il n'y a pas de coût par token et vous pouvez travailler hors ligne. En contrepartie, les modèles locaux sont généralement moins performants que les modèles cloud les plus avancés (comme GPT-4 ou Claude), et la vitesse de génération dépend de votre matériel.

Voir aussi

LLM Open Source Prompt Système Inférence Fine-tuning RAG

Recevez de nouveaux prompts chaque semaine

Rejoignez notre newsletter.