Tutoriels LLM

Formation de 2 personnes ou plus ?Essayer DataCamp for Business

Comment accélérer des LLM locaux avec le décodage spéculatif DFlash

Apprenez à accélérer l’inférence locale de Gemma 4 31B sur une seule RTX 4090 grâce au décodage spéculatif DFlash et à Flash Attention, comparés à une configuration de référence.

Abid Ali Awan

17 juin 2026

Format GGUF : guide complet pour l’inférence LLM en local

GGUF regroupe les poids du modèle, les données du tokenizer et les métadonnées dans un fichier portable unique. Découvrez comment choisir le bon niveau de quantification et démarrer avec Ollama.

Austin Chia

17 juin 2026

Routines Claude Code : lancez votre agent de dév selon un planning dans le cloud

Découvrez comment les routines Claude Code exécutent votre agent de développement dans le cloud selon un planning ou un événement GitHub, pour que revues de PR et audits avancent même ordinateur fermé.

Bex Tuychiev

17 juin 2026

Tutoriel SGLang : déployer Mistral Medium 3.5 en local

Mettez en place un environnement Docker multi‑GPU avec parallélisme tensoriel et décodage spéculatif EAGLE pour servir Mistral Medium 3.5 128B via une API compatible OpenAI.

Abid Ali Awan

1 juin 2026

Tutoriel Claude Code : prise en main, refactorisation et débogage en pratique

Apprenez à utiliser Claude Code d'Anthropic pour optimiser vos workflows de développement logiciel à travers un exemple concret avec la bibliothèque Python Supabase.

Aashi Dutt

28 mai 2026

Tutoriel Multi-Token Prediction : comment accélérer les LLM

Exécutez Qwen3.6 27B sur une RTX 3090 et découvrez comment la Multi-Token Prediction (MTP) avec llama.cpp peut presque doubler la vitesse d'inférence locale sans changer de GPU.

Abid Ali Awan

14 mai 2026

Tutoriel DeepSeek V4 API : créer une arène des modes de réflexion

Découvrez le fonctionnement des trois modes de raisonnement de DeepSeek V4 et créez une appli Streamlit de comparaison qui montre, pour chaque mode, quand il l’emporte vraiment en qualité, vitesse et coût.

Aashi Dutt

12 mai 2026

Tutoriel API GPT-Realtime-2 : trois tests, trois verdicts

Découvrez les différences entre gpt-realtime-2, gpt-realtime-translate et gpt-realtime-whisper d’OpenAI, puis testez chaque modèle avec du code Python WebSocket prêt à l’emploi.

Khalid Abdelaty

12 mai 2026

Comment exécuter DeepSeek V4 Flash en local

Apprenez à faire tourner l'intégralité du modèle DeepSeek V4 Flash sur un seul GPU à l'aide d'une version modifiée de llama.cpp et d'un fichier GGUF compatible dans ce tutoriel pratique.

Abid Ali Awan

5 mai 2026

Ajuster NVIDIA Nemotron-3-Nano sur des données de Q&R en psychologie

Apprenez à affiner NVIDIA Nemotron-3-Nano-4B sur un jeu de données Q&R en psychologie avec un GPU RTX 3090 en utilisant LoRA et TRL après téléchargement du modèle depuis Hugging Face.

Abid Ali Awan

29 avril 2026

Tutoriel API Qwen 3.6 Plus : créer une chaîne de traitement de factures en Python

Apprenez à utiliser Qwen 3.6 Plus d'Alibaba, Python et le SDK OpenAI pour créer une chaîne automatisée de traitement des factures avec vision native et appel d’outils.

Bex Tuychiev

27 avril 2026

Nano Banana 2 : guide complet avec Python

Découvrez tout ce qu’il faut savoir sur le dernier modèle de génération d’images de Google, Nano Banana 2, y compris comment créer un éditeur d’images itératif en chat via l’API avec Python.

François Aubry

22 avril 2026