Tutoriais do LLM

Treinar 2 ou mais pessoas?Experimentar DataCamp for Business

Como acelerar LLMs locais com DFlash e decodificação especulativa

Aprenda a acelerar a inferência local do Gemma 4 31B em uma única RTX 4090 usando DFlash (decodificação especulativa) e Flash Attention em comparação a um baseline.

Abid Ali Awan

17 de junho de 2026

Formato GGUF: um guia completo para inferência local de LLM

O GGUF reúne pesos do modelo, dados do tokenizador e metadados em um único arquivo portátil. Saiba como escolher o nível certo de quantização e começar com o Ollama.

Austin Chia

17 de junho de 2026

Rotinas do Claude Code: rode seu agente de código com agenda na nuvem

Aprenda como as rotinas do Claude Code executam seu agente de código na nuvem em um agendamento ou evento do GitHub, para que revisões de PR e auditorias terminem com seu notebook fechado.

Bex Tuychiev

17 de junho de 2026

Tutorial SGLang: servindo o Mistral Medium 3.5 localmente

Configure um ambiente Docker multi-GPU com paralelismo de tensores e decodificação especulativa EAGLE para servir o Mistral Medium 3.5 128B por meio de uma API compatível com OpenAI.

Abid Ali Awan

1 de junho de 2026

Tutorial do Claude Code: configuração, refatoração e depuração na prática

Aprenda a usar o Claude Code, da Anthropic, para melhorar fluxos de desenvolvimento de software com um exemplo prático usando a biblioteca Supabase para Python.

Aashi Dutt

28 de maio de 2026

Tutorial de Multi-Token Prediction: como acelerar LLMs

Rode o Qwen3.6 27B em uma RTX 3090 e aprenda como o Multi-Token Prediction (MTP) com o llama.cpp pode quase dobrar a inferência local de LLMs sem trocar sua GPU.

Abid Ali Awan

14 de maio de 2026

Tutorial da API GPT-Realtime-2: três testes, três veredictos

Entenda as diferenças entre gpt-realtime-2, gpt-realtime-translate e gpt-realtime-whisper da OpenAI e teste cada um com código Python via WebSocket.

Khalid Abdelaty

12 de maio de 2026

Como executar o DeepSeek V4 Flash localmente

Aprenda a executar o modelo completo DeepSeek V4 Flash em uma única GPU usando uma build modificada do llama.cpp e um arquivo GGUF compatível neste tutorial prático.

Abid Ali Awan

5 de maio de 2026

Fine-tuning do NVIDIA Nemotron-3-Nano em dados de perguntas e respostas de psicologia

Aprenda a fazer fine-tuning do NVIDIA Nemotron-3-Nano-4B em um dataset de Q&A de psicologia usando uma GPU RTX 3090, com LoRA e TRL, após baixar o modelo do Hugging Face.

Abid Ali Awan

29 de abril de 2026

Tutorial da API Qwen 3.6 Plus: construindo um pipeline de processamento de faturas em Python

Aprenda a usar o Qwen 3.6 Plus da Alibaba, Python e o SDK da OpenAI para criar um pipeline automatizado de processamento de faturas com visão nativa e chamadas de ferramentas.

Bex Tuychiev

27 de abril de 2026

Nano Banana 2: guia completo com Python

Aprenda tudo o que você precisa saber sobre o mais novo modelo de geração de imagens do Google, o Nano Banana 2, incluindo como criar um editor iterativo de imagens em chat usando a API com Python.

François Aubry

22 de abril de 2026

Tutorial OpenClaw (Clawdbot): controle seu PC pelo WhatsApp

Configure o OpenClaw (antes Clawdbot/Moltbot), um agente self-hosted que conecta o Claude ao seu Mac via WhatsApp. Busque arquivos e rode comandos do celular.

Bex Tuychiev

22 de abril de 2026