# 🧠 Treinamento com Slurm ## 📌 Visão Geral Este guia descreve como acessar a infraestrutura da DGX do laboratório e executar treinamentos utilizando o gerenciador de recursos **Slurm**. --- ## 🔐 Acesso ao Ambiente ### 1. Conectar na VPN Conecte-se à VPN do FutureLab. ### 2. Acessar o JupyterHub Após conectar na VPN, acesse: http://192.168.7.27:8000 ### 3. Login Faça login no JupyterHub. Caso não tenha acesso, solicite cadastro à equipe de infraestrutura. --- ## 🖥️ Ambiente Jupyter Após o login, você poderá: - Acessar arquivos locais - Fazer upload de códigos - Barra lateral esquerda → File Browser - Trabalhar no seu diretório de usuário (armazenado no servidor da DGX) --- ## 🚀 Rodando Treinamentos com Slurm ### 📌 Passo a Passo 1. Abrir o terminal no JupyterHub 2. Criar um script `.sh` (ex: `treino.sh`) 3. Submeter o job: ```bash sbatch treino.sh ## ⚙️ Comandos Básicos do Slurm ### 🔎 sinfo Mostra informações do cluster: - Nome das filas (partições) - Número de nós disponíveis - Estado dos nós ### 🔎 squeue Lista os jobs: - Em execução - Pendentes - Estado dos nós ### 🔎 module avail Mostra todos os módulos disponíveis no sistema ### 🔎 scancel Cancela ou interrompe jobs pendentes ou em execução usando o ID Exemplos de script Slurm #!/bin/bash #SBATCH --job-name=my_job_name # Nome do job #SBATCH --output=logs/saida_%j.log # Log de saída (%j = ID do job) #SBATCH --error=logs/erro_%j.err # Log de erro #SBATCH --partition=partition_name # Partição (fila) #SBATCH --nodes=1 # Número de nós #SBATCH --gres=gpu:1 # Solicitação de GPU #SBATCH --cpus-per-task=1 # CPUs por tarefa #SBATCH --mem=64G # Memória RAM #SBATCH --time=1:00:00 # Tempo limite (HH:MM:SS)