🧠 Treinamento com Slurm

📌 Visão Geral

Este guia descreve como acessar a infraestrutura da DGX do laboratório e executar treinamentos utilizando o gerenciador de recursos Slurm.


🔐 Acesso ao Ambiente

1. Conectar na VPN

Conecte-se à VPN do FutureLab.

2. Acessar o JupyterHub

Após conectar na VPN, acesse:

http://192.168.7.27:8000

3. Login

Faça login no JupyterHub.

Caso não tenha acesso, solicite cadastro à equipe de infraestrutura.


🖥️ Ambiente Jupyter

Após o login, você poderá:

  • Acessar arquivos locais
  • Fazer upload de códigos
  • Barra lateral esquerda → File Browser
  • Trabalhar no seu diretório de usuário (armazenado no servidor da DGX)

🚀 Rodando Treinamentos com Slurm

📌 Passo a Passo

  1. Abrir o terminal no JupyterHub
    2. Criar um script .sh (ex: treino.sh)
    3. Submeter o job:

```bash sbatch treino.sh

⚙️ Comandos Básicos do Slurm

🔎 sinfo

Mostra informações do cluster: - Nome das filas (partições) - Número de nós disponíveis - Estado dos nós

🔎 squeue

Lista os jobs: - Em execução - Pendentes - Estado dos nós

🔎 module avail

Mostra todos os módulos disponíveis no sistema

🔎 scancel Cancela ou interrompe jobs pendentes ou em execução usando o ID

Exemplos de script Slurm

!/bin/bash

SBATCH --job-name=my_job_name # Nome do job

SBATCH --output=logs/saida_%j.log # Log de saída (%j = ID do job)

SBATCH --error=logs/erro_%j.err # Log de erro

SBATCH --partition=partition_name # Partição (fila)

SBATCH --nodes=1 # Número de nós

SBATCH --gres=gpu:1 # Solicitação de GPU

SBATCH --cpus-per-task=1 # CPUs por tarefa

SBATCH --mem=64G # Memória RAM

SBATCH --time=1:00:00 # Tempo limite (HH:MM:SS)