🧠 Treinamento com Slurm
📌 Visão Geral
Este guia descreve como acessar a infraestrutura da DGX do laboratório e executar treinamentos utilizando o gerenciador de recursos Slurm.
🔐 Acesso ao Ambiente
1. Conectar na VPN
Conecte-se à VPN do FutureLab.
2. Acessar o JupyterHub
Após conectar na VPN, acesse:
3. Login
Faça login no JupyterHub.
Caso não tenha acesso, solicite cadastro à equipe de infraestrutura.
🖥️ Ambiente Jupyter
Após o login, você poderá:
- Acessar arquivos locais
- Fazer upload de códigos
- Barra lateral esquerda → File Browser
- Trabalhar no seu diretório de usuário (armazenado no servidor da DGX)
🚀 Rodando Treinamentos com Slurm
📌 Passo a Passo
- Abrir o terminal no JupyterHub
2. Criar um script.sh(ex:treino.sh)
3. Submeter o job:
```bash sbatch treino.sh
⚙️ Comandos Básicos do Slurm
🔎 sinfo
Mostra informações do cluster: - Nome das filas (partições) - Número de nós disponíveis - Estado dos nós
🔎 squeue
Lista os jobs: - Em execução - Pendentes - Estado dos nós
🔎 module avail
Mostra todos os módulos disponíveis no sistema
🔎 scancel Cancela ou interrompe jobs pendentes ou em execução usando o ID
Exemplos de script Slurm