Monitoreo
De NLHPC
¿Como listo las tareas?
Ejecuto el comando squeue para conocer por ejemplo el estado, tiempo de ejecución e identificador de los trabajos SLURM
[dbowman@leftraru1 ~]$ squeue JOBID PARTITION NAME USER ST TIME NODES NODELIST 12863561 general test04 dbowman R 20:39 1 sn002 12863541 largemem test02 dbowman R 3-19:03:58 1 fn008 12863789 main test03 dbowman PD 00:00 2 mn[015-016] 12863561 general test05 dbowman R 2-12:18:23 1 sn009
¿Como monitoreo los recursos utilizados por mi tarea?
Conectándose al nodo
Siempre y cuando tengamos tareas corriendo en un nodo, podemos entrar en este vía SSH.
* uptime
Para conocer la carga del nodo, cuantos procesos por core existen actualmente.
[usuario@leftraru1 ~]# ssh cn109 usuario@cn000 s password: [usuario@cn000 ~]# uptime 10:40:59 up 27 days, 16:46, 1 user, load average: 17.04, 13.76, 13.09
* User Stats
Este script permite revisar:
La memoria por core (en kb)
[usuario@cn000 ~]$ /home/apps/nlhpc/bin/user_stats.sh mem 00 371695616 01 373268480 02 367038464 03 363290624 04 367382528
Cantidad de procesos por core
[usuario@cn000 ~]$ /home/apps/nlhpc/bin/user_stats.sh load 00 1 01 2 02 1 03 1 04 1
* htop
Es un visor de procesos en linux, basado en ncurses.
[usuario@cn109 ~]# htop
.
A través de Dashboard
Panel de visualización del estado de los nodos. Muestra una vista rápida del estado de los nodos (de login y de cómputo) y uso general del cluster, ademas de encontrar el listado de tareas en ejecución, pendientes, históricos.
En el correo de notificación
Al terminar una tarea se adjuntan las siguientes gráficas:
Porcentaje de uso por core
Memoria utilizada por core
Archivo report.log
job_id=12668XXX user=usuario mail=None start_time=2018-07-09T06:51:34 running_time=3:53:28 cores_total=10 nodes_raw=cn094 alarm_cpu=True alarm_memory=False watch|avg|std|ptotal=10800|30|20|50 ptcw=70 command=/home/usuario/tarea.sh nodes={'cn094': {'mem': '10000', 'cpu': [0, 2, 3, 4, 5, 6, 7, 8, 9, 10]}} alarm_count=1 last_time=1531147611 iter=2 job_cancel=None modules=[] n=cn094 mem max:3586 resv:10000 cpu=10 avg=91.00 std=45.77 / all avg=0.00 std=0.00 cpu= 0 avg=98.19 std=44.53 / all avg=0.00 std=0.00 * cpu= 3 avg=0.56 std=0.50 / all avg=0.47 std=0.50 * cpu= 2 avg=0.86 std=0.35 / all avg=0.66 std=0.47 * cpu= 5 avg=0.64 std=0.48 / all avg=0.49 std=0.50 * cpu= 4 avg=0.53 std=0.50 / all avg=0.40 std=0.49 cpu= 7 avg=82.11 std=48.93 / all avg=0.00 std=0.00 * cpu= 6 avg=0.56 std=0.50 / all avg=0.45 std=0.50 * cpu= 9 avg=0.47 std=0.50 / all avg=0.36 std=0.48 * cpu= 8 avg=0.72 std=0.45 / all avg=0.79 std=0.41
- En mem max:3586 resv:10000 se destaca que el máximo de memoria utilizada por la tarea ha sido de 3568M
- Por cada una de los cores se despliega: el uso promedio de cada core, la desviación estándar en las últimas 3 horas / del total de tiempo de ejecución.