Diferencia entre revisiones de «Monitoreo»
(→seff) |
(→seff) |
||
Línea 77: | Línea 77: | ||
Memory Efficiency: 0.00% of 3.91 GB (200.00 MB/core) | Memory Efficiency: 0.00% of 3.91 GB (200.00 MB/core) | ||
WARNING: Efficiency statistics can only be obtained after the job has ended as seff tool is based on the accounting database data. | WARNING: Efficiency statistics can only be obtained after the job has ended as seff tool is based on the accounting database data. | ||
< | </pre> | ||
<!-- | <!-- |
Revisión del 14:51 22 abr 2025
¿Como listo las tareas?
Ejecuto el comando squeue para conocer por ejemplo el estado, tiempo de ejecución e identificador de los trabajos SLURM
[dbowman@leftraru1 ~]$ squeue JOBID PARTITION NAME USER ST TIME NODES NODELIST 12863561 general test04 dbowman R 20:39 1 sn002 12863541 largemem test02 dbowman R 3-19:03:58 1 fn008 12863789 main test03 dbowman PD 00:00 2 mn[015-016] 12863561 general test05 dbowman R 2-12:18:23 1 sn009
¿Como monitoreo los recursos utilizados por mi tarea?
Conectándose al nodo
Siempre y cuando tengamos tareas corriendo en un nodo, podemos entrar en este vía SSH. Por ejemplo, si deseamos revisar el uso de recursos de la tarea que reside en el nodo sn009, debemos ingresar a este mediante el comando ssh descrito a continuación
[dbowman@leftraru1 ~]# ssh sn009 [dbowman@leftraru1 ~]#
User Stats
Este script desarrollado por el equipo NLHPC permite revisar:
La memoria por core (en kb)
[dbowman@sn009 ~]$ /home/apps/nlhpc/bin/user_stats.sh mem 00 371695616 01 373268480 02 367038464 03 363290624 04 367382528
Cantidad de procesos por core
[dbowman@sn009 ~]$ /home/apps/nlhpc/bin/user_stats.sh load 00 1 01 2 02 1 03 1 04 1
htop
Es un visor de procesos en linux, basado en ncurses.
[usuario@cn109 ~]# htop
seff
El comando seff <job_id> muestra la eficiencia de un trabajo en SLURM. Funciona tanto con trabajos en ejecución como finalizados, pero mientras corre, los datos son parciales. No entrega información útil si el job está pendiente.
[dbowman@sn009 LDAP]# seff 12863561 Job ID: 12863561 Cluster: leftraru User/Group: dbowman/users State: RUNNING Nodes: 1 Cores per node: 20 CPU Utilized: 00:00:00 CPU Efficiency: 0.00% of 28-18:12:00 core-walltime Job Wall-clock time: 1-10:30:36 Memory Utilized: 0.00 MB Memory Efficiency: 0.00% of 3.91 GB (200.00 MB/core) WARNING: Efficiency statistics can only be obtained after the job has ended as seff tool is based on the accounting database data.
A través de Dashboard
Panel de visualización del estado de los nodos. Muestra una vista rápida del estado de los nodos (de login y de cómputo) y uso general del cluster, ademas de encontrar el listado de tareas en ejecución, pendientes, históricos.
En el correo de notificación
Al terminar una tarea se adjuntan las siguientes gráficas:
Porcentaje de uso por core
Memoria utilizada por core
Archivo report.log
job_id=12668XXX user=usuario mail=None start_time=2018-07-09T06:51:34 running_time=3:53:28 cores_total=10 nodes_raw=cn094 alarm_cpu=True alarm_memory=False watch|avg|std|ptotal=10800|30|20|50 ptcw=70 command=/home/usuario/tarea.sh nodes={'cn094': {'mem': '10000', 'cpu': [0, 2, 3, 4, 5, 6, 7, 8, 9, 10]}} alarm_count=1 last_time=1531147611 iter=2 job_cancel=None modules=[] n=cn094 mem max:3586 resv:10000 cpu=10 avg=91.00 std=45.77 / all avg=0.00 std=0.00 cpu= 0 avg=98.19 std=44.53 / all avg=0.00 std=0.00 * cpu= 3 avg=0.56 std=0.50 / all avg=0.47 std=0.50 * cpu= 2 avg=0.86 std=0.35 / all avg=0.66 std=0.47 * cpu= 5 avg=0.64 std=0.48 / all avg=0.49 std=0.50 * cpu= 4 avg=0.53 std=0.50 / all avg=0.40 std=0.49 cpu= 7 avg=82.11 std=48.93 / all avg=0.00 std=0.00 * cpu= 6 avg=0.56 std=0.50 / all avg=0.45 std=0.50 * cpu= 9 avg=0.47 std=0.50 / all avg=0.36 std=0.48 * cpu= 8 avg=0.72 std=0.45 / all avg=0.79 std=0.41
- En mem max:3586 resv:10000 se destaca que el máximo de memoria utilizada por la tarea ha sido de 3568M
- Por cada una de los cores se despliega: el uso promedio de cada core, la desviación estándar en las últimas 3 horas / del total de tiempo de ejecución.