Diferencia entre revisiones de «Monitoreo»

De NLHPC
 
(No se muestran 4 ediciones intermedias del mismo usuario)
Línea 55: Línea 55:
Es un visor de procesos en linux, basado en ncurses.
Es un visor de procesos en linux, basado en ncurses.
<pre>
<pre>
[usuario@cn109 ~]# htop
[dbowman@sn009 ~]# htop
</pre>
</pre>


Línea 92: Línea 92:
Panel de visualización del estado de los nodos. Muestra una vista rápida del estado de los nodos (de login y de cómputo) y uso general del cluster, ademas de encontrar el listado de tareas en ejecución, pendientes.
Panel de visualización del estado de los nodos. Muestra una vista rápida del estado de los nodos (de login y de cómputo) y uso general del cluster, ademas de encontrar el listado de tareas en ejecución, pendientes.


<gallery>
[[Archivo:Dashboard.jpg|no|dashboard]]
Dashboard.jpg| dashboard
</gallery>


=== En el correo de notificación ===
=== En el correo de notificación ===
Línea 100: Línea 98:


==== Porcentaje de uso por core ====
==== Porcentaje de uso por core ====
[[Archivo:Correo CPU.png|no]]
[[Archivo:Uso_por_core.png|no]]


==== Memoria utilizada por core ====
==== Memoria utilizada por core ====
[[Archivo:Correo MEMxCPU.png|no]]
[[Archivo:Mem_por_core.png|no]]


<!-- <pre>
==== Archivo report.log ====
==== Archivo report.log ====
<pre>
<pre>
Línea 125: Línea 124:
* En mem max:'''3586''' resv:10000 se destaca que el máximo de memoria utilizada por la tarea ha sido de 3568M
* En mem max:'''3586''' resv:10000 se destaca que el máximo de memoria utilizada por la tarea ha sido de 3568M
* Por cada una de los cores se despliega: el uso promedio de cada core, la desviación estándar en las últimas 3 horas / del total de tiempo de ejecución.
* Por cada una de los cores se despliega: el uso promedio de cada core, la desviación estándar en las últimas 3 horas / del total de tiempo de ejecución.
</pre> -->

Revisión actual - 18:21 29 abr 2025

¿Como listo las tareas?

Ejecuto el comando squeue para conocer por ejemplo el estado, tiempo de ejecución e identificador de los trabajos SLURM

[dbowman@leftraru1 ~]$ squeue
JOBID    PARTITION   NAME    USER     ST    TIME       NODES  NODELIST 
12863561  general   test04   dbowman   R    20:39        1     sn002
12863541  largemem  test02   dbowman   R    3-19:03:58   1     fn008
12863789  main      test03   dbowman   PD   00:00        2     mn[015-016]
12863561  general   test05   dbowman   R    2-12:18:23   1     sn009

¿Como monitoreo los recursos utilizados por mi tarea?

Conectándose al nodo

Siempre y cuando tengamos tareas corriendo en un nodo, podemos entrar en este vía SSH. Por ejemplo, si deseamos revisar el uso de recursos de la tarea que reside en el nodo sn009, debemos ingresar a este mediante el comando ssh descrito a continuación

[dbowman@leftraru1 ~]# ssh sn009
[dbowman@leftraru1 ~]#

User Stats

Este script desarrollado por el equipo NLHPC permite revisar:

La memoria por core (en kb)
[dbowman@sn009 ~]$ /home/apps/nlhpc/bin/user_stats.sh mem
00 371695616
01 373268480
02 367038464
03 363290624
04 367382528
Cantidad de procesos por core
[dbowman@sn009 ~]$ /home/apps/nlhpc/bin/user_stats.sh load
00 1
01 2
02 1
03 1
04 1

htop

Es un visor de procesos en linux, basado en ncurses.

[dbowman@sn009 ~]# htop
htop

seff

El comando seff muestra la eficiencia de un trabajo en SLURM. Funciona tanto con trabajos en ejecución como finalizados, pero mientras corre, los datos son parciales. No entrega información útil si el job está pendiente.

seff <job_id>

[dbowman@sn009]# seff 12863561
Job ID: 12863561
Cluster: leftraru
User/Group: dbowman/users
State: RUNNING
Nodes: 1
Cores per node: 20
CPU Utilized: 00:00:00
CPU Efficiency: 0.00% of 28-18:12:00 core-walltime
Job Wall-clock time: 2-12:18:23
Memory Utilized: 0.00 MB
Memory Efficiency: 0.00% of 3.91 GB (200.00 MB/core)
WARNING: Efficiency statistics can only be obtained after the job has ended as seff tool is based on the accounting database data.


A través de Dashboard

Panel de visualización del estado de los nodos. Muestra una vista rápida del estado de los nodos (de login y de cómputo) y uso general del cluster, ademas de encontrar el listado de tareas en ejecución, pendientes.

dashboard

En el correo de notificación

Al terminar una tarea se adjuntan las siguientes gráficas:

Porcentaje de uso por core

Uso por core.png

Memoria utilizada por core

Mem por core.png