Diferencia entre revisiones de «Monitoreo»

Revisión actual - 19:30 9 oct 2025

¿Como listo las tareas?

Ejecuto el comando squeue para conocer por ejemplo el estado, tiempo de ejecución e identificador de los trabajos SLURM

[dbowman@leftraru1 ~]$ squeue
JOBID    PARTITION   NAME    USER     ST    TIME       NODES  NODELIST 
12863561  general   test04   dbowman   R    20:39        1     sn002
12863541  largemem  test02   dbowman   R    3-19:03:58   1     fn008
12863789  main      test03   dbowman   PD   00:00        2     mn[015-016]
12863561  general   test05   dbowman   R    2-12:18:23   1     sn009

¿Como monitoreo los recursos utilizados por mi tarea?

Conectándose al nodo

Siempre y cuando tengamos tareas corriendo en un nodo, podemos entrar en este vía SSH. Por ejemplo, si deseamos revisar el uso de recursos de la tarea que reside en el nodo sn009, debemos ingresar a este mediante el comando ssh descrito a continuación

[dbowman@leftraru1 ~]# ssh sn009
[dbowman@leftraru1 ~]#

User Stats

Este script desarrollado por el equipo NLHPC permite revisar:

La memoria por core (en kb)

[dbowman@sn009 ~]$ /home/apps/nlhpc/bin/user_stats.sh mem
00 371695616
01 373268480
02 367038464
03 363290624
04 367382528

Cantidad de procesos por core

[dbowman@sn009 ~]$ /home/apps/nlhpc/bin/user_stats.sh load
00 1
01 2
02 1
03 1
04 1

htop

Es un visor de procesos en linux, basado en ncurses.

[dbowman@sn009 ~]# htop

Configurar vista con archivo htoprc

Si el número de CPU no le permite ver información, puede respaldar su archivo :

mv ~/.config/htop/htoprc ~/.config/htop/htoprc.backup
vi ~/.config/htop/htoprc

Y utilice la siguiente configuración:

htop_version=3.3.0
config_reader_min_version=3
fields=0 48 114 111 109 110 46 47 115 117 116 1
hide_kernel_threads=1
hide_userland_threads=0
hide_running_in_container=0
shadow_other_users=0
show_thread_names=0
show_program_path=0
highlight_base_name=0
highlight_deleted_exe=1
shadow_distribution_path_prefix=0
highlight_megabytes=1
highlight_threads=1
highlight_changes=0
highlight_changes_delay_secs=5
find_comm_in_cmdline=1
strip_exe_from_cmdline=1
show_merged_command=0
header_margin=1
screen_tabs=0
detailed_cpu_time=0
cpu_count_from_one=1
show_cpu_usage=1
show_cpu_frequency=0
show_cpu_temperature=0
degree_fahrenheit=0
update_process_names=0
account_guest_in_cpu_meter=0
color_scheme=0
enable_mouse=1
delay=15
hide_function_bar=0
topology_affinity=0
header_layout=two_50_50
column_meters_0=CPU Memory Swap
column_meter_modes_0=1 1 1
column_meters_1=Tasks LoadAverage Uptime Battery CPU
column_meter_modes_1=2 2 2 2 1
tree_view=1
sort_key=111
tree_sort_key=0
sort_direction=-1
tree_sort_direction=1
tree_view_always_by_pid=0
all_branches_collapsed=0
screen:I/O=PID USER IO_PRIORITY IO_RATE IO_READ_RATE IO_WRITE_RATE PERCENT_CPU PERCENT_MEM PERCENT_CPU_DELAY PERCENT_SWAP_DELAY PERCENT_IO_DELAY Command
.sort_key=IO_RATE
.tree_sort_key=PID
.tree_view_always_by_pid=0
.tree_view=1
.sort_direction=-1
.tree_sort_direction=1
.all_branches_collapsed=0

seff

El comando seff muestra la eficiencia de un trabajo en SLURM. Funciona tanto con trabajos en ejecución como finalizados, pero mientras corre, los datos son parciales. No entrega información útil si el job está pendiente.

seff <job_id>

[dbowman@sn009]# seff 12863561
Job ID: 12863561
Cluster: leftraru
User/Group: dbowman/users
State: RUNNING
Nodes: 1
Cores per node: 20
CPU Utilized: 00:00:00
CPU Efficiency: 0.00% of 28-18:12:00 core-walltime
Job Wall-clock time: 2-12:18:23
Memory Utilized: 0.00 MB
Memory Efficiency: 0.00% of 3.91 GB (200.00 MB/core)
WARNING: Efficiency statistics can only be obtained after the job has ended as seff tool is based on the accounting database data.

A través de Dashboard

Panel de visualización del estado de los nodos. Muestra una vista rápida del estado de los nodos (de login y de cómputo) y uso general del cluster, ademas de encontrar el listado de tareas en ejecución, pendientes.

En el correo de notificación

Al terminar una tarea se adjuntan las siguientes gráficas:

Porcentaje de uso por core

Memoria utilizada por core

Anónimo

Buscar

Diferencia entre revisiones de «Monitoreo»

Espacios de nombres

Más

Acciones de página

Revisión actual - 19:30 9 oct 2025

Sumario

¿Como listo las tareas?

¿Como monitoreo los recursos utilizados por mi tarea?

Conectándose al nodo

User Stats

La memoria por core (en kb)

Cantidad de procesos por core

htop

Configurar vista con archivo htoprc

seff

A través de Dashboard

En el correo de notificación

Porcentaje de uso por core

Memoria utilizada por core

Navegación

Generador Scripts

Navegacion

Básicos

Sumario

Primeros Pasos

Infraestructura

Software

Soporte y Entrenamiento

Herramientas wiki

Herramientas wiki

@@ Línea 1: / Línea 1: @@
 == ¿Como listo las tareas? ==
 Ejecuto el comando [https://slurm.schedmd.com/squeue.html squeue] para conocer por ejemplo el estado, tiempo de ejecución e identificador de los trabajos [https://wiki.nlhpc.cl/SISTEMA_GESTOR_DE_RECURSOS SLURM]
+<pre style="overflow-x: auto; white-space: pre-wrap; word-wrap: break-word;">
+[dbowman@leftraru1 ~]$ squeue
+JOBID    PARTITION   NAME    USER     ST    TIME       NODES  NODELIST
+12863561  general   test04   dbowman   R    20:39        1     sn002
+12863541  largemem  test02   dbowman   R    3-19:03:58   1     fn008
+12863789  main      test03   dbowman   PD   00:00        2     mn[015-016]
+12863561  general   test05   dbowman   R    2-12:18:23   1     sn009
+</pre>
-[usuario@leftraru1 ~]$ squeue -o "%.15i %.6P %.8j %.20S %.11M %.11L %.20V %.2t %.10q %.4C %.2D %.7W %N " -S -t,-Q
+== ¿Como monitoreo los recursos utilizados por mi tarea? ==
-          JOBID PARTIT     NAME           START_TIME        TIME   TIME_LEFT          SUBMIT_TIME ST        QOS CPUS NO LICENSE NODELIST
+=== Conectándose al nodo ===
-       12863561  slims   test04  2018-07-08T13:57:53  1-20:25:20  1-03:34:40  2018-07-08T13:57:26  R        120    5  1  (null) cn000
-       12864082  slims   test02  2018-07-09T10:44:15    23:38:58  2-00:21:02  2018-07-09T10:43:51  R        120   10  1  (null) cn001
-       12865333  slims   test01  2018-07-10T17:16:38        0:00  3-00:00:00  2018-07-10T09:30:22 PD        120   10  1  (null)
-       12865334  slims   test06  2018-07-10T17:49:42        0:00  3-00:00:00  2018-07-10T09:38:13 PD        120   10  1  (null)
-       12865335  slims   test09  2018-07-11T07:42:16        0:00  3-00:00:00  2018-07-10T09:28:05 PD        120   20  1  (null)
-¿Como monitoreo los recursos utilizados por mi tarea?
-Conectándose al nodo
 Siempre y cuando tengamos tareas corriendo en un nodo, podemos entrar en este vía SSH.
+Por ejemplo, si deseamos revisar el uso de recursos de la tarea que reside en el nodo sn009, debemos ingresar a este mediante el comando ssh descrito a continuación
-* uptime
+<pre>
+[dbowman@leftraru1 ~]# ssh sn009
+[dbowman@leftraru1 ~]#
+</pre>
+<!--
+==== * uptime ====
 Para conocer la carga del nodo, cuantos procesos por core existen actualmente.
+<pre>
+[dbowman@leftraru1 ~]# ssh sn009
+[dbowman@sn009 ~]# uptime
+:40:59 up 27 days, 16:46,  1 user,  load average: 17.04, 13.76, 13.09
+</pre>
+-->
+==== User Stats ====
+Este script desarrollado por el equipo NLHPC permite revisar:
-[usuario@leftraru1 ~]# ssh cn109
+===== La memoria por core (en kb) =====
-usuario@cn000 s password:
+<pre>
-[usuario@cn000 ~]# uptime
+[dbowman@sn009 ~]$ /home/apps/nlhpc/bin/user_stats.sh mem
-:40:59 up 27 days, 16:46,  1 user,  load average: 17.04, 13.76, 13.09
-* User Stats
-Este script permite revisar:
-La memoria por core (en kb)
-[usuario@cn000 ~]$ /home/apps/nlhpc/bin/user_stats.sh mem
 371695616
 373268480
@@ Línea 30: / Línea 40: @@
 363290624
 367382528
-Cantidad de procesos por core
+</pre>
-[usuario@cn000 ~]$ /home/apps/nlhpc/bin/user_stats.sh load
+===== Cantidad de procesos por core =====
+<pre>
+[dbowman@sn009 ~]$ /home/apps/nlhpc/bin/user_stats.sh load
 1
 2
@@ Línea 37: / Línea 50: @@
 1
 1
-* htop
+</pre>
+==== htop ====
 Es un visor de procesos en linux, basado en ncurses.
+<pre>
+[dbowman@sn009 ~]# htop
+</pre>
-[usuario@cn109 ~]# htop
+[[Archivo:Htop.png|no|htop]]
-Htop.png
-A través de Ganglia
+===== Configurar vista con archivo htoprc =====
+Si el número de CPU no le permite ver información, puede respaldar su archivo :
+<pre>
+mv ~/.config/htop/htoprc ~/.config/htop/htoprc.backup
+vi ~/.config/htop/htoprc
+</pre>
+Y utilice la siguiente configuración:
+<pre>
+htop_version=3.3.0
+config_reader_min_version=3
+fields=0 48 114 111 109 110 46 47 115 117 116 1
+hide_kernel_threads=1
+hide_userland_threads=0
+hide_running_in_container=0
+shadow_other_users=0
+show_thread_names=0
+show_program_path=0
+highlight_base_name=0
+highlight_deleted_exe=1
+shadow_distribution_path_prefix=0
+highlight_megabytes=1
+highlight_threads=1
+highlight_changes=0
+highlight_changes_delay_secs=5
+find_comm_in_cmdline=1
+strip_exe_from_cmdline=1
+show_merged_command=0
+header_margin=1
+screen_tabs=0
+detailed_cpu_time=0
+cpu_count_from_one=1
+show_cpu_usage=1
+show_cpu_frequency=0
+show_cpu_temperature=0
+degree_fahrenheit=0
+update_process_names=0
+account_guest_in_cpu_meter=0
+color_scheme=0
+enable_mouse=1
+delay=15
+hide_function_bar=0
+topology_affinity=0
+header_layout=two_50_50
+column_meters_0=CPU Memory Swap
+column_meter_modes_0=1 1 1
+column_meters_1=Tasks LoadAverage Uptime Battery CPU
+column_meter_modes_1=2 2 2 2 1
+tree_view=1
+sort_key=111
+tree_sort_key=0
+sort_direction=-1
+tree_sort_direction=1
+tree_view_always_by_pid=0
+all_branches_collapsed=0
+screen:I/O=PID USER IO_PRIORITY IO_RATE IO_READ_RATE IO_WRITE_RATE PERCENT_CPU PERCENT_MEM PERCENT_CPU_DELAY PERCENT_SWAP_DELAY PERCENT_IO_DELAY Command
+.sort_key=IO_RATE
+.tree_sort_key=PID
+.tree_view_always_by_pid=0
+.tree_view=1
+.sort_direction=-1
+.tree_sort_direction=1
+.all_branches_collapsed=0
+</pre>
+==== seff ====
+El comando '''seff'''  muestra la eficiencia de un trabajo en SLURM.
+Funciona tanto con trabajos en ejecución como finalizados, pero mientras corre, los datos son parciales. No entrega información útil si el job está pendiente.
+''seff <job_id>''
+<pre>
+[dbowman@sn009]# seff 12863561
+Job ID: 12863561
+Cluster: leftraru
+User/Group: dbowman/users
+State: RUNNING
+Nodes: 1
+Cores per node: 20
+CPU Utilized: 00:00:00
+CPU Efficiency: 0.00% of 28-18:12:00 core-walltime
+Job Wall-clock time: 2-12:18:23
+Memory Utilized: 0.00 MB
+Memory Efficiency: 0.00% of 3.91 GB (200.00 MB/core)
+WARNING: Efficiency statistics can only be obtained after the job has ended as seff tool is based on the accounting database data.
+</pre>
+<!--
+=== A través de Ganglia ===
 Ganglia es un sistema de monitoreo distribuido para sistemas HPC, por cada uno de los nodos de cómputo de las diferentes particiones están disponibles los gráficos de memoria, carga, porcentaje de cpu usada, tráfico, etc.
-px-Ganglia.png
+[[Archivo:Ganglia.png|no|300px]]
+-->
-A través de Dashboard
+=== A través de [http://dashboard.nlhpc.cl/ Dashboard] ===
-Panel de visualización del estado de los nodos. Muestra una vista rápida del estado de los nodos (de login y de cómputo) y uso general del cluster, ademas de encontrar el listado de tareas en ejecución, pendientes, históricos.
+Panel de visualización del estado de los nodos. Muestra una vista rápida del estado de los nodos (de login y de cómputo) y uso general del cluster, ademas de encontrar el listado de tareas en ejecución, pendientes.
+[[Archivo:Dashboard.jpg|no|dashboard]]
-En el correo de notificación
+=== En el correo de notificación ===
 Al terminar una tarea se adjuntan las siguientes gráficas:
-Porcentaje de uso por core
+==== Porcentaje de uso por core ====
-px-Correo CPU.png
+[[Archivo:Uso_por_core.png|no]]
-Memoria utilizada por core
-px-Correo MEMxCPU.png
+==== Memoria utilizada por core ====
+[[Archivo:Mem_por_core.png|no]]
-Archivo report.log
+<!-- <pre>
+==== Archivo report.log ====
+<pre>
 job_id=12668XXX user=usuario mail=None start_time=2018-07-09T06:51:34 running_time=3:53:28 cores_total=10 nodes_raw=cn094 alarm_cpu=True alarm_memory=False watch|avg|std|ptotal=10800|30|20|50 ptcw=70 command=/home/usuario/tarea.sh nodes={'cn094': {'mem': '10000', 'cpu': [0, 2, 3, 4, 5, 6, 7, 8, 9, 10]}} alarm_count=1 last_time=1531147611 iter=2 job_cancel=None modules=[]
 n=cn094
    mem max:3586 resv:10000
    cpu=10 avg=91.00 std=45.77 / all avg=0.00 std=0.00
@@ Línea 73: / Línea 188: @@
 * cpu= 9 avg=0.47 std=0.50 / all avg=0.36 std=0.48
 * cpu= 8 avg=0.72 std=0.45 / all avg=0.79 std=0.41
-En mem max:3586 resv:10000 se destaca que el máximo de memoria utilizada por la tarea ha sido de 3568M
+</pre>
-Por cada una de los cores se despliega: el uso promedio de cada core, la desviación estándar en las últimas 3 horas / del total de tiempo de ejecución.
+* En mem max:'''3586''' resv:10000 se destaca que el máximo de memoria utilizada por la tarea ha sido de 3568M
+* Por cada una de los cores se despliega: el uso promedio de cada core, la desviación estándar en las últimas 3 horas / del total de tiempo de ejecución.
+</pre> -->

Anónimo

Buscar

Diferencia entre revisiones de «Monitoreo»

Revisión actual - 19:30 9 oct 2025

¿Como listo las tareas?

¿Como monitoreo los recursos utilizados por mi tarea?

Conectándose al nodo

User Stats

La memoria por core (en kb)

Cantidad de procesos por core

htop

Configurar vista con archivo htoprc

seff

A través de Dashboard

En el correo de notificación

Porcentaje de uso por core

Memoria utilizada por core

Navegación

Herramientas wiki

Herramientas de página