Diferencia entre las páginas «Sumario» y «Monitoreo»

De NLHPC
(Diferencia entre las páginas)
Sin resumen de edición
 
 
Línea 1: Línea 1:
== Información para nuevos usuarios ==
== ¿Como listo las tareas? ==
Esta es la wiki de usuarios de Leftraru, el clúster HPC del NLHPC. Aquí encontrará información útil para:
Ejecuto el comando [https://slurm.schedmd.com/squeue.html squeue] para conocer por ejemplo el estado, tiempo de ejecución e identificador de los trabajos [https://wiki.nlhpc.cl/SISTEMA_GESTOR_DE_RECURSOS SLURM]
<pre>
[usuario@leftraru1 ~]$ squeue -o "%.15i %.6P %.8j %.20S %.11M %.11L %.20V %.2t %.10q %.4C %.2D %.7W %N " -S -t,-Q


* Ingresar al clúster
JOBID    PARTIT  NAME    START_TIME          TIME      TIME_LEFT  SUBMIT_TIME        ST  QOS CPUS NO LICENSE NODELIST
* Descripción del hardware
12863561  slims  test04  2018-07-08T13:57:53  1-20:25:20 1-03:34:40 2018-07-08T13:57:26  R  120  5  1  (null)  cn000
* Lanzar tareas en el gestor de recursos Slurm
12864082  slims  test02  2018-07-09T10:44:15    23:38:58 2-00:21:02 2018-07-09T10:43:51  R  120  10  1  (null)  cn001
* Preguntas Frecuentes
12865333  slims  test01  2018-07-10T17:16:38        0:00 3-00:00:00 2018-07-10T09:30:22  PD 120  10  1  (null) 
* Para más información puede visitar [https://wiki.nlhpc.cl/Informaci%C3%B3n_para_nuevos_usuarios Aquí]
12865334  slims  test06  2018-07-10T17:49:42        0:00 3-00:00:00 2018-07-10T09:38:13  PD 120  10  1  (null) 
12865335  slims  test09  2018-07-11T07:42:16        0:00 3-00:00:00 2018-07-10T09:28:05  PD 120  20  1  (null)
</pre>


== Recursos computacionales de leftraru ==
== ¿Como monitoreo los recursos utilizados por mi tarea? ==
Leftraru cuenta actualmente con 5 particiones: general, largemem, gpus, slims y debug.
=== Conectándose al nodo ===
Siempre y cuando tengamos tareas corriendo en un nodo, podemos entrar en este vía SSH.


Las caracterísiticas de estas particiones pueden encontrarse en [https://wiki.nlhpc.cl/Recursos_Computacionales_NLHPC Recursos Computacionales NLHPC]
==== * uptime ====
Para conocer la carga del nodo, cuantos procesos por core existen actualmente.
<pre>
[usuario@leftraru1 ~]# ssh cn109
usuario@cn000 s password:
[usuario@cn000 ~]# uptime
10:40:59 up 27 days, 16:46,  1 user,  load average: 17.04, 13.76, 13.09
</pre>


== Creación de cuentas ==
==== * User Stats ====
El proceso de creación de cuentas es relativamente fácil. Para poder crear una cuenta debe seguir las instrucciones del siguiente [http://www.nlhpc.cl/es/servicios enlace] y luego postular a una cuenta rellenando información en un formulario online.
Este script permite revisar:


== Software instalado en el Clúster ==
===== La memoria por core (en kb) =====
Leftraru cuenta con una amplia gama de software.
<pre>
[usuario@cn000 ~]$ /home/apps/nlhpc/bin/user_stats.sh mem
00 371695616
01 373268480
02 367038464
03 363290624
04 367382528
</pre>


Para saber el software que está instalado en nuestro clúster, vaya al siguiente link: [https://wiki.nlhpc.cl/Lmod Lmod]
===== Cantidad de procesos por core =====
<pre>
[usuario@cn000 ~]$ /home/apps/nlhpc/bin/user_stats.sh load
00 1
01 2
02 1
03 1
04 1
</pre>


Tenga en cuenta que el NLHPC no entrega licencias de software, por lo que es responsabilidad de cada usuario o grupo de usuarios el adquirir estas licencias.
==== * htop ====
Es un visor de procesos en linux, basado en ncurses.
<pre>
[usuario@cn109 ~]# htop
</pre>


== Accediendo a Leftraru ==
[[Archivo:Htop.png|no|htop]]
Leftraru está basado en la distribución Centos Linux. Uiliza el protocolo [https://es.wikipedia.org/wiki/Secure_Shell SSH] para conectase remotamente. Puede conectarse a Leftraru en la siguiente dirección:


leftraru.nlhpc.cl


Puede encontrar mayor información en [https://wiki.nlhpc.cl/Tutorial_de_acceso_a_Leftraru_via_SSH Tutorial de acceso a Leftraru via SSH]. Para facilitar la copia de archivos en Leftraru, vea el [https://wiki.nlhpc.cl/Tutorial_de_acceso_a_archivos Tutorial de acceso a archivos]
.


== Slurm, sistema de gestión de recursos ==
=== A través de Ganglia ===
Leftraru utiliza [https://slurm.schedmd.com/ Slurm] como gestor de recursos. Slurm provee de un framework para encolar trabajos, asignación de nodos de cómputo, reserva de tiempo de CPU, ejecución y gestión de trabajos dentro de clúster. Nuestros nodos de cómputo se encuentran agrupados en particiones, dentro de las cuales los usuarios pueden ejecutar sus trabajos dependiendo de sus necesidades.
Ganglia es un sistema de monitoreo distribuido para sistemas HPC, por cada uno de los nodos de cómputo de las diferentes particiones están disponibles los gráficos de memoria, carga, porcentaje de cpu usada, tráfico, etc.


Para ver más información acerca de cómo trabajar con Slurm en el clúster, por favor visite el tutorial de [https://wiki.nlhpc.cl/SISTEMA_GESTOR_DE_RECURSOS ejecución de tareas dentro de Leftaru.]
[[Archivo:Ganglia.png|no|300px]]


== Lustre, sistema de archivos distribuido ==
=== A través de [http://dashboard.nlhpc.cl/ Dashboard] ===
[https://es.wikipedia.org/wiki/Lustre_%28sistema_de_archivos%29 Lustre] es un conocido [https://es.wikipedia.org/wiki/Sistema_de_archivos_distribuido sistema de archivos distribuido] de alta disponibilidad que permite usar una red de computadores para construir un espacio de almacenamiento amplio, escalable y mantenible en el que se pueden definir cuotas de utilización por usuario.
Panel de visualización del estado de los nodos. Muestra una vista rápida del estado de los nodos (de login y de cómputo) y uso general del cluster, ademas de encontrar el listado de tareas en ejecución, pendientes, históricos.


Lustre es open source, pero debido a su envergadura y dificultad para constituirlo, se ha optado por contratar una solución privada (a la empresa [http://www.ddn.com/ DDN]) que incluye tanto infraestructura como configuraciones optimizadas de tal manera de contar con una opción de almacenamiento acorde a las necesidades del NLHPC.
=== En el correo de notificación ===
Al terminar una tarea se adjuntan las siguientes gráficas:


'''Limitaciones y excepciones de Lustre:''' A pesar de tener muchas características sobresalientes, y en pos de aumentar el rendimiento de la lectura y escritura de archivos, Lustre no permite bloquear un archivo ([https://en.wikipedia.org/wiki/File_locking file locking] en inglés). Esto implica que muchos de los motores de bases de datos más conocidos (MySQL, Postgres, etc.) e incluso algunas aplicaciones que hacen uso de esta característica no funcionen o se caigan en su ejecución. Se recomienda realizar esa parte del trabajo en la partición /mnt/flock/usuario.
==== Porcentaje de uso por core ====
[[Archivo:300px-Correo CPU.png|izquierda]]


== Tutoriales ==
==== Memoria utilizada por core ====
[https://wiki.nlhpc.cl/Tutorial_de_acceso_a_Leftraru_via_SSH Tutorial de acceso a Leftraru via SSH]


[https://wiki.nlhpc.cl/SISTEMA_GESTOR_DE_RECURSOS Ejecución de tareas dentro de Leftaru]
[[Archivo:300px-Correo MEMxCPU.png|izquierda]]


Presentación uso Leftraru
==== Archivo report.log ====
<pre>
job_id=12668XXX user=usuario mail=None start_time=2018-07-09T06:51:34 running_time=3:53:28 cores_total=10 nodes_raw=cn094 alarm_cpu=True alarm_memory=False watch|avg|std|ptotal=10800|30|20|50 ptcw=70 command=/home/usuario/tarea.sh nodes={'cn094': {'mem': '10000', 'cpu': [0, 2, 3, 4, 5, 6, 7, 8, 9, 10]}} alarm_count=1 last_time=1531147611 iter=2 job_cancel=None modules=[]
n=cn094


[https://wiki.nlhpc.cl/Escalamiento Escalamiento de Aplicaciones]
  mem max:3586 resv:10000
  cpu=10 avg=91.00 std=45.77 / all avg=0.00 std=0.00
  cpu= 0 avg=98.19 std=44.53 / all avg=0.00 std=0.00
* cpu= 3 avg=0.56 std=0.50 / all avg=0.47 std=0.50
* cpu= 2 avg=0.86 std=0.35 / all avg=0.66 std=0.47
* cpu= 5 avg=0.64 std=0.48 / all avg=0.49 std=0.50
* cpu= 4 avg=0.53 std=0.50 / all avg=0.40 std=0.49
  cpu= 7 avg=82.11 std=48.93 / all avg=0.00 std=0.00
* cpu= 6 avg=0.56 std=0.50 / all avg=0.45 std=0.50
* cpu= 9 avg=0.47 std=0.50 / all avg=0.36 std=0.48
* cpu= 8 avg=0.72 std=0.45 / all avg=0.79 std=0.41
</pre>


Monitoreo De Tareas
* En mem max:'''3586''' resv:10000 se destaca que el máximo de memoria utilizada por la tarea ha sido de 3568M
 
* Por cada una de los cores se despliega: el uso promedio de cada core, la desviación estándar en las últimas 3 horas / del total de tiempo de ejecución.
Documentación de temas relacionados con el software del clúster

Revisión del 16:00 6 sep 2022

¿Como listo las tareas?

Ejecuto el comando squeue para conocer por ejemplo el estado, tiempo de ejecución e identificador de los trabajos SLURM

[usuario@leftraru1 ~]$ squeue -o "%.15i %.6P %.8j %.20S %.11M %.11L %.20V %.2t %.10q %.4C %.2D %.7W %N " -S -t,-Q

JOBID    PARTIT   NAME    START_TIME           TIME       TIME_LEFT  SUBMIT_TIME         ST  QOS CPUS NO LICENSE NODELIST 
12863561  slims   test04  2018-07-08T13:57:53  1-20:25:20 1-03:34:40 2018-07-08T13:57:26  R  120  5   1  (null)  cn000 
12864082  slims   test02  2018-07-09T10:44:15    23:38:58 2-00:21:02 2018-07-09T10:43:51  R  120  10  1  (null)  cn001 
12865333  slims   test01  2018-07-10T17:16:38        0:00 3-00:00:00 2018-07-10T09:30:22  PD 120  10  1  (null)  
12865334  slims   test06  2018-07-10T17:49:42        0:00 3-00:00:00 2018-07-10T09:38:13  PD 120  10  1  (null)  
12865335  slims   test09  2018-07-11T07:42:16        0:00 3-00:00:00 2018-07-10T09:28:05  PD 120  20  1  (null)

¿Como monitoreo los recursos utilizados por mi tarea?

Conectándose al nodo

Siempre y cuando tengamos tareas corriendo en un nodo, podemos entrar en este vía SSH.

* uptime

Para conocer la carga del nodo, cuantos procesos por core existen actualmente.

[usuario@leftraru1 ~]# ssh cn109
usuario@cn000 s password:
[usuario@cn000 ~]# uptime
10:40:59 up 27 days, 16:46,  1 user,  load average: 17.04, 13.76, 13.09

* User Stats

Este script permite revisar:

La memoria por core (en kb)
[usuario@cn000 ~]$ /home/apps/nlhpc/bin/user_stats.sh mem
00 371695616
01 373268480
02 367038464
03 363290624
04 367382528
Cantidad de procesos por core
[usuario@cn000 ~]$ /home/apps/nlhpc/bin/user_stats.sh load
00 1
01 2
02 1
03 1
04 1

* htop

Es un visor de procesos en linux, basado en ncurses.

[usuario@cn109 ~]# htop
htop


.

A través de Ganglia

Ganglia es un sistema de monitoreo distribuido para sistemas HPC, por cada uno de los nodos de cómputo de las diferentes particiones están disponibles los gráficos de memoria, carga, porcentaje de cpu usada, tráfico, etc.

Ganglia.png

A través de Dashboard

Panel de visualización del estado de los nodos. Muestra una vista rápida del estado de los nodos (de login y de cómputo) y uso general del cluster, ademas de encontrar el listado de tareas en ejecución, pendientes, históricos.

En el correo de notificación

Al terminar una tarea se adjuntan las siguientes gráficas:

Porcentaje de uso por core

Memoria utilizada por core

Archivo report.log

job_id=12668XXX user=usuario mail=None start_time=2018-07-09T06:51:34 running_time=3:53:28 cores_total=10 nodes_raw=cn094 alarm_cpu=True alarm_memory=False watch|avg|std|ptotal=10800|30|20|50 ptcw=70 command=/home/usuario/tarea.sh nodes={'cn094': {'mem': '10000', 'cpu': [0, 2, 3, 4, 5, 6, 7, 8, 9, 10]}} alarm_count=1 last_time=1531147611 iter=2 job_cancel=None modules=[]
n=cn094

  mem max:3586 resv:10000
  cpu=10 avg=91.00 std=45.77 / all avg=0.00 std=0.00
  cpu= 0 avg=98.19 std=44.53 / all avg=0.00 std=0.00
* cpu= 3 avg=0.56 std=0.50 / all avg=0.47 std=0.50
* cpu= 2 avg=0.86 std=0.35 / all avg=0.66 std=0.47
* cpu= 5 avg=0.64 std=0.48 / all avg=0.49 std=0.50
* cpu= 4 avg=0.53 std=0.50 / all avg=0.40 std=0.49
  cpu= 7 avg=82.11 std=48.93 / all avg=0.00 std=0.00
* cpu= 6 avg=0.56 std=0.50 / all avg=0.45 std=0.50
* cpu= 9 avg=0.47 std=0.50 / all avg=0.36 std=0.48
* cpu= 8 avg=0.72 std=0.45 / all avg=0.79 std=0.41
  • En mem max:3586 resv:10000 se destaca que el máximo de memoria utilizada por la tarea ha sido de 3568M
  • Por cada una de los cores se despliega: el uso promedio de cada core, la desviación estándar en las últimas 3 horas / del total de tiempo de ejecución.