Diferencia entre revisiones de «FAQs»

De NLHPC
(Página creada con «== Como contactar a soporte ? == En caso de tener dudas o problemas relacionados al cluste, no dude en enviarnos un correo a soporte@nlhpc.cl == Error por uso de memoria =…»)
 
(Sin diferencias)

Revisión actual del 19:41 8 abr 2020

Como contactar a soporte ?

En caso de tener dudas o problemas relacionados al cluste, no dude en enviarnos un correo a soporte@nlhpc.cl

Error por uso de memoria

Debemos tener en cuenta que la RAM que SLURM reserva por defecto son 1000 MB. Un típico error de cancelación de tarea por falta de memoria es el siguiente:

/tmp/slurmd/job136839939/slurm_script: line 15: 23547 Killed                  ./programa.sh
slurmstepd: error: Detected 1 oom-kill event(s) in step 136839939.batch cgroup. Some of your processes 
may have been killed by the cgroup out-of-memory handler.

Si su tarea ocupa más de la memoria por defecto, puede utilizar el siguiente parámetro:

#SBATCH --mem-per-cpu=2400 #Máxima RAM por CPU

Esto hará que SLURM reserve más RAM por CPU para sus tareas.

Tenga en cuenta que nuestros nodos tienen 48 GB de memoria RAM (Partición slims), 192 GB (Partición general) y 768 GB (Partición largemem) por nodo: http://wiki.nlhpc.cl/index.php/Recursos_Computacionales_NLHPC

Otra forma de reservar memoria es utilizando el siguiente parámetro:

#SBATCH --mem=20000

En este caso SLURM realizará una reserva de memoria de 20000 MB pero por la totalidad del trabajo.

Los parámetros anteriores al igual que el número de CPUs que se van a usar, hay que afinarlos lo mejor posible. Para ello lo que se puede hacer es hacer pruebas en los nodos logins, sin lanzar en las colas, y así estudiar el uso de RAM y CPU por parte de sus procesos.

Cuales son las particiones que puedo utilizar para enviar mis trabajos al clúster?

Podra encontrar información con respecto a los nodos en https://wiki.nlhpc.cl/index.php?title=Hardware_Disponible y ver cual es la partición que mas le acomoda para ejecutar sus trabajos

Como conectarse a nuestros nodos login

Como conectarse a nuestros nodos login, en el siguiente enlace podrá encontrar un tutorial de como realizarlo: https://wiki.nlhpc.cl/index.php?title=Tutorial_de_acceso_a_Leftraru_via_SSH

Revisar el estado de mis trabajos

https://wiki.nlhpc.cl/index.php?title=Monitoreo_De_Tareas

Licencias

Para el uso de licencias puede visitar el siguiente enlace: https://wiki.nlhpc.cl/index.php?title=Licencias

Transferencia de archivos al cluster

Si necesita realizar transferencia de archivos al cluster, es posible utilizar una gran variedad de herramientas, en el siguiente link encontrara ejemplos de como realizarlo: https://wiki.nlhpc.cl/index.php?title=Tutorial_de_acceso_a_archivos

Qué programas puedo ejecutar en el clúster

Nuestro cluster trabaja con sistema operativo Linux, si usted desea ejecutar el programa que esta utilizando en su equipo(Windows, Mac o cualquier otro sistema operativo) o servidores de trabajo local, debe asegurarse de que este programa tenga una versión que trabaje bajo Linux para poder realizar la instalación.

Cómo escala mi aplicación

Si tiene dudas de como escala su aplicación, revise el siguiente enlace: https://wiki.nlhpc.cl/index.php?title=Estudio_de_Eficiencia