Différences

Ci-dessous, les différences entre deux révisions de la page.

--- recherche:cluster [05/03/2020 13:50] – aurelien.villani
+++ recherche:cluster [17/07/2024 13:54] (Version actuelle) – modification des liens maurice
@@ Ligne 1: / Ligne 1: @@
 ====== Cluster ======
-La liste des logiciels disponible est sur [[recherche:Cluster:softwares]], ainsi que comment compiler certaines choses sur votre home.
-===== Nettoyage de jobs plantés =====
+===== Intro et logiciels =====
+  * La doc que vous recevez à la création de compte est [[http://sms-nas.emse.fr/isn_lgf/index.php/serveurs-de-calcul/centaure | sur la baie ]]
+  * Le pole [[https://services-numeriques.emse.fr/calcul-intensif-hpc/| Calcul Intensif]] dispose d'une page [[https://services-numeriques.emse.fr/calcul-intensif-hpc/cluster-calcul/ | cluster]] avec un [[https://services-numeriques.emse.fr/calcul-intensif-hpc/outils/| guide pratique]]. Consultez le ! :)
+  * Vous pouvez joindre les admins à [[centaure-admins@listes.emse.fr]]
+  * **La liste des logiciels** disponible est sur [[recherche:Cluster:softwares]], ainsi que comment compiler certaines choses sur votre home.
+===== Lancement massif de jobs: slurm array =====
+Il peut arriver que vous vouliez lancer massivement des jobs. Comment économiser les licences, ou simplement respecter les autres utilisateurs ?
+Avec les slurm arrays, vous définissez une pile et un nombre maximum de jobs concurrents, qui piochent dans cette pile.
+Dans le fichier job, ajoutez avec les commandes spéciales slurm du début la ligne suivante:
+<Code:bash>
+#SBATCH --array 1-500%10
+</Code>
+Ainsi, vous définissez avoir 500 jobs à lancer, mais n'en autorisez que 10 en simultané. Vous disposez alors d'une variable "$SLURM_ARRAY_TASK_ID" que vous pouvez utiliser de la sorte (par exemple, avec python):
+<Code:bash>
+module purge
+module load anaconda/python3
+cd $SCRATCH
+srun python array_job.py $SLURM_ARRAY_TASK_ID
+</Code>
+Et le python correspondant:
+<Code:python>
+import sys
+import time
+print('Job num {:d}. Dodo 10s...'.format(int(sys.argv[1])))
+time.sleep(10)
+print("voila")
+</Code>
+Les fichiers exemples sont {{ :recherche:cluster:slurm_array.tar.gz | ici}}
+===== Tips =====
+==== Nettoyage de jobs plantés ====
 Parfois, des job annulés ou finis restent sur les noeuds: il faut les tuer à la main.
@@ Ligne 27: / Ligne 66: @@
 ` show_process.sh MON_LOGIN`
-====
-**Un fois les noeuds identifiés:**
+**Une fois les noeuds identifiés:**
 On voit, par exemple, que le job a été lancé sur `compute-1-1`, donc on s'y connecte:
@@ Ligne 44: / Ligne 83: @@
 Voilà !
-===== Super squeue =====
+==== Super squeue ====
 Pour que la sortie donnée par la commande _squeue_ soit vraiment utile, vous pouvez configurer un alias pour votre shell. Ca colore vos propre job, étend la colonne avec le nom, etc.
@@ Ligne 50: / Ligne 89: @@
 <Code:shell>
-alias squeue='squeue -o "%.5i %.9P %.22j %.8u %.2t %.10M %.5D %R" | GREP_COLOR="01;31" egrep --color=always "^.*$USER PD.*$|$" | GREP_COLOR="01;32" egrep -i --color=always "^.*$USER  R.*$|$"'
+alias squeue='squeue -o "%.8i %.9P %.22j %.8u %.2t %.10M %.5D %R" | GREP_COLOR="01;31" egrep --color=always "^.*$USER PD.*$|$" | GREP_COLOR="01;32" egrep -i --color=always "^.*$USER  R.*$|$"'
 </Code>
-===== Créer un module pour votre code utilisable avec module load =====
+==== Créer un module pour votre code utilisable avec module load ====
 Let's say you want to use your code, for instance, **flatori**, on the cluster.
@@ Ligne 83: / Ligne 122: @@
 //Et voilà//, now you can see your module when typing `module avail`, and in our case, do `module load flatori/R0`