Skip to content

TamIA/fr

Type Valeur
Disponibilité 31 mars 2025
Nœud de connexion tamia.alliancecan.ca
Nœud d'automatisation robot.tamia.ecpia.ca
Collection Globus Serveur Globus v5 de TamIA
Nœud de copie (rsync, scp, sftp,...) tamia.alliancecan.ca
Portail https://portail.tamia.ecpia.ca/

tamIA est une grappe dédiée aux besoins de la communauté scientifique canadienne en matière d'intelligence artificielle. tamIA est située à l'Université Laval et est cogérée avec Mila et Calcul Québec. Son nom rappelle le tamia, un mammifère rongeur présent en Amérique du Nord.

Cette grappe fait partie de l'environnement de calcul pancanadien de l’IA (ECPIA).

Particularités

Accès Internet restreint

Les nœuds de calcul de tamIA n'ont pas accès à l'Internet. Pour y faire exception, veuillez joindre le soutien technique en expliquant ce dont vous avez besoin et pourquoi.

Restriction sur VSCode

L'environnement de développement intégré VSCode est interdit sur les nœuds frontaux (login nodes) en raison de sa lourde charge. Il est cependant autorisé sur les nœuds de calcul.

Restrictions générales

  • L'outil crontab n'est pas offert.
  • Chaque tâche devrait durer au moins une heure (au moins cinq minutes pour les tâches de test).
  • Vous ne pouvez pas avoir plus de 1000 tâches (en exécution et en attente) à la fois.
  • La durée maximale d'une tâche est d'une journée (24 heures).
  • Chaque tâche doit utiliser tous les GPU des serveurs alloués (soit 4 pour les H100 et 8 pour les H200).

Accès

Pour accéder à la grappe de calcul, chaque chercheuse ou chercheur doit compléter une demande d'accès dans la CCDB. L'accès effectif à la grappe peut prendre jusqu'à une heure après avoir complété la demande d'accès. Ensuite, une déclaration de l'utilisation envisagée de l'intelligence artificielle doit être soumise.

Les chercheuses et chercheurs principaux admissibles sont membres d'un RAP de type AIP (préfixe aip-).

La procédure pour parrainer d'autres chercheuses et chercheurs est la suivante :

  1. Sur la page d'accueil de la CCDB, consulter la table Projet avec allocation de ressources;
  2. Chercher le RAPI du projet aip- et cliquer dessus pour être redirigé vers la page de gestion du RAP;
  3. En bas de la page de gestion du RAP, cliquer sur Gérer l'appartenance aux projets;
  4. Dans la section Ajouter des membres, entrer le CCRI du membre à ajouter.

La grappe de calcul est accessible uniquement à partir du Canada.

Stockage

Type de stockage Détails
HOME
Système de fichiers Lustre
* Cet espace est petit et ne peut pas être agrandi; vous devrez utiliser votre espace project pour les grands besoins en stockage.
Petits quotas fixes par utilisateur.
Il n'y a actuellement aucune sauvegarde automatique. (Planifié pour le printemps 2026)
SCRATCH
Système de fichiers Lustre
* Grand espace pour stocker les fichiers temporaires pendant les calculs.
Pas de système de sauvegarde automatique.
Grands quotas fixes par utilisateur.
* Il y a une purge automatique des vieux fichiers dans cet espace.
PROJECT
Système de fichiers Lustre
* Cet espace est conçu pour le partage de données entre membres d'un groupe et pour le stockage d'une grande quantité de données.
Grands quotas ajustables par projet.
Il y a une sauvegarde automatique une fois par jour.

Au tout début de la présente page, un tableau indique plusieurs adresses de connexion. Pour les transferts de données par Globus, il faut utiliser le Point de chute Globus. Par contre, pour les outils comme rsync et scp, il faut utiliser l'adresse du Nœud de copie.

Réseautique haute performance

Le réseau InfiniBand NDR de Nvidia relie tous les nœuds de la grappe. Chaque GPU est connecté à un port NDR200 via une carte Nvidia ConnectX-7. Chaque serveur a donc 4 ou 8 ports NDR200 connectés à la fabrique InfiniBand.

Le réseau InfiniBand est non bloquant pour les serveurs de calcul et est composé de deux étages de commutateurs disposés dans une topologie "fat-tree". Le stockage et les nœuds de calcul sont reliés via 4 ou 8 connexions à 400 Gb/s au cœur du réseau.

Caractéristiques des nœuds

Nœuds Cœurs Mémoire disponible CPU Stockage GPU
12 64 1024 GB 2 x Intel Xeon Gold 6448Y 2,1 GHz, 32C 1 x SSD de 7.68 TB 8 x NVIDIA HGX H200 SXM 141 GB HBM3 700W, connectés via NVLink
53 48 512 GB 2 x Intel Xeon Gold 6442Y 2,6 GHz, 24C 1 x SSD de 7.68 TB 4 x NVIDIA HGX H100 SXM 80 GB HBM3 700W, connectés via NVLink
8 64 512 GB 2 x Intel Xeon Gold 6438M 2.2G, 32C/64T 1 x SSD de 7.68 TB Aucun

Environnements logiciels disponibles

L'environnement logiciel standard StdEnv/2023 est l'environnement par défaut sur tamIA.

Tâches GPU

Les tâches sont assignées sur les nœuds complets. Utilisez l'une des options Slurm suivantes :

  • Pour une tâche sur un nœud avec GPU H100 : --gpus=h100:4
  • Pour une tâche sur un nœud avec GPU H200 : --gpus=h200:8
  • Pour les tâches avec plusieurs nœuds, utiliser --gpus-per-nodes=h100:4 ou --gpus-per-nodes=h200:8.

Suivi de vos tâches

Depuis le portail, vous pourrez suivre vos tâches de calcul GPU comme CPU en temps réel ou celles passées, afin de maximiser l'utilisation des ressources et de diminuer vos temps d'attente dans la file.

Vous pourrez notamment visualiser pour une tâche :

  • l'utilisation des cœurs de calcul;
  • la mémoire utilisée;
  • l'utilisation de GPU.

Il est important d'utiliser les ressources allouées et de rectifier vos demandes lorsque les ressources de calcul sont peu ou pas utilisées. Par exemple, si vous demandez quatre cœurs (CPU) mais n'en utilisez qu'un seul, vous devez ajuster votre fichier de soumission en conséquence.