La simulation est stratégique, elle offre des avantages compétitifs aux industries, elle permet de faire avancer la recherche scientifique et avec l'explosion des données et de l'intelligence artificielle, elle devient essentielle à nos vies… Gérer efficacement une infrastructure HPC est complexe et manque souvent d’outils adéquats pour traquer et obtenir des informations sur le comportement des utilisateurs et sur la manière dont le cluster répond à la demande.
UCit a intégré son expertise en HPC et en machine learning dans un outil logiciel qui aide les administrateurs système HPC à être encore plus efficaces. Analyze-IT fournit une plate-forme extensible qui présente l'état de votre infrastructure HPC à travers des tableaux de bord simples et compréhensibles. Que vous ayez besoin de KPI de haut niveau pour suivre l'utilisation du cluster ou d'informations de bas niveau pour localiser l'origine d'un problème, Analyze-IT vous donne le bon niveau de détails en fonction des questions que vous vous posez.


Identifier les Comportements Atypiques
Avez-vous repéré ce nouvel utilisateur soumettant des rafales de jobs au cours des 2 derniers jours ?
Ou cet utilisateur qui a moins de 10% de ses jobs qui se terminent correctement ?

Améliorer la Qualité de Service
Combien de temps vos travaux passent-ils en file d’attente par rapport à leur durée d’exécution réelle ?
Avez-vous une proportion élevée de travaux échoués / annulés / expirés ?

Réduire le Gaspillage des Ressources de Calcul
Quelles ressources restent inutilisées, alors qu’elles sont demandées par vos utilisateurs ?
Combien de vos jobs pourraient être exécutés sur des nœuds plus petits ?

Planifier les Évolutions des Cluster
Quand avez-vous des besoins de capacité de pointe qui nécessitent des ressources supplémentaires ?
Comment dimensionner la taille de votre futur cluster ?


Job Status
Nombre de jobs et cœur-heures consommées par état des jobs

Load
Cœurs alloués au fil du temps, nombre de jobs alloués par nœud

Throughput
Fréquence de soumission, slowdown, interarrivée, nombre de jobs actifs

Concurrent users
Nombre d’utilisateurs actifs sur le cluster

Resources
Nombre de cœurs, RAM, nœuds… utilisé par les jobs

Consumers
Informations détaillées sur les jobs regroupés au sein de catégories

Resubmission
Détection et analyse détaillée des jobs re-soumis

Congestion
Etat du cluster (Optimal, Acceptable, Contention, Congestion), et cycle de vie des jobs