Suite OKA – Transformez les performances de votre HPC

La simulation est stratégique, elle offre des avantages concurrentiels aux industries, elle contribue à faire progresser la recherche scientifique et, avec l’explosion des données et de l’intelligence artificielle, elle devient essentielle dans notre vie quotidienne… Gérer efficacement une infrastructure HPC est complexe et manque souvent d’outils appropriés pour suivre et obtenir des informations sur le comportement des utilisateurs et la réactivité du cluster face à la demande.

UCit a regroupé son expertise en HPC et en apprentissage automatique dans une suite logicielle pour aider les administrateurs de systèmes HPC à être encore plus efficaces : la Suite OKA.

La Suite OKA propose l’outil adapté à chaque domaine d’optimisation de vos clusters. Elle est composée de 5 produits distincts et complémentaires pour répondre à tous les besoins : OKA Core, OKA Shaper, OKA Energy, OKA Financials, OKA Predict.

OKA Core – Tirez le maximum de vos ressources HPC

Au cœur de la suite OKA se trouve OKA Core, une plateforme extensible qui présente l’état de votre infrastructure HPC à travers des tableaux de bord simples et compréhensibles.

Que vous ayez besoin de KPI (indicateurs clés de performance) de haut niveau pour rendre compte de l’utilisation du cluster, ou d’informations détaillées pour identifier l’origine d’un problème, OKA Core vous fournit le niveau de détail adéquat pour :

  • Analyser tous les KPI de vos clusters HPC sur une seule plateforme dédiée.
  • Diagnostiquer et comprendre rapidement les problèmes grâce à des recoupements avancés de données et des zooms.
  • Identifier facilement les domaines d’optimisation pour vos clusters et vos ressources.

OKA Core comprend les outils suivants :

  • Job Status – Pour repérer les ressources gaspillées en raison de tâches échouées (affiche le nombre de tâches et le nombre d’heures de calcul consommées par statut de tâche)
  • Load – Pour comprendre l’allocation globale des ressources (affiche les cœurs alloués au fil du temps et le nombre de tâches allouées par nœud)
  • Throughput – Pour analyser la qualité de service et les modèles de soumission des tâches (affiche la fréquence de soumission, le ralentissement, l’interarrivée…)
  • Resources – Pour déterminer les typologies de tâches et leur consommation (affiche le nombre de cœurs et d’heures de calcul, la mémoire et les nœuds consommés par les tâches)
  • Consumers – Pour effectuer des recoupements avancés pour une analyse approfondie de la charge de travail (permet de regrouper les tâches par groupe, utilisateur, nom de tâche, file/partition, qualité de service, environnement parallèle. Pour chaque regroupement, affiche le nombre de cœurs et d’heures de calcul, le temps d’exécution et d’attente, le ralentissement…)
  • Concurrent users – Pour repérer les comportements anormaux des utilisateurs (affiche les utilisateurs actifs par période)

OKA Shaper – Façonnez le futur de votre infrastructure HPC

OKA Shaper est l’étape naturelle suivante d’OKA Core lorsqu’il s’agit d’agir de manière proactive sur les ressources HPC à venir :

 

  • Évaluer et prédire la charge de vos clusters pour mieux vous préparer aux années à venir.
  • Identifier les charges de travail qui sont de bons candidats pour une migration vers le Cloud.
  • Prévoir les coûts et la taille de vos futures ressources HPC hybrides grâce à des outils dédiés de modélisation.

OKA Shaper propose les outils avancés suivants :

  • Congestion/Contention – fournit une mise à jour quotidienne de l’état du cluster (optimal, acceptable, congestionné) en fonction des besoins en ressources et de la puissance de calcul fournie, ainsi que du cycle de vie des tâches pour chaque jour. Il permet d’identifier si le cluster est correctement dimensionné et configuré, s’il doit être mis à niveau ou si des ressources supplémentaires/externes pourraient être bénéfiques.
  • MeteoCluster – est le cadre d’analyse du comportement du cluster. Connecté à plusieurs sources de données, il prévoit l’évolution et la tendance des métriques sélectionnées telles que la charge du cluster, la consommation d’énergie, ou toute série chronologique disponible dans les données. Couplé à un ensemble de plug-ins de détection, il permet d’explorer des scénarios « que se passerait-il si » pour vous aider à planifier les évolutions futures du cluster, à vous préparer pour votre prochaine maintenance en identifiant le prochain pic ou creux…
    • Prévision multiscale – Comprenez comment la charge et la consommation d’énergie de votre cluster évolueront dans les prochains jours, semaines, mois… MeteoCluster peut prévoir l’évolution de ces métriques et bien d’autres encore.
    • Explorateur de scénarios – Besoin de planifier une maintenance sans impact sur la production ? Quand se produira le prochain pic d’utilisation ? MeteoCluster est livré avec une bibliothèque extensible d’outils de détection interactifs.
  • CloudSHaper – fournit les outils pour suivre et prévoir les coûts des charges de travail HPC, que votre cluster HPC soit sur site ou dans le Cloud. Le plug-in CloudSHaper permet d’explorer des scénarios « que se passerait-il si » et de planifier précisément les budgets.

OKA Energy – Optimisez la consommation d’énergie de vos clusters

Ensuite, OKA Energy est l’outil pour optimiser la consommation d’énergie de vos clusters et :

 

  • Réduire les coûts énergétiques et l’impact sur l’environnement grâce à des outils énergétiques dédiés au HPC.
  • Maîtriser votre empreinte carbone pour respecter les réglementations et les politiques d’émission des entreprises.

OKA Energy comprend l’ensemble d’outils suivants :

  • Energy – OKA Energy intègre une partie d’EAR (Energy Aware Runtime) pour rapporter la consommation d’énergie du cluster et des tâches et estimer leur empreinte carbone. Après l’acquisition d’OKA Energy, les mesures de puissance et d’énergie deviennent disponibles pour tous les plug-ins d’OKA Core et d’OKA Shaper (par exemple, MeteoCluster peut projeter la consommation future d’énergie du cluster).
  • RackOON – OKA Energy dispose d’un plugin spécifique dédié à la surveillance énergétique, qui offre une vue physique du cluster.
  • Carbon – OKA Energy dispose d’un plugin spécifique dédié à la surveillance énergétique, qui offre une vue physique du cluster.

OKA Financials – Maîtrisez les coûts de vos clusters HPC

OKA Financials améliore OKA Core avec des métriques de coûts précises et manipulables disponibles dans tous les autres produits de la suite, et étend OKA Shaper en ajoutant des projections de coûts grâce à MeteoCluster.

OKA Financials comprend l’ensemble d’outils suivants :

  • Cost propagation – Après avoir obtenu des informations sur les coûts, cette métrique devient disponible pour tous les plug-ins d’OKA Core et d’OKA Shaper (par exemple, MeteoCluster peut projeter les coûts futurs du cluster). Vous pouvez soit définir le coût par heure de calcul de votre cluster, soit avoir un contrôle plus précis sur la manière de rendre compte de vos coûts (par exemple, par file d’attente et compte) grâce à la création d’un « Data Enhancer » personnalisé.
  • CloudSHaper – fournit les outils pour suivre et prévoir les coûts des charges de travail HPC, que votre cluster HPC soit sur site ou dans le Cloud. Le plug-in CloudSHaper permet d’explorer des scénarios « que se passerait-il si » et de planifier précisément les budgets.

OKA Predict – Optimisez l’usage de vos ressources HPC en temps-réel

OKA Predict élève l’optimisation de l’utilisation de votre cluster à un niveau supérieur en permettant une optimisation en temps réel des soumissions des tâches des utilisateurs finaux. Avec OKA Predict, votre équipe peut créer de puissants prédicteurs d’apprentissage automatique qui suggèreront ou appliqueront automatiquement les paramètres optimaux des tâches pour minimiser l’utilisation des ressources et le temps nécessaire pour obtenir des résultats pour les utilisateurs finaux.

OKA Predict est un outil d’apprentissage automatique pour prévoir les performances, les coûts et la consommation d’énergie des tâches. En intégrant votre planificateur de tâches ou votre portail de soumission de tâches à OKA Predict, vous pouvez :

  • Améliorer la productivité du cluster.
  • Réduire le gaspillage des ressources.
  • Aider les utilisateurs finaux à obtenir des résultats plus rapidement.

OKA Predict s’entraîne périodiquement sur de nouvelles données collectées à partir du planificateur de tâches ou de journaux supplémentaires. Ses fonctionnalités de filtrage permettent de définir précisément les charges de travail à analyser (par exemple, vous pouvez analyser séparément toutes les tâches créées par chacun des départements de recherche ou vous concentrer sur la période de l’été dernier où des comportements de tâches étranges ont été observés…). Les filtres couramment utilisés peuvent être enregistrés et réutilisés pour examiner rapidement les KPI les plus importants. Il est même possible de former des prédicteurs spécifiques à partir de ces filtres.

OKA Predict prévoit les caractéristiques suivantes des tâches au moment de leur soumission :

  • État – détecte le risque d’échec ou de dépassement du délai d’exécution d’une tâche.
  • Temps d’exécution – prédit le temps d’exécution des tâches pour planifier les ressources et obtenir des résultats plus rapidement.
  • Mémoire – prédit la quantité de mémoire à demander.
  • Temps d’attente et temps de rendu – obtenez des informations sur la fin de vos tâches.
  • Énergie – estime l’impact sur l’environnement.

Adaptabilité et flexibilité de la suite OKA

OKA™ est extensible, adaptable et dynamique, et offre des interfaces cohérentes et des outils intégrés.

Chaque vue du cluster est accessible aux utilisateurs autorisés et configurable via des profils.

De plus, les capacités de filtrage d’OKA permettent de sélectionner précisément les charges de travail à analyser (par exemple, vous pouvez analyser séparément toutes les tâches créées par chacun des départements de recherche ou vous concentrer sur la période de l’été dernier où des comportements de tâches étranges ont été observés…).

Les filtres couramment utilisés peuvent être enregistrés et réutilisés pour examiner rapidement les KPI les plus importants. Il est même possible de former des prédicteurs spécifiques à partir de ces filtres.

OKA™ peut être étendu avec des fonctionnalités supplémentaires et fournir des métriques supplémentaires grâce aux « Data Enhancers » qui permettent de connecter d’autres sources de données à OKA™, telles que la base de données EAR ou des outils de fournisseurs matériels qui mesurent les informations de puissance et d’énergie ou les journaux spécifiques à une application.

Vous pouvez en savoir plus sur OKA Suite sur https://oka.how ou accéder directement à https://doc.oka.how/ pour comprendre son fonctionnement et comment commencer un essai gratuit.