OKA Predict

Tirer le meilleur parti de votre infrastructure HPC est complexe, et tandis que vous faites de votre mieux en tant qu’administrateur pour l’optimiser, vos efforts peuvent être entravés par les comportements des utilisateurs finaux.

De la prédiction des besoins en ressources des jobs en fonction de leurs caractéristiques, à la projection de la charge du cluster ou de sa consommation énergétique, OKA Predict est l’outil pour prévoir le comportement de vos clusters. OKA Predict intègre une série d’algorithmes de machine learning qui se nourrissent des logs du cluster : base de données d’accounting du job scheduler, relevés d’énergie, logs des applications… il apprend de ces données historiques et s’améliore continuellement.

Intégré à votre job scheduler, OKA Predict peut avertir les utilisateurs de potentiels problèmes avec leurs paramètres de soumission, voire même agir directement et mettre à jour ces paramètres pour optimiser l’utilisation de vos ressources HPC. Intégré à la OKA Suite, OKA Predict peut vous aider à planifier les futures périodes de maintenance tout en limitant l’impact sur la production.

OKA Predict est propulsé par notre plateforme OKA™ Suite

Augmenter la productivité des ressources

Les clusters HPC sont presque toujours intégralement utilisés, cependant, de nombreux travaux HPC ne se terminent pas correctement.

OKA Predict peut détecter si un travail présente un risque d’être tué par le job scheduler et conseiller des paramètres de soumission appropriés.

Tirez parti de la puissance du machine learning

Les job schedulers stockent de nombreuses informations historiques sur l’utilisation du cluster et les caractéristiques des jobs.

OKA Predict est spécialement configuré pour votre cluster et apprendre en continue sur ces données pour améliorer ses prédictions au fil de l’eau.

Limiter le gaspillage de ressources de calcul

Combien de vos jobs réservent plus de ressources que nécessaire ou pourraient s’exécuter sur une topologie différente ?

OKA Predict peut vous conseiller sur la bonne quantité de ressources dont un job a besoin pour réduire les ressources inutilisées et ainsi mieux les partager.

Mode de fonctionnement

En analysant les données historiques de soumission des jobs de votre job scheduler, OKA Predict crée un modèle numérique de votre cluster basé sur des techniques de machine learning. Un tel modèle est ensuite appliqué au moment de la soumission des jobs pour fournir à l’utilisateur des informations sur les paramètres de soumission optimisés, sur le risque d’échec, mais aussi une estimation du « time-to-result ».
Configuré spécifiquement pour votre cluster, OKA Predict s’améliore progressivement au fil du temps: il s’adapte à votre environnement HPC en apprenant des logs de votre cluster et des jobs nouvellement soumis, devenant à chaque fois de plus en plus précis dans ses prévisions. Chaque entrainement est comparé au modèle précédent et n’est appliqué en production que s’il donne des prévisions meilleures et plus précises. Plus vous fournissez de données et plus elles sont précises, plus la précision des prévisions sera élevée. Entraînez OKA Predict sur des workloads sélectionnés pour une précision encore plus grande.

Predict-IT Process

Meteo Cluster

Au lieu d’être réactif, que se passerait-il si vous pouviez être proactif sur les problèmes que vous rencontrez avec votre cluster?

MeteoCluster est notre framework pour l’analyse comportementale des clusters. Branché sur de multiples sources de données, il prévoit l’évolution et la tendance de métriques sélectionnées telles que la charge du cluster, la consommation d’énergie ou toute série temporelle disponible dans les données. Couplé à un ensemble de plugins de détection, il permet d’explorer des scénarios «what-if» pour vous aider à planifier les évolutions futures du cluster, préparer votre maintenance à venir en identifiant le prochain pic ou creux…

Bientôt, MeteoCluster intégrera une bibliothèque extensible de détection de comportements problématiques qui aideront les administrateurs système à identifier rapidement et avec précision les comportements sources d’erreurs / d’instabilité des utilisateurs et des serveurs.

Fonctionnalités

Comprenez comment la charge et la consommation d’énergie de votre cluster vont évoluer dans les prochains jours, semaine, mois… MeteoCluster peut prévoir l’évolution de ces métriques et bien d’autres.

Vous devez planifier la maintenance sans impact sur la production? Quand aura lieu le prochain pic d’utilisation? MeteoCluster est livré avec une bibliothèque extensible d’outils de détection interactifs.