Appelez-nous ! Écrivez-nous !
Retour aux articles

Calcul intensif (HPC) et intelligence artificielle : quels défis pour l’infrastructure des datacenters ?

Depuis 20 ans, le calcul intensif (HPC) bouleverse les usages tant par sa puissance en constante évolution que par son intense popularisation auprès d’un grand nombre de secteurs. L’intelligence artificielle joue un rôle majeur dans ces progrès et cette démocratisation fulgurante, c’est indéniable. Pour tout dire, IA et HPC sont intrinsèquement liés. Oui, mais L’IA couplée à l’utilisation en masse du calcul intensif requiert énormément de ressources. Se pose alors la question de la structure des centres de données : comment accueillir une telle puissance ? Quels sont les impacts de ressources aussi gargantuesques ? Quelles technologies (DLC, PDU’s haute densité, etc.) permettent de maintenir le cap ?

Calcul intensif ou HPC (High Performance Computing) : de quoi parle-t-on ?

Le HPC, calcul intensif ou Calcul Haute Performance, correspond à l’usage de supercalculateurs et de systèmes de calcul parallèle pour exécuter des processus de calculs extrêmement complexes, volumineux et à grande vitesse. Ces systèmes ont la capacité de traiter des trilliards, si ce n’est des quadrillions de calculs par seconde.

Le Calcul Haute Performance parvient ainsi à apporter des réponses d’une extrême précision à des problématiques scientifiques, d’ingénierie ou encore d’analyse de données.

Aujourd’hui, ces calculs permettent de de simuler des tests et des expériences en laboratoire qui ne puisaient pas toujours dans des procédés éthiques. C’est le cas par exemple des tests sur les animaux, autrefois largement usités dans le domaine de la cosmétologie. Le calcul intensif rend désormais ces pratiques quasiment obsolètes.

Le rôle de l’intelligence artificielle dans le HPC

Il y a encore quelques années, le HPC n’était employé que de manière sporadique par les centres de recherches, certaines industries bien spécifiques ou encore les universités. Aujourd’hui, l’utilisation du HPC s’est amplement généralisée.

On doit ce phénomène à l’intelligence artificielle qui est venue compléter et révolutionner le domaine du HPC. De manière concrète, il convient de bien insister sur un point : calcul intensif et IA sont intrinsèquement liés.

Voici quelques éléments soutenant ce postulat :

→ L’IA accélère les calculs

En effet, à l’aide d’algorithmes de dernières générations, conçus en Deep Neural Network (DNN) ou réseaux de neurones profonds, imitant le fonctionnement de ce bon vieux cerveau humain, les tâches de calculs intensifs peuvent ainsi être exécutées plus rapidement.

→ L’IA permet l’optimisation des ressources de calculs

L’intelligence artificielle est ainsi capable de prévoir la meilleure façon de distribuer les tâches de calcul sur les différents nœuds d’un supercalculateur.

→ L’IA améliore les algorithmes de simulation

Le Machine Learning, mais surtout le DNN permettent d’affiner la précision de simulations de phénomènes complexes, en ajustant les patterns en fonction des nouvelles données intégrées.

→ L’IA permet l’analyse massive de données

Le HPC génère à lui seul une quantité massive de datas. L’IA possède les ressources suffisantes pour analyser ces quantités massives d’informations.

“En réalité, le calcul haute performance n’est rien d’autre qu’une couche sous-jacente de l’intelligence artificielle. “
Renaud de Saint Albin, CEO et fondateur de Module IT

La généralisation massive du HPC dans les différents secteurs d’activité

Le calcul intensif est maintenant utilisé par la quasi-totalité des industries et des secteurs d’activité de plus en plus nombreux. Voici une liste non exhaustive de secteurs qui s’appuient sur les supercalculateurs pour diverses simulations, analyses et expérimentations, avec des exemples de cas d’usage.

  • Banque et finances : analyse de données, modélisation financière, gestion de la blockchain, etc.
  • Recherche scientifique : météorologie et notamment la simulation climatique, recherche pharmaceutique, biologie, etc.
  • Industrie automobile : simulations de crash-tests, conception de véhicules et optimisation des performances, etc.
  • Énergie : simulations de centrales électriques, recherches sur les énergies renouvelables, etc.

IA et HPC : quels impacts sur la consommation électrique des datacenters ?

L’explosion de l’alimentation et de la consommation électrique des datacenters

Relativisons toute suite la chose : l’évolution de la consommation électrique n’est pas proportionnelle à celle de l’augmentation de puissance, et heureusement ! Néanmoins, elle reste tout de même très conséquente et cela s’explique par plusieurs facteurs :

→ L’augmentation de la puissance des CPU (Central Processing Unit) unitaire :

Avec des CPU toujours plus puissants qui arrivent sur le marché, la consommation électrique est de fait plus importante pour leur permettre de fonctionner à plein régime. Cela s’explique par la nécessité de traiter une quantité plus conséquente d’opérations à la seconde, ce qui augmente en toute logique l’utilisation d’électricité à chaque cycle de calculs.

→ La déferlante des GPU (Graphic Processing Unit)

Le point fort de ces nouveaux éléments ? Leur capacité à traiter simultanément un certain nombre de tâches et d’opérations. Le revers de la médaille réside toutefois dans l’énorme consommation électrique que ces traitements parallèles engendrent.

→ La densification des infrastructures

Et notamment en termes de CPU et GPU par U ou Unité de Rack. Lors des deux dernières décennies, la puissance moyenne pour un rack de 42U bien chargé se situait entre 3 et 5kW. Les racks les plus denses affichaient quant à eux entre 10 et 12 kW.

“L’arrivée des infrastructures de calcul modifie drastiquement ces données puisqu’en moyenne, celles-ci consomment entre 1 et 3 kW par U, soit entre 40 et 120 kW par baie.”
Renaud de Saint Albin, CEO et fondateur de Module IT

Et aujourd’hui, lorsqu’il s’agit de calculateurs de taille « modeste », la densité moyenne par baie se situe entre 30 kW et 60 KW. Et par calculateurs de taille modeste, nous faisons référence aux centres de recherche régionaux, aux grandes entreprises du secteur automobile ou encore aux acteurs de la production audiovisuelle. Cela vous donne ainsi un ordre d’idée de l’énorme évolution qui a eu lieu en à peine 20 ans !

Le Tiering : un compromis à la problématique de la consommation électrique du calcul intensif ?

On le sait, la puissance désormais requise dans les baies est 5 à 10 fois supérieures à ce qui était couramment utilisé sur de l’informatique classique. En outre, une autre contrainte vient s’ajouter : celle de la haute disponibilité que ces infrastructures doivent assurer. Et c’est une condition sine qua non qu’un grand nombre de secteurs mentionnés plus haut doivent impérativement suivre.

Le recours à un Tiering différencié semble ainsi une solution opportune pour réduire (ou du moins encadrer) la consommation électrique. Il autorise ainsi, de temps à autre, une mise à l’arrêt sans conséquence des infrastructures.

Dans le monde des centres de données, le Tiering correspond au système qui classifie, évalue et certifie la fiabilité et la disponibilité d’un système. Il s’accompagne d’une structure divisée en plusieurs niveaux : du plus basique (Tier I) au plus disponible (Tier IV).

Pour les secteurs exigeant une haute disponibilité, le Tier III est le plus souvent usité (1 ou 2 heures d’interruption maximum par an). Pour d’autres domaines une journée d’interruption pourra être envisagée comme un compromis acceptable, surtout si cela permet de de générer de fortes économies (OPEX comme CAPEX).

Quelles solutions pour endiguer la problématique du refroidissement des baies de calcul intensif ?

Le refroidissement des baies de calcul, un défi de taille

Le refroidissement est sans nulle doute la chaîne technique la plus impactée par le développement des infrastructures de calculs dans les datacenters.

Dissiper la chaleur émise par ces baies est un défi majeur, nécessitant des solutions de refroidissements élaborées, mais coûtant parfois extrêmement cher. Elles peuvent être encombrantes et pas forcément très efficaces et sécurisées pour maintenir des températures souhaitables dans des limites opérationnelles.

Le refroidissement a pour tâche complexe de relever les défis suivants :

→ La densité par baie à traiter

On parle ici de la masse de puissance de calcul et donc, de la production de chaleur concentrée dans une baie de serveurs. Une densité élevée induit plus de chaleur émise dans un espace réduit, rendant ainsi le refroidissement plus complexe.

→ La somme totale de dégagement calorifique à traiter

Il s’agit là de la quantité totale de chaleur générée par tous les équipements d’un centre de données. La difficulté réside dans le fait de pouvoir dissiper efficacement la chaleur pour maintenir une bonne température opérationnelle.

→ L’optimisation des conditions environnementales

Il est question ici de pouvoir réguler la température et le flux d’air à l’intérieur du datacenter pour que le refroidissement puisse se faire tout en respectant l’équipement.

→ La nécessaire recherche de rendement…

… au travers de solutions de refroidissement qui parviennent à minimiser la consommation d’énergie tout en étant à la fois capable de dissiper convenablement la chaleur émise.

Plus le rendement de la solution de refroidissement sera important, moindre seront les coûts opérationnels du centre de données (sans compter son impact environnemental).

Les portes froides, un dispositif efficace, mais avec quelques limites

À la fin des années 2000, sont apparues sur le marché, les portes froides, actives ou passives, pour traiter les dégagements calorifiques des baies à très haute densité.

Ces dispositifs sont toujours employés aujourd’hui et sont opérants pour des densités allant jusqu’à 35 kW par baie (avec une température d’eau en entrée assez basse : 12-13°c). Il existe de nombreux constructeurs pour ces dispositifs. Citons par exemple Schroff, Atos Racks ou encore Vertiv.

La porte froide est une solution qui possède l’avantage de ne pas bouleverser l’environnement existant : la très grande majorité des calories de la baie HPC sont traitées à la source et ne viennent pas perturber le reste de l’environnement de la salle.

 

🔎 Point d’attention

Le système de refroidissement par portes froides à quelques limites :

  • Les températures d’eau en entrée restent basses, inférieures à 15°c pour apporter suffisamment de capacité de refroidissement.
  • En cas de panne sur le système, la température à l’arrière des baies monte de manière extrêmement rapide compte tenu du faible volume d’air,
  • La redondance des différents éléments de la porte est limitée (souvent conscrite aux ventilateurs), ce qui limite la disponibilité totale du système (maintenance, panne),
  • Le système est bruyant et son encombrement doit être pris en compte en cas d’installation dans un environnement restreint.

 

La DLC (Direct Liquid Cooling) à la rescousse !

Nous parlerons ici du DLC (ou Refroidissement Liquide Direct) dans le sens du refroidissement à cœur dans une baie ou un rack classique. Volontairement, nous omettrons l’immersion bac dans lequel on plonge directement les équipements IT dans un liquide de refroidissement.

Nous pensons en effet que cette dernière technique comporte un certain nombre de contraintes, malgré une efficacité théorique satisfaisante.

→ Pour en savoir plus, télécharger notre Guide Technique où nous abordons la question des méthodes de refroidissement plus en détail.

L’objectif du DLC est de récupérer les calories directement au cœur du serveur, là où elles sont dissipées. Les calories sont récupérées par des plaques placées sur les éléments émetteurs de chaleur (CPU, GPU, RAM, Alimentation, …). L’eau ou le liquide passe ainsi au travers de ses plaques pour extraire les calories. Il existe différents systèmes de DLC.

Toutefois il n’existe pas encore de standard permettant d’interchanger l’ensemble de ces systèmes. Aussi, les infrastructures de refroidissement restent encore très dépendantes des constructeurs de serveurs.

Composition et typologie d’un système de refroidissement DLC

Un système de refroidissement DLC est composé comme suit :

  • d’un système de production de froid ou d’échange de calories du site
  • d’une CDU (ou Cooling Distribution Unit) qui gère le débit, la pression et la température de l’eau ou du liquide qui viendra refroidir les serveurs à cœur.
  • d’un collecteur de la baie (aller et retour) qui distribue et récupère le liquide dans les différents équipements IT.
  • des équipements IT (serveurs) équipés pour être refroidis à cœur (cold-plates, entrée-sortie de liquide).

 

Enfin, il convient de noter qu’il existe deux types de CDU sur le marché :

1. Les CDU dit rackables (autrement dit, les unités conçues pour être installées directement dans un rack ou armoire métallique). Elles vont gérer l’alimentation et le retour du liquide pour une baie et pourront gérer jusqu’à 200kW en ne prenant que 4U dans la baie.

© COOLIT SYSTEMS 
© COOLIT SYSTEMS

 

2. Les CDU « en rangée » (c’est-à-dire celles spécialement conçues pour être placées dans les allées ou les rangées de racks d’un datacenter). Elles vont gérer plusieurs baies à la fois, jusqu’à plus d’1,5 MW avec une emprise au sol à peu près équivalente à une baie serveur (plus ou moins profonde ou large selon les constructeurs).

2024 Chilldyne, Inc.
2024 Chilldyne, Inc.

CONCLUSION

Nous avons encore beaucoup à dire sur les méthodologies de refroidissement, pour en savoir plus, restez à l’écoute de nos nouveaux contenus ou bien contactez-nous !

Il faut aussi préciser que nous évoluons dans un univers technologique qui bouge à une vitesse qu’il n’était pas encore possible de concevoir il y a quelques décennies. Ces systèmes que nous avons longuement passés en revue, deviendront-ils obsolètes d’ici 10 à 20 ans ? Avec la montée en puissance des super calculateurs quantiques qui commencent à faire parler d’eux et qui changeront clairement la donne, nous avons envie de dire, peut-être… Mais, là seul l’avenir nous le dira avec certitude !

Vous aimerez aussi