NVIDIA l’a fait à nouveau, mais cette fois avec une touche – semblant emprunter une web page du livre de jeu de la concurrence. Lors de NVIDIA GTC, qui est devenu l’un des événements les plus importants de l’industrie de l’IA, la société a annoncé la dernière itération de son structure matérielle et de ses produits. Voici une air flow des annonces et ce qu’elles signifient pour l’écosystème dans son ensemble.
Hopper : la nouvelle structure GPU de NVIDIA
GTC, qui a commencé lundi et se poursuit jusqu’à jeudi, suggest plus de 900 classes. Plus de 200 000 développeurs, chercheurs et knowledge scientists de plus de 50 pays se sont inscrits à l’événement. A son GTC 2022 discours d’ouverturele fondateur et PDG de NVIDIA, Jensen Huang, a annoncé une foule d’informations sur les centres de données et le calcul haute efficiency, l’IA, la collaboration en matière de conception et les jumeaux numériques, les réseaux, l’car, la robotique et la santé.
Le cadrage de Huang était que « les entreprises traitent, affinent leurs données, fabriquent des logiciels d’IA… deviennent des fabricants d’intelligence ». Si l’objectif est de transformer les centres de données en «usines d’IA», comme le dit NVIDIA, alors placer les transformateurs au cœur de cela est logique.
La web page centrale des annonces a été la nouvelle structure GPU Hopper, que NVIDIA surnomme « la prochaine génération de calcul accéléré ». Nommée en l’honneur de Grace Hopper, une pionnière de l’informatique américaine, la nouvelle structure succède à l’structure NVIDIA Ampere, lancée il y a deux ans. La société a également annoncé son premier GPU basé sur Hopper, le NVIDIA H100.
NVIDIA affirme que Hopper apporte un saut de efficiency d’un ordre de grandeur par rapport à son prédécesseur, et cet exploit est basé sur six improvements révolutionnaires. Passons-les en revue, en notant rapidement remark ils se comparent à la concurrence.
Tout d’abord, la fabrication. Construit avec 80 milliards de transistors utilisant un processus TSMC 4N de pointe conçu pour les besoins de calcul accélérés de NVIDIA, H100 présente des avancées majeures pour accélérer l’IA, le HPC, la bande passante mémoire, l’interconnexion et la communication, y compris près de 5 téraoctets par seconde de connectivité externe. Au niveau de la fabrication, des parvenus tels que Cérébras ou Graphcore ont également repoussé les limites de ce qui est doable.
Le GPU NVIDIA H100, le premier à utiliser la nouvelle structure Hopper Nvidia
Deuxièmement, le GPU multi-instance (MIG). La technologie MIG permet à un seul GPU d’être partitionné en sept cases plus petites et entièrement isolées pour gérer différents sorts de travaux. L’structure Hopper étend jusqu’à 7 fois les capacités MIG par rapport à la génération précédente en offrant des configurations sécurisées multi-locataires dans des environnements cloud sur chaque occasion GPU. Run:AI, partenaire de NVIDIA, suggest quelque selected de similaire comme couche logiciellesous le nom de partage fractionné de GPU.
Troisièmement, l’informatique confidentielle. NVIDIA affirme que le H100 est le premier accélérateur au monde doté de capacités informatiques confidentielles pour protéger les modèles d’IA et les données des shoppers pendant leur traitement. Les shoppers peuvent également appliquer l’informatique confidentielle à apprentissage fédéré pour les industries sensibles à la vie privée comme les soins de santé et les providers financiers, ainsi que sur les infrastructures cloud partagées. Ce n’est pas une caractéristique que nous avons vue ailleurs.
Quatrième, NVIDIA NVLink de 4e génération. Pour accélérer les plus grands modèles d’IA, NVLink se mix avec un nouveau commutateur NVLink externe pour étendre NVLink en tant que réseau évolutif au-delà du serveur, connectant jusqu’à 256 GPU H100 à une bande passante 9 fois plus élevée que la génération précédente en utilisant NVIDIA HDR Quantum InfiniBand. Encore une fois, cela est spécifique à NVIDIA, bien que les concurrents utilisent souvent leur propre infrastructure spécialisée pour connecter également leur matériel.
Cinquièmement, les directions DPX pour accélérer la programmation dynamique. La programmation dynamique est à la fois une méthode d’optimisation mathématique et une méthode de programmation informatique, développée à l’origine dans les années 1950. En termes d’optimisation mathématique, la programmation dynamique se réfère généralement à la simplification d’une décision en la décomposant en une séquence d’étapes de décision au fil du temps. La programmation dynamique est principalement une optimisation sur la récursivité easy.
NVIDIA observe que la programmation dynamique est utilisée dans un giant éventail d’algorithmes, y compris l’optimisation des itinéraires et la génomique, et qu’elle peut accélérer l’exécution jusqu’à 40 fois par rapport aux processeurs et jusqu’à 7 fois par rapport aux GPU de la génération précédente. Nous ne connaissons pas d’équivalent direct dans la concurrence, bien que de nombreuses puces IA exploitent également le parallélisme.
La sixième innovation est celle que nous jugeons la plus importante : un nouveau moteur Transformer. Comme le observe NVIDIA, les transformateurs sont le choix de modèle customary pour le traitement du langage naturel et l’un des modèles d’apprentissage en profondeur les plus importants jamais inventés. Le Transformer Engine de l’accélérateur H100 est conçu pour accélérer ces réseaux jusqu’à 6x par rapport à la génération précédente sans perte de précision. Cela mérite une analyse plus approfondie.
Le Transformer Engine au cœur de Hopper
En regardant le titre du nouveau moteur de transformateur au cœur du H100 de NVIDIA, on nous a rappelé Remarques de l’architecte Intel Raja M. Koduri à Tiernan Ray de ZDNet. Koduri a noté que l’accélération des multiplications matricielles est désormais une mesure essentielle des performances et de l’efficacité des puces, ce qui signifie que chaque puce sera un processeur de réseau neuronal.
Koduri était sur place bien sûr. Outre les propres efforts d’Intel, c’est ce qui a conduit une nouvelle génération de conceptions de puces IA à partir d’un éventail de parvenus. Voir NVIDIA faire référence à un moteur de transformateur nous a amenés à nous demander si la société avait fait une refonte radicale de ses GPU. Les GPU n’ont pas été conçus à l’origine pour les fees de travail d’IA après tout, ils se sont avérés bons pour eux, et NVIDIA a eu la prévoyance et la perspicacité de construire un écosystème autour d’eux.
Aller plus loin dans La propre analyse de NVIDIA de l’structure Hopper, cependant, l’idée d’une refonte radicale semble être dissipée. Alors que Hopper introduit un nouveau multiprocesseur de streaming (SM) avec de nombreuses améliorations de performances et d’efficacité, c’est tout. Ce n’est pas surprenant, étant donné le poids de l’écosystème construit autour des GPU NVIDIA et les mises à jour massives et les incompatibilités potentielles qu’une refonte radicale entraînerait.
En décomposant les améliorations de Hopper, la mémoire semble en être une grande partie. En tant que chef de produit Fb pour PyTorch, la célèbre bibliothèque de formation en apprentissage automatique, dit ZDNet, « Les mannequins deviennent de plus en plus gros, ils sont vraiment très gros et très chers à former. » Les plus gros modèles de nos jours ne peuvent souvent pas être entièrement stockés dans les circuits de mémoire qui accompagnent un GPU. Hopper est livré avec une mémoire plus rapide, plus importante et partagée entre les SM.
Un autre coup de pouce vient des nouveaux cœurs de tenseur de quatrième génération de NVIDIA, qui sont jusqu’à 6 fois plus rapides puce à puce par rapport à A100. Les noyaux tensoriels sont précisément ce qui est utilisé pour les multiplications matricielles. Dans H100, un nouveau sort de données FP8 est utilisé, ce qui permet un calcul 4 fois plus rapide par rapport aux choices à virgule flottante 16 bits de la génération précédente. Sur des sorts de données équivalents, il y a toujours une accélération 2x.
Résumé de l’amélioration du calcul H100 Nvidia
En ce qui concerne le soi-disant « nouveau moteur de transformateur », il s’avère que c’est le terme que NVIDIA utilise pour désigner « une combinaison de logiciels et de technologie personnalisée NVIDIA Hopper Tensor Core conçue spécifiquement pour accélérer la formation et l’inférence du modèle de transformateur ».
NVIDIA observe que le moteur de transformateur gère intelligemment et choisit dynamiquement entre les calculs FP8 et 16 bits, gérant automatiquement la refonte et la mise à l’échelle entre FP8 et 16 bits dans chaque couche pour offrir une formation IA jusqu’à 9 fois plus rapide et une inférence IA jusqu’à 30 fois plus rapide. accélérations sur les grands modèles de langage par rapport à la génération précédente A100.
Ainsi, bien qu’il ne s’agisse pas d’une refonte radicale, la combinaison des améliorations de performances et d’efficacité se traduit par une accélération de 6 fois par rapport à Ampere, comme l’explique le weblog method de NVIDIA. L’accent mis par NVIDIA sur l’amélioration des performances des modèles de transformateurs n’est pas du tout déplacé.
Les modèles de transformateur sont l’épine dorsale des modèles de langage largement utilisés aujourd’hui, tels que BERT et GPT-3. Initialement développées pour les cas d’utilisation du traitement du langage naturel, leur polyvalence est de plus en plus appliquée à la imaginative and prescient par ordinateur, à la découverte de médicaments, and so on., comme nous l’avons documenté dans notre État de la couverture de l’IA. Selon une métrique partagée par NVIDIA, 70% des recherches publiées sur l’IA au cours des 2 dernières années sont basées sur des transformateurs.
Le côté logiciel : bonne nouvelle pour les utilisateurs d’Apache Spark
Mais qu’en est-il du côté logiciel ? Dans les annonces précédentes de GTC, les mises à jour de la pile logicielle constituaient un élément clé de l’actualité. Dans ce cas, alors que les heuristiques optimisées par NVIDIA qui choisissent dynamiquement entre les calculs FP8 et FP16 sont un élément clé du nouveau moteur de transformateur en interne, les mises à jour de la pile logicielle externe semblent moins importantes en comparaison.
Le serveur d’inférence Triton de NVIDIA et le framework NeMo Megatron pour la formation de grands modèles de langage reçoivent des mises à jour. Il en va de même pour Riva, Merlin et Maxin – un SDK d’IA vocale qui comprend des modèles pré-formés, un cadre d’IA de recommandation de bout en bout et un SDK d’amélioration de la qualité audio et vidéo, respectivement. Comme l’a souligné NVIDIA, ceux-ci sont utilisés par AT&T, Microsoft et Snapchat.
Il existe également 60 mises à jour du SDK pour les bibliothèques CUDA-X de NVIDIA. NVIDIA a choisi de mettre en évidence des domaines émergents tels que l’accélération de la simulation de circuits quantiques (disponibilité générale de cuQuantum) et la recherche sur la couche physique 6G (disponibilité générale de Sionna). Cependant, pour la plupart des utilisateurs, la bonne nouvelle est probablement dans le mise à jour dans l’accélérateur RAPIDS pour Apache Sparkqui accélère le traitement de plus de 3 fois sans modification du code.
Bien que cela n’ait pas été vraiment essential dans les annonces de NVIDIA, nous pensons que cela devrait l’être. Une accélération 3x du jour au lendemain sans modification du code pour les utilisateurs d’Apache Spark, avec 80% des Fortune 500 utilisant Apache Spark en manufacturing, n’est pas une mince affaire. Ce n’est pas la première fois NVIDIA montre aux utilisateurs d’Apache Spark un peu d’amour non plus.
Globalement, NVIDIA semble maintenir sa dynamique. Alors que la concurrence est féroce, avec le NVIDIA a réussi à créerdes refontes radicales ne sont peut-être pas vraiment nécessaires.