Publié le 31/08/2020
IBM a profité du Symposium Hot Chip 32 (16-18 août 2020) pour présenter l’architecture technique de son futur processeur : le POWER10.
Destinée à remplacer l’actuel processeur POWER9, la puce POWER10 devrait faire son apparition aux alentours du 3ème ou du 4ème trimestre 2021, quatre ans après son prédécesseur (décembre 2017).
Histoire des processeurs POWER
Cet article a pour but de résumer les principales annonces récemment présentées par IBM sur le futur POWER10.
Pour information le terme POWER signifie Performance Optimization With Enhanced RISC.
Revenons d’abord aux sources car nous en sommes bientôt au POWER10, mais avant cela il y a eu de nombreuses générations de processeur POWER.
Voici une infographie résumant les différentes générations qui se sont succédées depuis 1990.
Il y a même eu des versions intermédiaires entre les différentes générations, qui ne figurent pas sur cette infographie, comme les POWER4+ (2003), POWER5+ (2005), POWER6+ (2008) et POWER7+ (2012).
- 1990 : POWER1
- 1993 : POWER2
- 1998 : POWER3
- 2001 : POWER4
- 2003 : POWER4+
- 2004 : POWER5
- 2005 : POWER5+
- 2007 : POWER6
- 2008 : POWER6+
- 2010 : POWER7
- 2012 : POWER7+
- 2014 : POWER8
- 2017 : POWER9
- 2021 : POWER10
Les chiffres importants
Un processeur est une architecture extrêmement complexe, nous n’allons pas entrer dans les détails techniques pointus, mais l’examen de certains chiffres permet de mieux en évaluer les caractéristiques élémentaires.
La taille du processeur POWER10 est légèrement inférieure à celle du POWER9 (602 mm2 contre 695 mm2) alors pourtant que le nombre de transistors a plus que doublé.
En effet, le POWER10 est pourvu de 18 … milliards de transistors contre 8 milliards à son prédécesseur. Pour cela, le processus de lithographie employé par IBM permet d’utiliser des transistors de 7 nm alors que ceux du POWER9 font 14 nm. En divisant par deux la taille des transistors, cela a permis de doubler leur nombre sur une puce de même taille.
L’infographie suivante montre l’évolution du nombre de transistors par processeur lors des 20 dernières années, depuis le POWER4 (2001), qui disposait de 174 millions de transistors seulement. Il y a donc 100 fois plus de transistors sur le POWER10 que sur le POWER4.
Pour intégrer autant de transistors sur une puce sans en augmenter la surface, il n’y qu’une seule solution : réduire la taille des transistors.
Infographie récapitulative de l’évolution de la taille des transistors sur les processeurs POWER depuis les 20 dernières années.
Comparaison des principales caractéristiques entre les générations des processeurs POWER depuis les 20 dernières années.
- Socket processor : carte sur laquelle le ou les chips processor sont connectés, elle contient également les slots mémoire. C’est elle qui sera connectée sur la carte mère. Il existe des sockets processor SCM (Single-Chip Module) ou DCM (Dual-Chip Module).
- Chip processor : c’est le processeur en lui-même. Ce dernier étant connecté sur le Socket processor seul (SCM) ou avec un second chip (DCM).
- Core (cœur) : il s’agit de l’entité d’exécution physique d’un chip processor, de nos jours les chips processor sont multicores. Sur le POWER10, il y a 15 ou 30 cores par chip processor. Le core est souvent appelé, à tort, le processeur car c’est lui qui est activé et lié aux licences IBM.
- Thread : il s’agit d’unités d’exécution logiques disponibles sur chaque core. Il peut y en avoir jusqu’à 8 par core, c’est ce que l’on nomme le niveau de SMT (SMT1, SMT2, SMT4 et SMT8).
Fabrication des processeurs POWER
Depuis 2014, avec la cession de ses usines de semiconducteurs, IBM avait confié la production des processeurs POWER et z (Mainframe) à la société GlobalFoundries. Tous les processeurs POWER8 et POWER9 ont été fabriqués à Malta, dans l’état de New-York dans l’ancienne fonderie IBM, désormais propriété d’un groupe californien, second producteur indépendant au monde de semiconducteurs.
Les procédés de gravure des transistors sont extrêmement coûteux, le passage vers une nouvelle technologie permettant de produire des transistors de plus en plus petits nécessite de très gros investissements. GlobalFoundries ne souhaitant pas les réaliser, IBM a donc annoncé, il y a quelques mois, qu’il se tournait désormais vers un nouveau partenaire pour la production des futurs processeurs POWER et z (Mainframe).
Il s’agit du leader mondial des semiconducteurs, le groupe sud-coréen Samsung Semiconductors.
C’est donc ce dernier qui va produire les futures puces POWER10 d’IBM dans son usine V1-Line de Hwaseong (50 Km au sud-ouest de Séoul), dédiée à la production de semiconducteurs de 7 nanomètres et moins.
Samsung utilisera le processus de lithographie EUV (Extreme UltraViolet) pour produire des processeurs avec des transistors de 7 nm.
Principales caractéristiques techniques du POWER10
Single-Chip Module et Dual-Chip Module
Abordons désormais les principales caractéristiques techniques annoncées.
Les rumeurs indiquaient que le nombre de cores par chip serait doublé par rapport au POWER9, on s’attendait donc à avoir 24 cores en mode SMT8 et 48 cores en mode SMT4 puisque le POWER9 dispose de 12 cores SMT8 ou 24 cores SMT4.
Et bien non, l’architecture du POWER10 sera totalement différente ! Il y aura bien, un plus grand nombre de core que sur le POWER9, mais pas dans les proportions attendues ou du moins avec l’architecture classique. Mais surtout, IBM a prévu un design réintroduisant les chips DCM (Dual-Chip Module).
La technologie DCM, présente sur les générations de processeur POWER5, POWER6, POWER7 et POWER8, avait été abandonnée sur le POWER9. Elle fera son retour sur le POWER10.
Le principe du DCM est de coupler deux chips sur un même socket afin d’augmenter le nombre de core par socket. Le POWER9 est uniquement disponible en SCM (Single-Chip Module), le POWER10 sera proposé dans les deux formats (SCM et DCM).
Un socket est une carte permettant de connecter le processeur (chip) sur la carte mère d’un serveur. Le DCM supportera des fréquences un peu moins élevées (3,5+ GHz) que celles du SCM (4+ GHz), en raison du dégagement de chaleur plus important qu’il produit par l’agrégation des deux cores.
Notons que le DCM embarquera 36 milliards de transistors !
Il est probable que les modules DCM ne soient proposés que pour les environnements de type supercalculateur ou Intelligence Artificielle, donc pour Linux. Les environnements AIX et IBM i, quant à eux ne devraient être commercialisés qu’avec des sockets SCM.
Ainsi, la puce POWER10 disposera donc de 15 cores par socket sur le module SCM et de 30 cores par socket sur le DCM en mode SMT8. Mais IBM pourra également fournir ses puces avec des cores plus petits en mode SMT4, et cela permettra d’avoir des chips à 30 cores par socket SCM et à 60 cores par socket DCM. Le principe est de diviser chaque core en deux afin d’augmenter les unités d’exécution. Voir notre article de janvier 2020 pour comprendre le principe de fonctionnement.
Cela permet de disposer de plus d’unités d’exécution donc d’une plus grande capacité de parallélisation, mais elles sont un peu moins performantes que les unités classiques puisqu’elles disposent de la moitié des ressources initiales.
Chip POWER10
Regardons de plus près un chip SCM POWER10. On constate que cette puce dispose non pas de 15 cores, mais de 16 !
Pourquoi IBM nous annonce que le POWER10 est constitué de 15 cores alors que le design en montre clairement 16 ?
L’explication est liée au process de lithographie des processeurs POWER10, et plus précisément à l’extrême difficulté pour atteindre une telle finesse de gravure. IBM et Samsung Semiconductors sont très prudents quant aux risques possibles qui pourraient survenir lors de la fabrication des premières séries de processeur, ils ont estimé que l’un des 16 cores pourrait être défectueux, et c’est la raison pour laquelle le POWER10 n’a été annoncé qu’avec 15 cores.
Il est possible qu’au bout de quelques mois, le processus de lithographie s’améliorant, IBM annonce des chips à 16 cores.
La puce POWER10 SCM (Single-Chip Module) pourra donc exécuter jusqu’à 120 threads simultanés (15 cores de 8 threads en SMT8 ou 30 cores de 4 threads en SMT4). Et mieux encore, elle pourra même atteindre … 240 threads simultanés sur les modules DCM (Dual-Chip Module).
Quelques détails du POWER10 :
- 2 MiB de cache par dédié core en mode 15-core SMT8
- 2 MiB de cache partagé par core en mode 30-core SMT4
- 120 MiB de cache L3 divisés en deux hémisphères de 64 MiB (8 MiB réservés au futur 16ème core ?)
- 3 fois plus efficient en énergie que le POWER9
- Open Memory Interface (OMI)
- Interface PowerAXON
- Interfaces PCIe Gen5
- …
Principales fonctions
Les processeurs POWER ne sont pas utilisés que pour les environnements de gestion IBM i ou AIX, ils sont également utilisés dans le cadre des projets d’Intelligence Artificielle (IA) ou dans les projets de Supercalculateurs.
Les processeurs POWER6 et POWER7 ont été utilisés dans de nombreux supercalculateurs, mais depuis le POWER8 et la création de la Fondation OpenPower, regroupant des centaines d’acteurs du monde informatique (IBM, Google, Inspur, Hitachi, RedHat …), le design des processeurs POWER doit également répondre aux exigences et aux attentes de ces différentes entreprises.
Le challenge des processeurs POWER est d’être performants dans différents types d’activités :
- Intelligence Artificielle (IA)
- Supercalculateurs
- informatique de gestion (IBM i et AIX)
Les principales fonctions annoncées par IBM sont :
- Bande passante et capacité de traitement
- Interfaces Open Memory (OMI)
- Interfaces PowerAXON
- Capacités mémoire en Petabyte
- Memory Clustering (mémoire distribuée et partagée)
- Interfaces PCIe Gen5
- Puissance du processeur
- Nouvelle architecture optimisée
- Flexibilité
- Taille des caches
- Réduction des latences
- Sécurité
- Hardware activé et co-optimisé avec l’Hyperviseur PowerVM
- Efficience énergétique
- 3 X plus efficient que le POWER9
- Optimisation pour l’Intelligence Artificielle
- Performances mathématiques et matricielles 10 à 20 fois meilleures par socket que sur le POWER9
Les performances estimées du POWER10 sont :
- +30% de performance par core par rapport au POWER9
- +20% de performance par thread unique par rapport au POWER9
- 3 fois plus efficient par socket par rapport au POWER9
- 2,6 fois plus efficient par core par rapport au POWER9
Il ne nous reste plus qu’à patienter 12 à 16 mois pour voir arriver les premiers serveurs à base de processeur POWER10 (second semestre 2021 pour les High-End et début 2022 pour les Scale-Out) !