AMD Zen 2 en EPYC 2 Rome 7 nanómetros

Chiplets AMD EPYC2 7 nm 64 cores 128 threads

AMD lanzará al mercado en 2019 la nueva microarquitectura Zen 2 y los nuevos AMD EPYC 2 Rome fabricados en  7 nanómetros para servers con 64 cores y 128 threads. Ayer, en el evento Next Horizon dió a conocer sus nuevas tecnologías, datos que voy a  analizar en este artículo.

Durante 2019 AMD también desplegará los cores Zen 2 en todos los segmentos del mercado:

  • Ryzen 2 con cores Zen 2 de 7 nm para sobremesa con hasta 16 cores y 32 threads y 16 MB de caché L3.
  • APUs Ryzen 2 con cores Zen 2 de 7 nm con 8 cores y 16 threads con 8 MB L3 para portátiles con GPUs Vega también de 7 nm.

Los nuevos AMD EPYC 2 Rome 7 nm

Simplemente brutal. Los nuevos procesadores EPYC 2 merecen sin duda este calificativo, nada más y nada menos que 64 cores físicos con SMT para 128 threads de procesamiento simultáneo por socket… Increíble, formados por 9 chips (!!) y disponibles ya en 2019.

Y AMD EPYC 2 Rome no solo proporciona cambios a nivel de número de cores o su nueva tecnología de fabricación TSMC de 7 nanómetros. Además evoluciona hacia buses PCIe 4.0 (con doble ancho de banda que los actuales PCIe 3.0) y será compatible con el actual socket SP3 / LGA 4094.

AMD EPYC2 7 nm 64 cores 128 threads

AMD EPYC2 7 nm 64 cores 128 threadsEPYC 2 será la primera CPU x86 en integrar buses PCIe 4.0 que doblan en velocidad a los que actualmente integran Intel y AMD en sus CPUs.

La arquitectura del procesador AMD EPYC 2 Rome apuesta por una renovación total en su implementación general y rompe con el esquema de diseño del procesador EPYC de primera generación.

Procesador AMD EPYC 14 nm formado por 4 dies Zeppelin
Primera generación: Procesador AMD EPYC 14 nm formado por 4 dies Zeppelin

El actual AMD EPYC 14 nm (32 cores, 64 threads) es un procesador formado por 4 dies Zeppelin 14 nm (2 CCX de 4 cores: 8 cores, 16 threads y 2 cachés L3 de 8 MB).

Para un análisis detallado recomiendo mi artículo sobre AMD Ryzen.

Los mismos dies utilizados en las CPU AMD Ryzen 8c / 16T, comunicados en EPYC entre sí mediante enlaces bidireccionales Infinity Fabric:

AMD EPYC Infinity Fabric links
Primera generación: AMD EPYC 14 nm con los links Infinity Fabric

EPYC 2 mantiene el octa channel DDR4 pero esta vez con frecuencias de trabajo aumentadas. Posiblemente a DDR4 3200 o superior.

AMD EPYC 2 Rome: Diseño integrado vs. distribuido

AMD EPYC 2 Rome 7 nm cambia a  un diseño integrado de 8 controladoras DDR4 en el IO Chip rompiendo con el diseño  distribuido de 2 controladoras DDR4 en cada die Zeppelin en EPYC 14 nm para un idéntico total de 8 canales.

El IO chip de 14 nm de AMD EPYC 2 Rome

La pieza angular del diseño del EPYC2 reside en el enorme IO chip (Input – output) fabricado en 14 nm que domina el espacio central del procesador y que integra todas las interfaces de interconexión del procesador:

  • 8 controladoras DDR4.
  • 128 vías PCIe 4.0.
  • 8 enlaces bidireccionales Infinity Fabric para conexión de los 8 Chiplets de computación (Compute Chips) de 7 nm.
  • Los enlaces Infinity Fabric para interconexión con el segundo socket (4 u 8).
Chiplets AMD EPYC2 7 nm 64 cores 128 threads
Chiplets AMD EPYC2 7 nm 64 cores 128 threads

A este IO chip se conectan con enlaces Infinity Fabric los 8 dies (Chiplets) de 7 nm compuestos de:

  • 8 cores (16 threads SMT) Zen 2 con cachés Loi, L1i, L1d y L2 unificada 512 KB
  • La caché L3 (de 16 MB / 16 way muy probablemente)
  • La circuitería de interconexión Infinity Fabric con el IO Chip

El IO Chip de 14 nm es una incógnita. Mi intuición me dice que hay algo más ahí… Abogo por quizás un probe filter o una caché L4.

Su gran superficie está alimentando rumores diversos. Es tan desmesurado su tamaño que se especula incluso con la integración de memoria eDRAM…

La microarquitectura AMD Zen 2

Los procesadores AMD EPYC 2 Rome integran en 8 Chiplets formados cada uno por 8 cores Zen 2 de 7 nanómetros  derivados de los actuales cores Zen 14 nm y Zen+ 12 nm.

Estos aportan varias mejoras, algunas muy importantes, respecto a los actuales cores Zen y Zen+. Los cambios conocidos a fecha de hoy comprenden:

  • Doble ancho de banda de 256 bit en las unidades load/store.
  • La caché L1i (instrucciones) se doblará en BW para dar servicio a las instrucciones AVX2 de 256 bit.
  • Veremos si se toca la asociatividad o su tamaño físico.
  • La caché L0i, también llamada OpCache, se amplía desde los 2 KB actuales probablemente a 4 KB y se dobla su ancho de banda a 256 bit.
  • Mejoran los algoritmos de prefetch a L1 y L2.
  • Se itera en el subsistema de branch prediction mediante redes neuronales mejorando la tasa de aciertos y el fetching de instrucciones.
  • Retoques leves en la caché L2, no creo que cambien los 512 KB actuales, quizás se reduzca la latencia.
  • La caché L3 probablemente sea común para los 8 cores de cada uno de los chiplets de 7 nm y su tamaño será de 16 o 32 MB. 16 MB sería suficiente y posiblemente el sweet spot. Asociatividad 16 vías, 32 en el caso de 32 MB.
  • Aumenta el ancho de banda de dispatch / retire del core.
  • En la FPU se amplían las unidades de proceso FMUL / FADD / FMA en la parte vectorizada a unidades AVX2 nativas de 256 bit con datapaths también de 256 bit.

AMD Zen 2 aporta mejoras muy importantes en el terreno IPC, cifrados en una mejora de un 15% en enteros y de un 100% en cargas vectorizadas AVX2.

Intel 10 nm. Retrasos y cancelaciones

Intel con su línea Xeon Scalable, a dia de hoy, no tiene una respuesta válida a EPYC2  Rome 7 nm para 2019 y tampoco contra las CPUs Ryzen 2 que llegarán por esas fechas.

A lo largo de 2019 Intel no va a poder hacer frente a las nuevas proposiciones de AMD en el segmento Server. Un auténtico hito no visto desde la época de los AMD Opteron Athlon 64 en el ya lejano año 2004.

Intel ambicionó llegar a los 100 MT/mm² (millones de transistores por mm²) y ese objetivo le está dando muchos problemas que reducen el número de chips válidos que salen de sus líneas de fabricación de 10 nm (yields muy reducidos).

El proceso de 10 nm de Intel, muy ambicioso en su diseño, lleva años de retrasos y cancelaciones. Veremos finalmente qué proceso (si es el original de 10 nm u uno con reglas más relajadas) llega a productos comerciales.

Intel 10 scaling
Intel 10 scaling

Y digo esto por lo siguiente:

Dadas las insalvables dificultades para mejorar los yields en 10 nanómetros y hacer de este proceso algo viable comercialmente, parece que está relajando varias de sus métricas.

Por ello es posible que el proceso que veremos plasmado en productos no sea aquel de los célebres 100 MT/mm².

Según AMD y TSMC el proceso de fabricación TSMC de 7 nanómetros tiene mejor relación performance / watt que el futuro Intel de 10 nm:

El proceso TSMC 7 nm vs Intel 10 nm
El proceso TSMC 7 nm vs Intel 10 nm

Siendo realista, espero procesadores Intel de 10 nm en masa para finales de 2019 o inicios de 2020. Sin duda, en ese momento Intel tendrá excelentes CPUs en todos los segmentos y será altamente competitiva.

Conclusiones server AMD EPYC 2 Rome

EPYC 2 Rome, unificando toda la interconexión en el IO Chip aportará una gran simplicidad de cara al manejo de memoria. Cada procesador EPYC2 Rome será un único NUMA Node.

Se reducirá radicalmente el tráfico de coherencia en entornos server y con ello mejorará importantemente la escalabilidad de los sistemas. Todos los chiplets tendrán acceso a todos los canales DDR4 y  las latencias serán idénticas entre los 64 cores.

Todos los grandes proveedores Cloud integrarán procesadores AMD EPYC 2 basados en cores Zen 2 a lo largo de 2019. Una victoria estratégica de AMD que aspira a ganar cuota de mercado en todos los sectores a Intel.

La competencia será muy beneficiosa para el mercado, el consumidor y el avance de la tecnología y microarquitectura de procesadores. Sin duda.

Desde la llegada de AMD Ryzen Intel se ha visto obligado a  reducir precios y se ha decidido por fin a lanzar CPUs de mayor número de cores para los mercados mainstream desktop, portaátiles y también en la gama alta HEDT con los Skylake-X de hasta 18 cores (por ahora).

Autor: Carlos Yus Valero

Apasionado de la tecnología, el mundo de las IT y la física teórica. Mi profesión gira en torno a la administración de sistemas y el hardware hace 18 años.

6 opiniones en “AMD Zen 2 en EPYC 2 Rome 7 nanómetros”

  1. Intel ya ha «movido ficha» y renueva su arquitectura Core introduciendo «Sunny Cove». Según el diagrama a bloques que presentaron veo que la mejora principal es pasar de 8 a 10 puertos de ejecución, pero los nuevos puertos adicionales únicamente refuerzan las capacidades de manejo de datos (Load/Store).

    1. Han agregado un puerto #9 «paralelo» al puerto #4 apuntando a la misma unidad de Store.
    2. Han agregado el Puerto #8 para una AGU dedicada a «Store».

    Mis preguntas son:

    1. ¿Qué tanta mejora podría representar la adición de estos nuevos puertos dedicados a Load/Store?

    Veo que en SkyLake P2, P3 y P7 apuntan todas a la misma unidad de Store… Pero que tan común es que todos esos puertos tengan instrucciones listas para enviar a esa unidad al mismo tiempo?

    2. ¿Realmente eso representaba un cuello de botella?

    Y bueno, ya para finalizar…

    Veo que los puertos dedicados a operaciones Int, FP, SIMD (P0, P1, P5 y P6) han sido re-organizados y ahora cada uno puede resolver más tipos de instrucciones.

    3. ¿Qué porcentaje de mejora de IPC esperas que se logre con la re-organización de esos 4 puertos?

    Seguramente han modificado el FrontEnd y al menos colocado más entradas en la RS (scheduler) para «alimentar mejor a esos puertos «vitaminados»

    Saludos !!
    Jesús Yáñez S.

    1. Hola Jesús,
      Es pura especulación, pero no resultaría exagerado hablar de un 10 – 15 % de mejora de Intel Sunny Cove 10 nm respecto a Intel Skylake 14 nm en cargas normales de enteros. Ten en cuenta que Intel no lleva al mercado una nueva arquitectura desde 2015 (!!).
      En algoritmos como RAR, 7z, etc. que hacen un uso extremo del ancho de banda y latencia de memoria lo lógico es que entre las grandes mejoras del core en este sentido y su soporte para DRAM a mayor frecuencia, Sunny Cove sea claramente más rápido que Skylake, quizás un 20 – 25% clock for clock.
      Ten en cuenta que todos los buffers del procesador han sido muy aumentados según Intel y se ha trabajado mucho en el Branch Prediction.
      Veremos. Será muy interesante ver esta nueva micro arquitectura e acción a finales de 2019 y ten en cuenta que las mejoras en prestaciones son muy dependientes de cada carga de trabajo.
      Saludos.
      Blog|informaticapremium – Carlos Yus Valero.

      1. Muchas gracias por la respuesta y por darte el tiempo de llevar tu blog (y el anterior) !

        Ojalá algún día nos hables más sobre del predictor de ramificación de Zen, recién he comprado mi primer Ryzen de sobremesa y en verdad me ha sorprendido bastante.

        Saludos

        1. Sin duda Jesús, AMD ha vuelto a la lucha en el mundo x86: en sistemas sobremesa como en portátiles con Ryzen y servidores con AMD EPYC.
          El salto prestacional respecto a los antiguos AMD Bulldozer y derivados es brutal y literalmente cogió a Intel totalmente desprevenido.
          Lo que queda por saber es qué nos depara la arquitectura Zen en su tercera iteración, fabricada en 7 nm, a nivel de IPC, optimizaciones en el motor de procesamiento OoO (Out of Order) y el refinamiento de los algoritmos de Branch Prediction.
          Conocido es que aumentará el número de cores por CPU, en escritorio hasta un máximo de 12 o 16 según como AMD vea el mercado, es decir, la competencia de intel. En server, AMD EPYC se va a los 64 cores y 128 threads por socket (por chip).
          Un saludo,
          Carlos Yus Valero.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.