Tecnología

El doble de ROP, gran caché L2 y un 50 % más de unidades FP32 que amperios, tensor de 4.ª generación y núcleos RT de 3.ª generación

Se han revelado detalles sobre la GPU NVIDIA Ada Lovelace Gaming que impulsará las tarjetas gráficas de la serie GeForce RTX 40. La nueva información proviene Kopte7kimi & habla sobre el diagrama de bloques de la arquitectura nextgen.

Diagrama de bloques de NVIDIA GeForce Ada Lovelace GPU SM detallado: ¡más grande y mejor que nunca para los jugadores!

La arquitectura de la GPU NVIDIA Ada Lovelace ya no es un misterio. Hemos aprendido las configuraciones específicas que impulsarán los SKU de la serie AD10 * nextgen para las tarjetas gráficas de la serie GeForce RTX 40 y también hemos visto especificaciones filtradas de la línea. Ahora es el momento de hablar únicamente sobre el chip gráfico nextgen.

NVIDIA GeForce RTX 4090 obtiene 24 GB de memoria GDDR6X a 21 Gbps y 600 W TDP, RTX 4070 obtiene 12 GB de memoria GDDR6 a 18 Gbps y 300 W TDP

NVIDIA AD102 ‘Ada Lovelace’ Gaming GPU ‘SM’ Diagrama de bloques (Créditos de imagen: Kopite7kimi):

Diagrama de bloques de NVIDIA GA102 ‘Ampere’ Gaming GPU ‘SM’:

Comenzando con la configuración de la GPU, Kopite7kimi compara la GPU AD102 superior con otras GPU del equipo verde. Estos incluyen Ampere GA102 y Turing TU102 enfocados en juegos, mientras que también se agregaron a la lista Hopper GH100 y Ampere GA100 enfocados en HPC. Solo compararé el AD102 con sus predecesores de juegos, ya que los diseños centrados en HPC son muy diferentes de las ofertas centradas en el consumidor.

Actualización de precios de GPU de NVIDIA y AMD para mayo de 2022: las tarjetas gráficas GeForce ahora tienen un 14 % por encima del MSRP, Radeon solo un 6 % por encima del MSRP

La GPU NVIDIA Ada Lovelace AD102 contará con hasta 12 GPC (clusters de procesamiento de gráficos). Este es un aumento del 70 % en comparación con GA102, que cuenta con solo 7 GPC. Cada GPU constará de 6 TPC y 2 SM, que es la misma configuración que el chip existente. Cada SM (multiprocesador de streaming) albergará cuatro subnúcleos, que también es lo mismo que la GPU GA102. Lo que ha cambiado es la configuración central de FP32 y INT32. Cada subnúcleo incluirá 128 unidades FP32, pero las unidades FP32+INT32 combinadas llegarán a 192. Esto se debe a que las unidades FP32 no comparten el mismo subnúcleo que las unidades IN32. Los 128 núcleos FP32 están separados de los 64 núcleos INT32.

Entonces, en total, cada subnúcleo constará de 128 FP32 más 64 unidades INT32 para un total de 192 unidades. Cada SM tendrá un total de 512 unidades FP32 más 256 unidades INT32 para un total de 768 unidades. Y dado que hay un total de 24 unidades SM (2 por GPC), estamos viendo 12,288 unidades FP32 y 6,144 unidades INT32 para un total de 18,432 núcleos. Cada SM también incluirá dos programas de envoltura (32 subprocesos/CLK) para 64 envolturas por SM. Este es un aumento del 50 % en los núcleos (FP32+INT32) y un aumento del 33 % en Wraps/Threads frente a la GPU GA102.

Especificaciones de GPU NVIDIA Ada Lovelace ‘Preliminares’:

nombre de la GPU AD102 GA102 TU102 GA100 GH100
GPC 12 (por GPU) 1.7x 2x 1.5x 1.5x
TPC 6 (a través de GPC) semilla semilla 0.75x 0.67x
SM 2 (por TPC) semilla semilla semilla semilla
núcleo secundario 4 (a través de SMS) semilla semilla semilla semilla
FP32 128 (a través de SMS) semilla 2x 2x semilla
FP32+INT32 192 (a través de SMS) 1.5x 1.5x 1.5x semilla
deformaciones 64 (a través de SMS) 1.33x 2x semilla semilla
hilos 2048 (a través de SMS) 1.33x 2x semilla semilla
caché L1 192 KB (por SM) 1.5x 2x semilla 0.75x
caché L2 96 MB (por GPU) 16x 16x 2.4x 1,6x
ROP 32 (a través de GPC) 2x 2x 2x 2x

Pasando al caché, este es otro segmento en el que NVIDIA ha dado un gran impulso a las GPU Ampere existentes. Las GPU Ada Lovelace incluirán 192 KB de caché L1 por SM, un aumento del 50 % con respecto a Ampere. Eso es un total de 4,5 MB de caché L1 en la GPU AD102 superior. El caché L2 se incrementará a 96 MB como se menciona en las filtraciones. Este es un aumento de 16 veces con respecto a la GPU Ampere que aloja solo 6 MB de caché L2. El caché se compartirá en la GPU.

Finalmente, tenemos los ROP que también aumentan a 32 por GPC, un aumento de 2x sobre Ampere. Está viendo hasta 384 ROP en el buque insignia nextgen en comparación con solo 112 en la GPU Ampere más rápida, la RTX 3090 Ti. También habrá los últimos núcleos Tensor de cuarta generación y RT (Raytracing) de tercera generación infundidos en el GPU Ada Lovelace que ayudarán a impulsar el rendimiento de DLSS y Raytracing al siguiente nivel. En general, la GPU Ada Lovelace AD102 ofrecerá:

  • 2x GPC (frente a amperios)
  • 50 % más de núcleos (frente a amperios)
  • 50 % más de caché L1 (frente a amperios)
  • 16 veces más caché L2 (frente a amperios)
  • Duplicar los ROP (frente a amperios)
  • Tensor de cuarta generación y núcleos RT de tercera generación

Tenga en cuenta que las velocidades de reloj, que se dice que están entre el rango de 2-3 GHz, no se tienen en cuenta en la ecuación, por lo que también desempeñarán un papel importante en la mejora del rendimiento por núcleo en comparación con Ampere. Se espera que las tarjetas gráficas de la serie NVIDIA GeForce RTX 40 con las GPU gamer Ada Lovelace nextgen se lancen en la segunda mitad de 2022 y se dice que utilizan el mismo nodo de proceso TSMC 4N que la GPU Hopper H100.

GPU NVIDIA CUDA (RUMOR) Preliminar:

GPU TU102 GA102 AD102
SKU insignia RTX 2080 Ti RTX 3090 Ti RTX 4090?
Arquitectura turing amperio ada lovelace
Proceso NFF de 12nm de TSMC Samsung 8nm ¿TSMC 4N?
El tamaño 754 mm2 628 mm2 ~600mm2
Clústeres de procesamiento de gráficos (GPC) 6 7 12
Clústeres de procesamiento de texturas (TPC) 36 42 72
Multiprocesadores de streaming (SM) 72 84 144
Núcleos CUDA 4608 10752 18432
caché L2 6MB 6MB 96MB
TFLOP teóricos 16 TFLOP 40 TFLOP ~90 TFLOP?
Tipo de memoria GDDR6 GDDR6X GDDR6X
Capacidad de memoria 11GB (2080 Ti) 24GB (3090 Ti) 24 GB (¿4090?)
velocidad de la memoria 14 Gbps 21 Gb/s 24 Gbps?
ancho de banda de memoria 616 GB/s 1008 GB/s 1152 GB/s?
bus de memoria 384 bits 384 bits 384 bits
interfaz PCIe PCIe Gen 3.0 PCIe Gen 4.0 PCIe Gen 4.0
TGP 250W 350W 600W?
liberación Sep 2018 20 de septiembre 2H 2022 (por confirmar)

Leave a Comment

You may also like

Más