Tecnología

Latencia de memoria de GPU probada en RDNA 2 de AMD y Arquitectura Ampere de NVIDIA

Latencia de memoria de GPU probada en RDNA 2 de AMD y Arquitectura Ampere de NVIDIA
Las tarjetas gráficas se han desarrollado a lo largo de los años para que tengan jerarquías de caché de varios niveles. Estos niveles de caché se han diseñado para llenar el vacío entre la memoria y la computación, un problema creciente que paraliza el rendimiento de las GPU en muchas aplicaciones. Los diferentes proveedores de GPU, como AMD y NVIDIA, tienen diferentes tamaños de archivos de registro, cachés L1 y L2, según la arquitectura. Por ejemplo, la cantidad de caché L2 en la GPU A100 de NVIDIA es de 40 MB, que es siete veces más grande en comparación con la generación anterior V100. Eso solo muestra la cantidad de aplicaciones nuevas que requieren tamaños de caché más grandes, que son cada vez mayores para satisfacer las necesidades.

Hoy tenemos un interesante informe procedente de Chips and Cheese. El sitio web ha decidido medir la latencia de la memoria GPU de la última generación de tarjetas: RDNA 2 de AMD y Ampere de NVIDIA. Al usar pruebas simples de persecución de punteros en OpenCL, obtenemos resultados interesantes. La caché RDNA 2 es rápida y masiva. En comparación con Ampere, la latencia de la caché es mucho menor, mientras que la latencia de VRAM es aproximadamente la misma. NVIDIA utiliza un sistema de caché de dos niveles que consta de L1 y L2, que parece ser una solución bastante lenta. Los datos provenientes del SM de Ampere, que contiene la caché L1, hacia el exterior L2 están tomando más de 100 ns de latencia.

AMD, por otro lado, tiene un sistema de caché de tres niveles. Hay niveles de caché L0, L1 y L2 para complementar el diseño RDNA 2. La latencia entre L0 y L2, incluso con L1 entre ellos, es de solo 66 ns. Infinity Cache, que es esencialmente un caché L3, agrega solo 20 ns adicionales de latencia adicional, lo que lo hace aún más rápido en comparación con las soluciones de caché de NVIDIA. El dado masivo GA102 de NVIDIA parece representar un gran problema para que la caché L2 lo rodee y se toman muchos ciclos. Puede leer más sobre la prueba aquí.

Leave a Comment

You may also like