Tecnología

Dojo: Tesla muestra su propio chip D1 y superordenador ExaFLOPS

Dojo: Tesla zeigt eigenen D1-Chip und ExaFLOPS-Supercomputer

Para el entrenamiento de redes neuronales artificiales, Tesla todavía usa aceleradores de Nvidia. Con el Dojo y los procesadores «D1» especialmente desarrollados, Tesla está construyendo actualmente su propia superordenador que se supone que ofrece más rendimiento con menos consumo y menos espacio. Dojo debería lograr más de 1 ExaFLOPS.

Después de la Computadora de conducción autónoma completa (FSD) en el automóvil, el hardware especialmente desarrollado también se encuentra en el centro de datos de Tesla. Nvidia está perdiendo en ambas áreas, porque a largo plazo los aceleradores de amperios serán reemplazados por sus propios procesadores Tesla. Para el entrenamiento de redes neuronales artificiales, Tesla actualmente se basa en tres clústeres que funcionan con un total de 11,544 GPU de Nvidia. Un clúster más pequeño con 1752 GPU, 5 PB de almacenamiento NVMe y adaptadores InfiniBand para conectar en red los componentes se utiliza para el etiquetado automatizado, mientras que dos clústeres más grandes, uno con 4032 GPU y 8 PB de almacenamiento NVMe y otro con 5760 GPU y 12 PB de almacenamiento NVMe, para la formación con un total de 9.792 GPU se encargan.

Estructura anterior con las GPU de Nvidia
Estructura anterior con las GPU de Nvidia (Imagen: Tesla)

El chip D1 tiene 50 mil millones de transistores

Con «Project Dojo», Tesla quiere construir su propia arquitectura de superordenador. La pieza central es el chip D1 especialmente desarrollado con 50 mil millones de transistores de producción de 7 nm en un área de 645 mm². El procesador proporciona una potencia de cálculo de 362 TFLOPS basado en BF16 y CFP8 (punto flotante configurable 8) y 22,6 TFLOPS para FP32. Tesla especifica el TDP del chip con 400 vatios.

Un D1 consta de 354 nodos de entrenamiento, cada uno de los cuales alberga una CPU superescalar de 64 bits con cuatro núcleos, que están especialmente diseñados para el 8 × 8Multiplicación de matrices y los formatos FP32, BFP16, CFP8, INT32, INT16 e INT8. Los nodos de entrenamiento tienen una estructura modular y, según Tesla, se pueden vincular en todas las direcciones a través de una «estructura de conmutación de baja latencia» con un ancho de banda en el chip de 10 TB / s. Tesla abarca un anillo de E / S alrededor del D1 con 576 carriles de 112 Gbit / s cada uno para un ancho de banda fuera del chip de 4 TB / s por lado.

Escalabilidad sin cuellos de botella

La ventaja del gran ancho de banda es el potencial de escalabilidad sin cuellos de botella. Tesla puede, por ejemplo, vincular 1.500 chips D1 y, por lo tanto, 531.000 de los nodos de entrenamiento entre sí sin restricciones. Los «procesadores de interfaz Dojo» se utilizan en dos lados de esta configuración D1, que Tesla no explicó más, pero que tienen una estructura para el D1 por un lado y PCIe Gen4 para los hosts en el centro de datos por el otro.

Baldosa de entrenamiento con un volumen de 28 litros y 9 PetaFLOPS

Sin embargo, el total de 1.500 fichas D1 no están directamente vinculadas entre sí, sino que se combinan en unidades de 5 × 5 en una denominada ficha de entrenamiento. Training Tile es también la unidad de medida que utiliza Tesla para toda la superordenador Dojo. Se combinan 25 troqueles D1 en un proceso de oblea en abanico (presumiblemente por TSMC) para formar un mosaico de entrenamiento, que a su vez tiene su propio anillo de E / S con 9 TB / s en cuatro direcciones y, por lo tanto, un ancho de banda de 36 TB / s tiene. Tesla llama a Training Tile el «módulo orgánico de múltiples chips» más grande actualmente en la industria. Para el diseño, Tesla tuvo que desarrollar herramientas completamente nuevas que no existían antes. Una loseta de entrenamiento de 25 D1 ofrece 9 PetaFLOPS BF16 o CFP8.

El enfriamiento puede disipar 15 kilovatios

La energía se suministra verticalmente a través de un módulo regulador de voltaje de desarrollo propio que se aplica directamente a la oblea en abanico. Además de la estructura electrónica con una fuente de alimentación de 52 voltios CC, Tesla también desarrolló de forma independiente toda la estructura mecánica, incluida la refrigeración. Este último debe poder disipar el calor residual de al menos 25 × 400 vatios solo para D1, pero incluyendo los demás componentes, la solución está diseñada para 15 kilovatios. El módulo terminado tiene un volumen de menos de un pie cúbico, explica Tesla, que corresponde a alrededor de 28 litros. La semana pasada, Tesla puso en funcionamiento un primer mosaico de entrenamiento funcional a una frecuencia de reloj de 2 GHz con enfriamiento limitado en una mesa de banco para finales de prueba.

El ExaPOD contiene 120 mosaicos para 1,1 ExaFLOPS de rendimiento BF16

Tesla, a su vez, combina los mosaicos de entrenamiento en bandejas de 2 × 3 mosaicos y dos de ellos en un gabinete, de modo que se dispone de más de 100 PetaFLOPS por gabinete de servidor con un ancho de banda bidireccional de 12 TB / s. El producto final es el superordenador Dojo terminado «ExaPOD» con 120 mosaicos de entrenamiento distribuidos en 10 gabinetes y con un total de 3.000 chips D1, que a su vez tienen un total de 1.062.000 nodos. Tesla proporciona la potencia informática total con 1.1 ExaFLOPS para BF16 / CFP8, por lo que el ordenador no gana la carrera mundial de exaescala, que está dirigida principalmente a aplicaciones FP32. Sin embargo, una vez completado, representará la superordenador de entrenamiento de inteligencia artificial más rápida del mundo con cuatro veces el rendimiento, un 30 % más de rendimiento por vatio y una huella cinco veces más pequeña, al mismo costo que antes con Nvidia.

3 × 2 baldosas de entrenamiento × 2 bandejas por gabinete

3 × 2 baldosas de entrenamiento × 2 bandejas por gabinete

120 fichas de entrenamiento unidas entre sí

120 fichas de entrenamiento unidas entre sí

El ExaPOD con 120 mosaicos de entrenamiento

El ExaPOD con 120 mosaicos de entrenamiento

Ventajas del ExaPOD

Ventajas del ExaPOD

Leave a Comment

You may also like

Más