El mes pasado ha visto un auge en el mercado de FPGA. En este artículo, examinaremos brevemente tres FPGA lanzados recientemente de Xilinx, Intel y Lattice Semiconductors.
Cada uno de estos dispositivos se concentra en mejorar un aspecto diferente del rendimiento: el Xilinx VU57P intenta sortear el desafío del ancho de banda de la memoria en aplicaciones exigentes. El Intel Stratix 10 NX FPGA incorpora bloques DSP optimizados para IA para ayudar a implementar grandes modelos de IA con baja latencia. Y, los FPGA Lattice Nexus intentan redefinir los FPGA de bajo consumo y factor de forma pequeño.
¿Qué nos puede decir cada uno de estos dispositivos sobre la dirección de los FPGA?
Durante la última década, el ancho de banda computacional de muchas áreas de aplicación ha aumentado exponencialmente. Por ejemplo, el número de cortes DSP que un FPGA Xilinx proporciona para una aplicación de aprendizaje automático ha aumentado de aproximadamente 2,000 cortes en el FPGA Virtex 6 más grande a aproximadamente 12,000 cortes en un dispositivo Virtex UltraScale + moderno. Se observa una tendencia similar en otras áreas de aplicación, como tecnologías de red y aplicaciones de video, como se muestra a continuación.
Los requisitos de ancho de banda de memoria. Imagen utilizada por cortesía de Xilinx
La figura anterior muestra que el ancho de banda de memoria de la tecnología DDR ha aumentado solo ligeramente en la última década, en un factor de aproximadamente 2 de DDR3 a DDR4. (Vale la pena señalar que el salto de DDR4 a DDR5 puede ser más impactante).
La brecha de ancho de banda representada en la figura significa que la tasa de transferencia de datos limitada entre el FPGA y la memoria es un cuello de botella en estas aplicaciones. Para abordar este problema, los diseñadores generalmente emplean varios chips DDR en paralelo para aumentar el ancho de banda de la memoria, no necesariamente la capacidad de la memoria. Sin embargo, este enfoque se vuelve prohibitivo en un ancho de banda de memoria superior a aproximadamente 85 GB / s debido al gran consumo de energía, el factor de forma y los problemas de costo, así como los desafíos de diseño de PCB.
Alternativamente, una solución eficiente al problema del ancho de banda de la memoria es un tipo de memoria basada en DRAM llamada memoria de alto ancho de banda (HBM para abreviar). En este caso, las tecnologías de apilamiento de silicio se utilizan para implementar la memoria DRAM y la FPGA una al lado de la otra en el mismo paquete que se muestra a continuación.
El apilamiento de silicio ayuda a implementar la memoria DRAM y la FPGA lado a lado. Imagen utilizada por cortesía de Xilinx
La tecnología HBM nos permite eliminar los rastros de PCB relativamente largos que conectan un chip DDR al FPGA. El empleo de una interfaz HBM integrada con una gran cantidad de pines conduce a un ancho de banda de memoria mejorado drásticamente con una latencia similar a la de la técnica basada en DDR.
Xilinx ha lanzado recientemente el FPGA VU57P (de la serie Virtex UltraScale +) que incorpora un HBM de 16 G con un ancho de banda de memoria de hasta 460 GB / s. El dispositivo emplea un conmutador de puerto AXI integrado que nos permite acceder a cualquier ubicación de memoria HBM desde cualquier puerto de memoria.
Además de las capacidades informáticas de bajo consumo y el gran ancho de banda de memoria mencionado anteriormente, el VU57P proporciona interfaces de alta velocidad como 100G Ethernet con RS-FEC, 150G Interlaken y PCIe Gen4. El transceptor 58G PAM4 del nuevo dispositivo admite la conectividad a los últimos estándares ópticos. Esto puede ser útil en diferentes aplicaciones, como firewalls y conmutadores y enrutadores de próxima generación con QoS.
Muchas aplicaciones convencionales de procesamiento de señal digital (DSP) necesitan aritmética de alta precisión. Es por eso que los FPGA comúnmente tienen bloques DSP con multiplicadores y sumadores de alta precisión. Por ejemplo, el XC7A50T (Xilinx) y el 5CGXC4 (Intel) tienen respectivamente 120 y 140 multiplicadores de 18 x 18.
Resulta que se puede usar un número menor de bits para implementar muchas aplicaciones de aprendizaje profundo sin sacrificar significativamente la precisión. Una aproximación de menor precisión reduce la cantidad de recursos computacionales, así como el ancho de banda de memoria requerido.
Otra ventaja de reducir el ancho de bits es el ahorro de energía tanto de los cálculos de menor precisión como del menor número de bits que deben transferirse para cada transacción de memoria. De hecho, con muchas aplicaciones de aprendizaje profundo, los cálculos INT8 o incluso de precisión más baja pueden conducir a resultados aceptables, según los investigadores de UC Davis.
Los FPGA Intel Stratix 10 NX son los primeros FPGA optimizados para IA de Intel. Estos dispositivos incorporan bloques aritméticos llamados bloques de tensor AI que contienen una densa variedad de multiplicadores de baja precisión. Las precisiones básicas para estos bloques son INT8 e INT4, aunque admiten formatos numéricos FP16 y FP12 a través de hardware de soporte de exponente compartido.
Un bloque tensor AI (empleado en un FPGA Stratix 10 NX) puede aumentar el rendimiento de INT8 en un factor de 15 en comparación con el bloque DSP de un FPGA Intel Stratix 10 estándar. El diagrama de bloques de alto nivel del bloque tensorial AI se muestra a continuación.
Diagrama de bloques del bloque tensorial AI. Imagen utilizada por cortesía de Intel
La característica más distintiva del Intel Stratix 10 NX FPGA es su alta densidad de cómputo proporcionada por los bloques de cómputo optimizados para IA. Sin embargo, el nuevo dispositivo incorpora otras dos características que ayudan aún más a los diseñadores a implementar grandes modelos de inteligencia artificial con una latencia baja: admite abundante memoria cercana al cómputo (HBM integrado) y redes de alto ancho de banda (transceptores PAM4 de hasta 57.8 G).
Lattice Semiconductor ha lanzado recientemente su familia Certus-NX FPGA que utiliza la tecnología de proceso de silicio sobre aislante totalmente empobrecido (FD-SOI) de 28 nm. El FD-SOI, que fue desarrollado originalmente por Samsung, es algo similar al proceso CMOS convencional; sin embargo, permite un sesgo programable para la mayor parte de los transistores como se ilustra conceptualmente a continuación.
La arquitectura del circuito de la plataforma Lattice Nexus. Imagen (modificada) utilizada por cortesía de Lattice Semiconductor (PDF)
Un voltaje a granel programable permite reducciones significativas en el área de chips y el consumo de energía. El consumo de energía del Certus-NX se reduce hasta cuatro veces en comparación con otros FPGA con un número similar de celdas lógicas.
Gracias a la tecnología FD-SOI empleada, el nuevo dispositivo puede adaptarse a paquetes tan pequeños como 6 mm x 6 mm y proporciona hasta dos veces más E / S por mm2 en comparación con FPGA similares. La siguiente tabla compara el Certus-NX-40 con productos similares de Intel y Xilinx.
Comparación de tres FPGA populares para diseños PCIe. Imagen utilizada por cortesía de Lattice Semiconductor (PDF)
Tenga en cuenta que el nuevo dispositivo admite AES para el cifrado masivo y la curva elíptica (ECDSA) para la autenticación. Como resultado, puede ofrecer mayor seguridad para dispositivos conectados a Internet. Además, exhibe una mayor inmunidad a los errores blandos, lo que hace que el nuevo dispositivo sea adecuado para aplicaciones aeroespaciales.
Al examinar estos FPGA recientemente lanzados por Xilinx, Intel y Lattice Semiconductors, podemos ver una visión más clara de cómo se están desarrollando los FPGA, con concentraciones en anchos de banda de memoria más altos, optimización de IA, bajo consumo de energía y pequeños factores de forma.
¿Trabajas directamente con FPGA? ¿Cómo has visto evolucionar esta tecnología a lo largo de los años? Comparte tus pensamientos en los comentarios a continuación.
Los días felices de la PDA y Blackberry han quedado definitivamente atrás, pero el factor…
Tutorial sobre cómo pronosticar usando un modelo autorregresivo en PythonFoto de Aron Visuals en UnsplashForecasting…
Si tienes un iPhone, los AirPods Pro son la opción obvia para escuchar música, ¡aunque…
Ilustración de Alex Castro / The Verge Plus nuevos rumores sobre el quinto Galaxy Fold.…
Se rumorea que los auriculares premium de próxima generación de Apple, los AirPods Max 2,…
El desarrollador Motive Studio y el editor EA han lanzado un nuevo tráiler de la…