En un fascinante avance en el ámbito de la inteligencia artificial, los investigadores de DeepSeek han presentado un nuevo modelo experimental denominado V3.2-exp. Esta innovadora herramienta ha sido diseñada con miras a reducir drásticamente los costos de inferencia durante operaciones de largo contexto, una preocupación cada vez más relevante en un mundo donde la eficiencia y la economía de recursos son de suma importancia.
Profundizando en sus características, la función más destacada del modelo es el sistema de Atención Escasa de DeepSeek. Este mecanismo, cuya complejidad se detalla en un diagrama acompañante, implementa un módulo denominado “indexador relámpago” que prioriza extractos específicos del contexto. Luego, un sistema adicional, conocido como “sistema de selección de tokens de alta precisión”, elige tokens concretos de esos fragmentos, los cuales se cargan en una ventana de atención limitada. Esta combinación permite a los modelos de Atención Escasa procesar extensas secciones de contexto con una carga de servidor significativamente menor.
El impacto de este sistema en operaciones de largo contexto es notable. Según pruebas preliminares realizadas por DeepSeek, el costo de una simple llamada a la API podría reducirse hasta en un 50% en situaciones de largo contexto. Sin embargo, se requiere una evaluación más exhaustiva para establecer un análisis más sólido. Dado que el modelo es de peso abierto y está disponible de forma gratuita en Hugging Face, es previsible que pronto se realicen pruebas independientes que validen las afirmaciones presentadas en el trabajo académico disponible en GitHub.
Este nuevo modelo de DeepSeek llega en un contexto donde la reducción de costos de inferencia se ha convertido en un tema candente en la industria. Tal como se define, los costes de inferencia se refieren a los gastos asociados con la operación de un modelo de IA pre-entrenado, diferenciándose así de los costos de capacitación. Con el objetivo de hacer la arquitectura transformadora más eficiente, los investigadores de DeepSeek han identificado áreas significativas de mejora.
Con sede en China, DeepSeek ha sido un actor singular en el auge de la inteligencia artificial, especialmente para quienes contemplan la investigación en este campo como una lucha nacional entre EE. UU. y China. A principios de este año, la empresa llamó la atención con su modelo R1, el cual fue entrenado utilizando principalmente aprendizaje reforzado a un costo muy inferior al de sus competidores estadounidenses. Sin embargo, este modelo no ha desencadenado la revolución en la capacitación de IA que algunos anticipaban, lo que ha llevado a la compañía a una menor visibilidad en meses recientes.
Aunque el enfoque de “atención escasa” puede no generar la misma conmoción que el modelo R1, podría ofrecer a los proveedores estadounidenses algunas estrategias necesarias para mantener bajos los costos de inferencia.
Gracias por leer Columna Digital, puedes seguirnos en Facebook, Twitter, Instagram o visitar nuestra página oficial. No olvides comentar sobre este articulo directamente en la parte inferior de esta página, tu comentario es muy importante para nuestra área de redacción y nuestros lectores.