En un panorama tecnológico donde la inteligencia artificial ha tomado el protagonismo, las promesas de los CEO de Big Tech sobre agentes de IA que operan de manera autónoma y realizan tareas en software son cada vez más comunes. Sin embargo, al poner en práctica dichos agentes, como el ChatGPT Agent de OpenAI o el Comet de Perplexity, se vuelve evidente que la tecnología aún enfrenta limitaciones significativas. Para potenciar estos agentes, la industria está explorando nuevas técnicas, siendo los entornos de aprendizaje por refuerzo (RL) uno de los enfoques más prometedores.
Los entornos de RL son plataformas de simulación diseñadas para entrenar agentes de IA en tareas complejas y multifacéticas. Así como los conjuntos de datos etiquetados fueron fundamentales en la era anterior de IA, los entornos de RL se perfilan como elementos cruciales para el desarrollo de agentes en la actualidad. La creciente demanda por parte de los laboratorios de IA ha dado lugar a una nueva generación de startups bien financiadas, como Mechanize Work y Prime Intellect, que buscan liderar este sector.
Jennifer Li, socia general de Andreessen Horowitz, destacó que todos los grandes laboratorios de IA están desarrollando sus propios entornos de RL, pero también están abiertos a colaborar con proveedores externos que puedan ofrecer entornos de alta calidad. Este movimiento ha llevado a las compañías de etiquetado de datos, como Mercor y Surge, a redoblar esfuerzos en el desarrollo de estos entornos, ampliando sus capacidades a medida que la industria evoluciona de conjuntos de datos estáticos a simulaciones interactivas.
El potencial financiero de este campo es significativo, incluso los líderes en laboratorios como Anthropic están considerando inversiones por encima de los 1,000 millones de dólares en entornos de RL durante el próximo año. La expectativa es que una de estas startups pueda convertirse en un referente en el desarrollo de entornos, similar a cómo Scale AI se convirtió en un titán en el ámbito del etiquetado de datos.
En esencia, los entornos de RL actúan como campos de entrenamiento donde los agentes simulan acciones que realizarían en aplicaciones de software reales, lo que permite evaluar su desempeño y otorgar recompensas por logros. A pesar de que la idea puede parecer simple, la complejidad radica en construir un entorno capaz de reflejar el comportamiento del mundo real, capturando acciones imprevistas y ofreciendo retroalimentación útil. Esta característica hace que el diseño de entornos sea especialmente complicado en comparación con los conjuntos de datos estáticos.
Mientras que algunas startups se enfocan en entornos robustos que permiten a los agentes interactuar con múltiples herramientas y aplicaciones, otros persiguen tareas específicas en software empresarial. En un contexto en el que la demanda de entornos de RL está en auge, Surge, que generó ingresos significativos del trabajo con laboratorios de IA, y Mercor, que busca oportunidades en nichos como codificación y atención médica, invierten en esta dirección.
Adicionalmente, numerosas nuevas empresas están fijando su atención exclusivamente en la creación de estos entornos. Mechanize Work, una de ellas, incluso ofrece atractivos salarios de 500,000 dólares a ingenieros de software para desarrollar entornos de RL, destacando la competencia en este espacio emergente.
Por otro lado, Prime Intellect busca democratizar el acceso a entornos de RL ofreciendo recursos a desarrolladores más pequeños, facilitando así que puedan participar en este ámbito de alto nivel. No obstante, el desafío radica en que la capacitación de agentes en entornos de RL es más costosa en términos computacionales que las técnicas tradicionales de entrenamiento de IA.
Una de las preocupaciones sobre los entornos de RL es su escalabilidad, y aunque han mostrado resultados prometedores en avances recientes, algunos expertos han expresado escepticismo sobre su viabilidad a largo plazo. El temor a la manipulación del sistema por parte de los modelos de IA —lo que se conoce como “hackeo de recompensas”— sugiere que los entornos pueden requerir ajustes significativos para funcionar adecuadamente.
El futuro de los entornos de RL y su capacidad para impulsar la evolución de la inteligencia artificial permanece en la balanza. Sin embargo, el potencial de estos sistemas para permitir que los agentes operen en simulaciones con acceso a herramientas y software es innegable y promete revolucionar el campo, siempre bajo la premisa de que se puedan superar los desafíos técnicos que aún persisten.
La información presentada está basada en datos obtenidos hasta el 16 de septiembre de 2025.
Gracias por leer Columna Digital, puedes seguirnos en Facebook, Twitter, Instagram o visitar nuestra página oficial. No olvides comentar sobre este articulo directamente en la parte inferior de esta página, tu comentario es muy importante para nuestra área de redacción y nuestros lectores.