A un nuevo estudio se le ha dado a conocer la atención del mundo médico al examinar el desempeño de los modelos de lenguaje de gran envergadura en diversos contextos clínicos, incluidos los casos reales de salas de emergencia, donde al menos un modelo demostró una precisión superior a la de médicos humanos.
El estudio, publicado en Science, fue llevado a cabo por un equipo de investigadores de la Escuela de Medicina de Harvard y el Centro Médico Beth Israel Deaconess. La investigación incluyó una serie de experimentos que compararon la efectividad de los modelos de OpenAI con la de médicos de carne y hueso.
Uno de los experimentos se centra en 76 pacientes que llegaron a la sala de emergencias de Beth Israel. En este ensayo, se compararon los diagnósticos propuestos por dos médicos asistentes con aquellos generados por los modelos o1 y 4o de OpenAI. Estos diagnósticos fueron evaluados por otros dos médicos asistentes que no sabían cuáles eran humanos y cuáles eran producidos por la inteligencia artificial.
Los resultados mostraron que el modelo o1 superó a los médicos en precisión, especialmente en el primer punto de diagnóstico, donde la urgencia y la información limitada desempeñan un papel crucial. Este modelo acertó el diagnóstico exacto o cercano en el 67% de los casos de triage, mientras que uno de los médicos alcanzó un 55% y el otro un 50% de precisión.
Según Arjun Manrai, director de un laboratorio de inteligencia artificial en la Escuela de Medicina de Harvard y uno de los autores principales del estudio, “hemos probado el modelo de IA contra prácticamente todos los parámetros de referencia, y ha superado tanto a los modelos anteriores como a nuestros estándares de médicos”.
Sin embargo, es importante destacar que el estudio no sugiere que la inteligencia artificial esté lista para tomar decisiones críticas en una sala de emergencias. En cambio, se enfatiza la “necesidad urgente de ensayos prospectivos para evaluar estas tecnologías en entornos de atención al paciente”.
Los investigadores también señalaron que el estudio se limitó al rendimiento de los modelos con información textual, y que existen indicios de que los modelos actuales son más limitados al razonar sobre inputs no textuales.
Adam Rodman, uno de los autores del estudio y médico en Beth Israel, enfatizó que actualmente no existe un marco formal para la rendición de cuentas en torno a los diagnósticos hechos por IA. Además, los pacientes todavía desean que un humano los asesore en decisiones de vida o muerte y en situaciones de tratamiento difíciles.
Gracias por leer Columna Digital, puedes seguirnos en Facebook, Twitter, Instagram o visitar nuestra página oficial. No olvides comentar sobre este articulo directamente en la parte inferior de esta página, tu comentario es muy importante para nuestra área de redacción y nuestros lectores.
![[post_title]](https://columnadigital.com/wp-content/uploads/2026/05/Estudio-de-Harvard-IA-supera-a-medicos-en-diagnosticos-1140x570.jpg)
![[post_title]](https://columnadigital.com/wp-content/uploads/2026/05/El-Hot-Brown-Uno-de-los-mejores-sandwiches-americanos-75x75.jpg)
