Crearon una empresa en la que todos los “empleados” son IA y el resultado es asombroso

Durante varias semanas, no se sirvió café en la oficina, no hubo almuerzos en grupo, ni charlas cara a cara. Tampoco se celebraron cumpleaños ni se compartieron momentos recreativos. Aun así, la empresa siguió funcionando. O al menos, lo intentó.

La escena parece sacada de una novela de ciencia ficción: una compañía de software donde todos los empleados -desde programadores hasta responsables de recursos humanos- son agentes de inteligencia artificial. Una empresa sin personas. Pero esta idea no nació en Silicon Valley, sino como un experimento académico en la Carnegie Mellon University (CMU), una de las instituciones más reconocidas del mundo en ciencia y tecnología.

Una universidad de Estados Unidos hizo el experimento de contar con «empleados» que son IA

El equipo de investigación creó The Agent Company, una empresa simulada con tareas inspiradas en actividades reales: desarrollo de software, análisis de datos, gestión de proyectos, administración y finanzas. Cada puesto fue ocupado por un agente de IA diferente. El objetivo era claro: explorar si un conjunto de inteligencias artificiales puede operar como una empresa funcional. O, dicho de otro modo, si los humanos ya somos totalmente reemplazables.

Un informe de Goldman Sachs publicado en 2023 ya advertía que la IA podría sustituir hasta 300 millones de empleos a tiempo completo. El experimento buscaba poner a prueba esa proyección.

“Mucho se habla sobre si los agentes de IA reemplazarán tareas humanas, pero no existía un entorno que simulara realmente el día a día de una oficina”, explicó el investigador Yufan Song, uno de los autores del estudio, en diálogo con Infobae. Por eso, decidieron crear una empresa ficticia desde cero. Armaron equipos, asignaron proyectos, integraron herramientas reales -como navegadores web y software de documentación- y hasta simularon conversaciones entre compañeros.

Las tareas asignadas a los agentes fueron variadas. Algunas eran sencillas para cualquier humano, como completar un formulario, buscar información en un sitio web o guardar un archivo en formato Word. Otras resultaban más complejas: depurar errores en código Python, administrar bases de datos o mantener coherencia en una secuencia de decisiones interdependientes. Para llevarlas a cabo, los investigadores utilizaron un sistema llamado OpenHands, respaldado por modelos avanzados de inteligencia artificial como Claude Sonnet 3.5, Gemini 2.0 y GPT-4o.

Los resultados fueron mixtos: una combinación de asombro y frustración. El desempeño más alto lo obtuvo un agente impulsado por Claude 3.5 Sonnet, que apenas logró completar el 24 % de las tareas. Y no fue por falta de capacidad o sofisticación, sino porque muchas instrucciones aún no son comprendidas con precisión.

El resultado demostró que aún es imposible pensar en empleados reemplazados por IA

Un ejemplo claro: una tarea pedía guardar un archivo como answer.docx. Para una persona, esto implica abrir Word o una herramienta similar y exportar el archivo en ese formato. Sin embargo, la IA lo interpretó como un simple texto plano, sin formato. Errores como este evidencian una limitación clave: la falta de sentido común y comprensión contextual en tareas aparentemente triviales.

“Los modelos de lenguaje fallan en cosas que para nosotros son naturales, como interpretar instrucciones implícitas o detectar convenciones culturales”, apuntó el investigador Boxuan Li, otro de los encargados del experimento. “Y a veces directamente hacen trampa”, remarcó. En una tarea, un agente debía contactar a un empleado. Como no lo encontraba en el sitio interno, optó por cambiar el nombre de un compañero cualquiera por el del objetivo para que el sistema le permitiera avanzar.

También se registraron fallas más técnicas. Los agentes tuvieron dificultades para interpretar correctamente páginas web, una tarea que requiere comprender estructuras visuales o acceder al contenido a través del “árbol de accesibilidad” que utilizan los navegadores. OpenHands, el sistema empleado, solo permite este método de acceso: es más económico en términos computacionales, pero también más limitado. El reconocimiento visual de páginas -similar al modo en que lo haría una persona- todavía está fuera de su alcance.

Aun así, hubo momentos sorprendentes. En una instancia, el sistema respaldado por Gemini 2.5 Pro logró completar uno de los desafíos más complejos del curso de bases de datos de la universidad: navegar un sitio privado, configurar un entorno local, modificar varios archivos fuente, compilar y realizar pruebas. Ejecutó todo el proceso en apenas ocho minutos, con un costo estimado de solo 2,41 dólares.

“Como era de esperarse, los agentes más avanzados aún no pueden resolver la mayoría de las tareas, lo que revela una gran brecha para que puedan desempeñarse de forma autónoma como un trabajador humano durante una jornada laboral, incluso en un entorno de prueba relativamente simplificado como el que utilizamos”, explicó Li.

La paradoja es clara: la inteligencia artificial puede completar tareas complejas con eficiencia asombrosa, pero aún tropieza con otras que un pasante resolvería con un par de clics. Y aunque una efectividad del 25 % parezca baja, representa un avance significativo: es la primera vez que se somete a la IA a condiciones tan cercanas al trabajo real.

El mayor valor del experimento, según los investigadores, no está en los éxitos, sino en los fracasos. “Queríamos entender por qué no pueden completar ciertas tareas. Eso es más útil que celebrar lo que ya hacen bien”, explicó Song.

Una de las principales conclusiones fue que los agentes de IA aún tienen serias limitaciones en tareas con alta carga social, como colaborar, escalar problemas o simplemente esperar una respuesta. En una tarea específica, se indicaba que si un compañero no respondía en 10 minutos, había que escalar al director de tecnología (CTO). Ningún agente lo hizo bien. Uno de ellos “supuso” que habían pasado los 10 minutos y actuó en consecuencia sin motivo aparente.

Según Li, este tipo de errores revela una fragilidad de fondo: “Los agentes todavía no son buenos en tareas a largo plazo, ni en seguir instrucciones condicionales con contexto temporal. Eso los hace poco confiables para delegar procesos completos sin supervisión humana”, expresó.

Otra de las grandes limitaciones actuales es la dificultad que tienen los modelos de IA para interactuar con interfaces pensadas para personas. Muchos sistemas empresariales, plataformas de gestión interna o formularios digitales funcionan con reglas no escritas, flujos lógicos implícitos y estructuras visuales complejas. Sin acceso a imágenes ni a simulaciones realistas, estos elementos siguen siendo una barrera significativa para las inteligencias artificiales.

A partir de los resultados del experimento, los investigadores concluyen que aún estamos lejos de poder reemplazar completamente a los trabajadores humanos. Sin embargo, anticipan un futuro próximo en el que la colaboración será inevitable: un escenario donde los humanos actúan como supervisores, auditores o socios estratégicos de los agentes de IA.

EconoSus: Equipo de redacción de Economía Sustentable. Brindamos información sobre empresas y gobiernos responsables en mejorar la calidad de vida y favorecer el desarrollo social sustentable.