El cambio de paradigma: De selectores a comprensión semántica
Durante años, el RPA tradicional como Power Automate Desktop (PAD) ha sido el rey indiscutible de la automatización de interfaces de usuario (UI). El modelo era sencillo pero rígido: el bot navega por la interfaz buscando selectores específicos, IDs de elementos HTML o coordenadas exactas en la pantalla. Funciona a la perfección, hasta que un desarrollador web cambia un atributo de clase o una actualización del sistema operativo mueve un botón dos píxeles a la izquierda, rompiendo el flujo por completo.
Con la disponibilidad general de los computer-using agents en Microsoft Copilot Studio, entramos en una era totalmente distinta. Estos agentes no leen el código subyacente de la interfaz buscando un "div" específico; en su lugar, utilizan modelos de visión e inteligencia artificial multimodal para ver e interpretar la pantalla del mismo modo que lo haría un humano. Si el botón de "Guardar" cambia de forma, color, posición o incluso de idioma, el agente sigue sabiendo que debe interactuar con él porque entiende el concepto semántico de la acción.
Resiliencia vs. Precisión: El nuevo dilema del diseño
La adopción de agentes de IA para interactuar con sistemas de escritorio introduce un debate fundamental en el diseño de arquitecturas de automatización:
- RPA Tradicional (PAD): Es puramente determinista. Si se instruye al bot para que haga clic en un campo y escriba un valor, lo hará con una precisión del 100% y una velocidad extrema (siempre que el entorno permanezca estático). Su mayor debilidad es su fragilidad ante entornos dinámicos, pero su mayor fortaleza es la absoluta ausencia de "alucinaciones" o decisiones fuera de programa.
- Agentes Cognitivos (Copilot): Son de naturaleza probabilística. Destacan por su extrema resiliencia. Si una página web o aplicación Legacy sufre un rediseño completo, el agente se adaptará al vuelo. Sin embargo, al depender de la inferencia de un modelo fundacional (LLM/LVM), existe un margen de variabilidad; el agente podría interpretar mal un elemento de UI ambiguo o tomar una ruta ligeramente menos eficiente para lograr su objetivo.
Gestión de Infraestructura: Profundizando en los Cloud PC Pools
Uno de los mayores retos históricos del RPA tradicional ha sido la gestión de la infraestructura subyacente (VDI). Mantener granjas de máquinas virtuales actualizadas, parcheadas y listas para ejecutar automatizaciones desatendidas suponía una carga operativa enorme y constantes cuellos de botella en la concurrencia.
Con los computer-using agents, Microsoft introduce una solución mucho más elegante: los Cloud PC pools, impulsados por Windows 365 for Agents. ¿Cómo funciona exactamente esta gestión de máquinas?
- Modelo de Check-out/Check-in: A diferencia de las VMs tradicionales que esperan ociosas hasta que un script las invoca, los agentes utilizan un sistema de préstamo dinámico. Cuando se desencadena una tarea, el orquestador "saca" (check-out) un Cloud PC disponible del pool, el agente toma el control para ejecutar la automatización visual y, al terminar, "devuelve" (check-in) la máquina al pool. Esto maximiza la eficiencia de los recursos y evita la saturación.
- Gobernanza Nativa: Estos Cloud PCs se provisionan y gestionan directamente desde el Centro de Administración de Power Platform o Copilot Studio. Al estar unidos de forma nativa a Microsoft Entra e inscritos en Microsoft Intune, heredan de inmediato todas las políticas de seguridad corporativas, acceso condicional y cumplimiento normativo. Para el departamento de TI, gestionar un bot es como gestionar un portátil de un empleado estándar.
- Aprovisionamiento Siempre Disponible (Always-Available): Para procesos críticos o sensibles a la latencia donde el agente debe reaccionar al instante (sin esperar el encendido o provisionamiento "en frío" de la máquina), Microsoft permite configurar Cloud PCs en estado "always-available", manteniendo la sesión lista para recibir comandos.
El Doble Modelo de Costes: Infraestructura + Cognición
Para calcular el Retorno de Inversión (ROI), los Arquitectos de Soluciones ahora deben contemplar un modelo de costes radicalmente distinto al clásico licenciamiento de bot desatendido de PAD. El coste se divide en dos grandes pilares: el coste del raciocinio (IA) y el coste del hierro (Infraestructura).
1. Costes Cognitivos (Copilot Studio Credits)
Toda la "inteligencia", visión multimodal y capacidad de decisión del agente se factura mediante Copilot Credits. Aquí pagamos por el esfuerzo cognitivo de cada paso:
- Una acción del agente en el entorno (por ejemplo, analizar la pantalla para encontrar un icono y hacer clic) consume aproximadamente 5 créditos.
- Si el agente se desencadena de forma totalmente autónoma (sin que un usuario humano se lo pida en un chat), el disparo de ese "Autonomous Trigger" tiene un coste de 25 créditos.
Estos créditos se pueden adquirir mediante paquetes de capacidad (Capacity Packs de 25,000 créditos por unos 200$/mes) o en formato Pay-As-You-Go (Pago por Uso) facturado en Azure a razón de unos 0.01$ por crédito. Nota importante: Aunque los usuarios tengan la licencia de usuario de Microsoft 365 Copilot, las ejecuciones de estos agentes autónomos consumen siempre los créditos a nivel de tenant.
2. Costes de Infraestructura (Windows 365 for Agents)
El "alquiler" de la máquina virtual donde el agente mueve realmente el cursor se factura aparte, bajo un modelo de consumo puro:
- Pago por uso horario (PAYG): Se factura (actualmente en torno a $0.40/hora de ejecución) únicamente por el tiempo real que el agente mantiene la máquina en estado de check-out, redondeado en intervalos horarios.
- Fee de Disponibilidad: Si optamos por habilitar Cloud PCs "Always-Available" (para evitar la latencia de encendido), se añade una tarifa plana mensual muy reducida (aprox. $5/mes por máquina) para mantener la infraestructura "caliente", a lo que se sumarán luego las horas reales de ejecución.
Comparativa y Casos de Uso: ¿Cuándo compensa?
Este doble modelo de consumo (tokens cognitivos + horas de servidor) cambia las reglas del juego. Veamos cuándo compensa desplegar agentes frente al RPA tradicional:
Escenario A: Procesamiento masivo de alto volumen
Imaginemos que necesitamos extraer datos estructurados de 10,000 facturas diarias y migrarlas a un ERP Legacy como AS/400. En este escenario, Power Automate Desktop sigue siendo la opción más rentable y rápida. Pagar 5 créditos por cada clic y tecleo de 10,000 facturas, más el coste por hora de la infraestructura, escalaría el coste de forma injustificada. Un flujo de PAD determinista no requiere "pensar" cada movimiento, se ejecuta en milisegundos y tiene un coste de licenciamiento fijo por máquina.
Escenario B: Navegación no estructurada, dinámica y ambigua
Imagina un proceso semanal de inteligencia de mercado que requiere entrar en docenas de portales de proveedores y extraer información de cuadros de mando. Las webs de los proveedores cambian constantemente, muestran avisos de cookies aleatorios y tienen diseños impredecibles. Aquí, los computer-using agents justifican cada céntimo de crédito y hora de Cloud PC. El gasto en consumo se amortiza inmediatamente por el gigantesco ahorro en mantenimiento: un equipo RPA tradicional tendría que refactorizar los selectores HTML rotos semana tras semana. El agente, simplemente, lee la pantalla y se adapta.
¿El fin del RPA tradicional?
No, bajo ningún concepto. Lo que estamos presenciando es su evolución natural hacia un modelo de orquestación simbiótica. En la arquitectura moderna de la Power Platform, veremos a los agentes de Copilot Studio actuar como los "cerebros" directivos: tomarán decisiones cognitivas, superarán ambigüedades visuales y pagarán el "peaje" de los créditos cognitivos solo cuando el entorno no esté estructurado. Simultáneamente, estos agentes invocarán y delegarán las tareas masivas, predecibles y de alto rendimiento a los flujos secundarios de PAD (los "músculos"), que ejecutarán el trabajo pesado a velocidad de máquina y coste fijo. Esta combinación ofrece lo mejor de ambos mundos: la resiliencia de la IA y la rentabilidad mecánica del RPA.
Fuentes y Enlaces de Referencia
- Blog de Microsoft Copilot Studio (Anuncio Oficial): Computer-using agents are now generally available
- Documentación Técnica (Microsoft Learn): Arquitectura y gestión de Windows 365 for Agents
- Licenciamiento: Precios de Copilot Studio y consumo de Copilot Credits
Aún no hay comentarios. ¡Sé el primero en comentar!