Harness Engineering · AI Agents · 2026
Todo lo que rodea al modelo de IA, excepto el modelo mismo. La disciplina que OpenAI, Anthropic, Martin Fowler y Karpathy adoptaron en 2026. Agent = Model + Harness.
De prompt engineering a harness engineering: las 3 eras de la ingeniería de IA.
Prompt Engineering → le dices QUÉ hacer (2022-2024)
Context Engineering → le das QUÉ saber (2025)
Harness Engineering → le construyes DÓNDE trabajar (2026)
Agent = Model + Harness Era 1
Un prompt, una respuesta. "Actúa como un experto en X." El arte estaba en la instrucción.
Era 2
Llenar el context window con la información correcta: documentos, historial, definiciones de tools. Karpathy populariza el término en junio 2025.
Era 3
No es qué le dices ni qué le das. Es DÓNDE lo haces trabajar: restricciones, permisos, infraestructura, protocolos, observabilidad.
Todos convergieron sin coordinarse. Caminos distintos, misma conclusión.
Noviembre 2025 · Anthropic
"Effective Harnesses for Long-Running Agents." Agente inicializador + agente de código + claude-progress.txt. El modelo es el mismo — lo que cambia es lo que lo rodea.
5 de febrero 2026 · Mitchell Hashimoto
Cofundador de HashiCorp, creador de Terraform. Acuña el término "harness engineering" y lo implementa con AGENTS.md — cada línea viene de un error real del agente.
11 de febrero 2026 · OpenAI
7 ingenieros, 1 millón de líneas de código, cero escritas por humanos. El trabajo del ingeniero ya no era escribir código — era diseñar el harness.
Abril 2026 · Martin Fowler
Taxonomía formal: Guides y Sensors, cada uno computacional o inferencial. Cuando Fowler lo ordena, la industria lo adopta. Pasó con Refactoring, pasó con Microservices.
Abril 2026 · Andrej Karpathy
Sequoia AI Ascent. Declara el vibe coding muerto. El reemplazo: agentic engineering, donde el 99% del tiempo no escribes código — orquestas agentes.
No hay una lista oficial cerrada. Cada fuente lo organiza distinto, pero las tres se complementan.
Visión 1
| Fowler | Tipo | Lo que nosotros ya teníamos |
|---|---|---|
| Guide | Computacional | Agent Skills: catálogo de tools define qué puede hacer ANTES de que razone |
| Guide | Computacional | CLAUDE.md: reglas que el agente lee antes de arrancar |
| Sensor | Computacional | validate.sh: rechaza skills mal formadas después de construirlas |
| Sensor | Inferencial | El Reviewer de Agent Teams: un LLM que revisa el trabajo de otro LLM |
Visión 2
| Hashimoto | Lo que nosotros ya teníamos |
|---|---|
| AGENTS.md con reglas de errores | CLAUDE.md: cada línea viene de un error real del agente |
| Tools programados para verificación | validate.sh, publish.sh, health checks con curl |
| Filosofía reactiva: error → regla | Exit conditions: "el reviewer máximo 2 rondas" — nació de agentes que no paraban |
Visión 3
| OpenAI | Lo que nosotros ya teníamos |
|---|---|
| Documentación estructurada | agent.json: tarjeta A2A con skills, descripción y tags |
| Restricciones arquitectónicas | Tool restriction: si la función no existe, no puede ejecutarla |
| Linters custom | validate.sh: verifica frontmatter y límites de caracteres |
| Testing y validación | "Borra todos los DNS" → rechazado. Test de seguridad en vivo |
| Observabilidad | tmux con 7 paneles de logs en tiempo real |
| Feedback loops | AI Studio 503 → migración a Vertex AI con 3 variables |
78 momentos de harness engineering identificados en nuestros videos — antes de que el término existiera.
Limitar lo que el agente puede hacer ANTES de que actúe. Tool restriction, permisos IAM, secrets en Secret Manager.
Visiones: Guides (Fowler) + Constraints (OpenAI)
Observar DESPUÉS de que el agente actúa. Rechazo de operaciones peligrosas, prompt injection que falla, validate.sh.
Visiones: Sensors (Fowler) + Tools (Hashimoto) + Testing (OpenAI)
Archivos que definen cómo se comporta el sistema. CLAUDE.md como contrato, agent.json como tarjeta de descubrimiento.
Visiones: AGENTS.md (Hashimoto) + Docs (OpenAI)
Si no puedes ver qué hace el agente, no tienes harness. 7 terminales con logs en tiempo real.
Visiones: Sensors (Fowler) + Observability (OpenAI)
Cuando algo falla, el harness se adapta — no el modelo. AI Studio 503 → Vertex AI con 3 variables, sin rebuild.
Visiones: Steering Loop (Fowler) + Error→Regla (Hashimoto) + Feedback Loops (OpenAI)
Agentes como servicios independientes en Cloud Run. Cada uno escala a cero. El contexto viaja como JSON en mensajes HTTP — sin filesystem compartido.
Nuestro: un nivel que la literatura actual todavía no cubre
| Patrón | Momentos |
|---|---|
| Restricciones | 27 |
| Verificación | 18 |
| Documentación | 19 |
| Observabilidad | 5 |
| Iteración reactiva | 5 |
| Infra + contexto distribuido | 4 |
| Total | 78 |
El dato que lo cambia todo
Agente D0: tenían 16 tools especializadas y las reemplazaron por un filesystem con YAMLs y grep. Menos herramientas, harness más simple, mejor resultado. Esto ya no es opinión — es un dato.
100%
Success rate (antes 80%)
3.5x
Más rápido
-40%
Menos tokens
Qué hacer mañana con esto, según dónde estés.
Nivel 1 — Harness mínimo
Si estás empezando con agentes.
Tools acotadas
Define qué puede hacer tu agente. Si no necesita borrar, no le des la función de borrar.
CLAUDE.md o AGENTS.md
Cada vez que el agente falle, agrega una regla. Hashimoto hace exactamente esto.
Secrets fuera del código
Secret Manager, variables de entorno encriptadas. Nunca en el código ni en el Dockerfile.
Nivel 2 — Harness productivo
Si ya tienes agentes funcionando.
Permisos por rol
Service accounts específicos. Principio de menor privilegio. Tu agente no debería tener más acceso del que necesita.
Observabilidad
Logs, health checks. Si no puedes ver qué hace el agente, no tienes harness.
Feedback loops
¿Qué pasa cuando falla? ¿Se queda pegado o tiene plan B? El switch de AI Studio a Vertex AI con 3 variables es un feedback loop.
Nivel 3 — Harness multi-agente
Si quieres escalar.
Protocolo de descubrimiento
Agent cards, agent.json. Los agentes necesitan saber quién sabe hacer qué sin conocer los detalles internos.
Contexto por mensajes, no por filesystem
En producción distribuida, el estado viaja en HTTP. No en archivos compartidos.
Exit conditions
Sin ellas, los agentes gastan tokens para siempre.
Cada agente se protege solito
Seguridad por diseño, no por esperanza. No dependas de un prompt — depende de la arquitectura.
Las fuentes primarias citadas en el video.
Anthropic · Noviembre 2025
El patrón original: agente inicializador + agente de código + claude-progress.txt. El harness que rodea al modelo.
Mitchell Hashimoto · 5 de febrero 2026
Cofundador de HashiCorp y creador de Terraform. Acuña el término "harness engineering" y lo implementa con AGENTS.md.
OpenAI · 11 de febrero 2026
7 ingenieros, 1 millón de líneas de código, cero escritas por humanos. 6 prácticas de producción para agentes.
Martin Fowler · Abril 2026
Taxonomía formal: Guides (guías) y Sensors (sensores), cada uno computacional o inferencial. "Todo lo que rodea al modelo, excepto el modelo mismo."
Vercel · Diciembre 2025
Agente D0: de 16 tools a filesystem con YAMLs. Success rate de 80% a 100%, 3.5x más rápido, 40% menos tokens.
Andrej Karpathy · Abril 2026
Declara el vibe coding muerto. "Puedes externalizar el pensamiento, pero no puedes externalizar la comprensión."
Cada video del canal es una pieza del harness. Estos son los que aparecen en los clips.
El patrón de 40 años: agentes que ejecutan habilidades acotadas y se descubren entre sí.
7 agentes que construyen un IDP completo comunicándose vía artefactos A2A.
7 agentes construyen una fábrica de skills. CLAUDE.md como contrato del sistema.
7 contenedores independientes, escala a cero, contexto distribuido por HTTP.
Permisos por rol: mismo prompt, resultados distintos según quién lo pida.
Auto-memory y auto-dream: el harness que evoluciona la documentación automáticamente.
Lo esencial sobre harness engineering.
Es la disciplina de diseñar todo lo que rodea al modelo de IA, excepto el modelo mismo: restricciones, permisos, infraestructura, protocolos, observabilidad. La fórmula es Agent = Model + Harness. El término fue acuñado por Mitchell Hashimoto (creador de Terraform) en febrero de 2026.
Prompt Engineering (2022-2024): le dices al modelo QUÉ hacer. Context Engineering (2025): le das al modelo QUÉ saber — documentos, historial, definiciones de tools. Harness Engineering (2026): le construyes DÓNDE trabajar — restricciones, permisos, infraestructura, feedback loops.
Mitchell Hashimoto, cofundador de HashiCorp y creador de Terraform, lo publicó el 5 de febrero de 2026. Anthropic ya había descrito el patrón en noviembre 2025. OpenAI lo adoptó 6 días después de Hashimoto. Martin Fowler lo formalizó en una taxonomía en abril 2026.
El modelo importa, pero dejó de ser el diferenciador. Puedes usar Gemini, Claude o GPT — si el harness está bien diseñado, funciona con cualquiera. Vercel lo demostró: removieron el 80% de las tools de su agente D0, y el success rate subió de 80% a 100%.
Fowler: Guides (guías antes de actuar) y Sensors (sensores después de actuar), cada uno computacional o inferencial. Hashimoto: documentación reactiva (AGENTS.md) y tools programados. OpenAI: 6 prácticas de producción — docs estructurados, restricciones arquitectónicas, linters custom, testing, observabilidad y feedback loops.
Concepto de Martin Fowler: qué tan controlable es tu sistema para los agentes. No todo sistema es igual de fácil de controlar. Por eso se usan Cloud Run, APIs, agent cards, IAM, schemas y mensajes HTTP — para hacer el sistema más controlable.
Nivel 1 (mínimo): tools acotadas, un archivo CLAUDE.md/AGENTS.md con reglas de errores, y secrets fuera del código. Nivel 2 (productivo): permisos por rol, observabilidad y feedback loops. Nivel 3 (multi-agente): protocolo de descubrimiento, contexto por mensajes HTTP y exit conditions.
Comunidad
Restricciones, permisos, observabilidad y feedback loops aplicados a agentes en producción — los 5 patrones con repos reales para practicar. Acceso gratis a la comunidad; los cursos completos van en el tier Premium.
Únete a Agentic Engineers →Canal YouTube
@NicolasNeiraGarcia
ADK · A2A · Claude Code · Automatización · Infraestructura