Harness Engineering · AI Agents · 2026

Harness Engineering: por qué Claude, GPT y Gemini ya no importan

Todo lo que rodea al modelo de IA, excepto el modelo mismo. La disciplina que OpenAI, Anthropic, Martin Fowler y Karpathy adoptaron en 2026. Agent = Model + Harness.

Ver en YouTube

La fórmula

De prompt engineering a harness engineering: las 3 eras de la ingeniería de IA.

Prompt Engineering  → le dices QUÉ hacer       (2022-2024)
Context Engineering → le das QUÉ saber          (2025)
Harness Engineering → le construyes DÓNDE trabajar (2026)

Agent = Model + Harness

Era 1

Prompt Engineering

Un prompt, una respuesta. "Actúa como un experto en X." El arte estaba en la instrucción.

Era 2

Context Engineering

Llenar el context window con la información correcta: documentos, historial, definiciones de tools. Karpathy populariza el término en junio 2025.

Era 3

Harness Engineering

No es qué le dices ni qué le das. Es DÓNDE lo haces trabajar: restricciones, permisos, infraestructura, protocolos, observabilidad.

La historia

Todos convergieron sin coordinarse. Caminos distintos, misma conclusión.

1

Noviembre 2025 · Anthropic

"Effective Harnesses for Long-Running Agents." Agente inicializador + agente de código + claude-progress.txt. El modelo es el mismo — lo que cambia es lo que lo rodea.

2

5 de febrero 2026 · Mitchell Hashimoto

Cofundador de HashiCorp, creador de Terraform. Acuña el término "harness engineering" y lo implementa con AGENTS.md — cada línea viene de un error real del agente.

3

11 de febrero 2026 · OpenAI

7 ingenieros, 1 millón de líneas de código, cero escritas por humanos. El trabajo del ingeniero ya no era escribir código — era diseñar el harness.

4

Abril 2026 · Martin Fowler

Taxonomía formal: Guides y Sensors, cada uno computacional o inferencial. Cuando Fowler lo ordena, la industria lo adopta. Pasó con Refactoring, pasó con Microservices.

5

Abril 2026 · Andrej Karpathy

Sequoia AI Ascent. Declara el vibe coding muerto. El reemplazo: agentic engineering, donde el 99% del tiempo no escribes código — orquestas agentes.

Las 3 visiones del harness

No hay una lista oficial cerrada. Cada fuente lo organiza distinto, pero las tres se complementan.

Visión 1

Martin Fowler — Guides y Sensors

Fowler	Tipo	Lo que nosotros ya teníamos
Guide	Computacional	Agent Skills: catálogo de tools define qué puede hacer ANTES de que razone
Guide	Computacional	CLAUDE.md: reglas que el agente lee antes de arrancar
Sensor	Computacional	validate.sh: rechaza skills mal formadas después de construirlas
Sensor	Inferencial	El Reviewer de Agent Teams: un LLM que revisa el trabajo de otro LLM

Visión 2

Mitchell Hashimoto — Documentación y Tools

Hashimoto	Lo que nosotros ya teníamos
AGENTS.md con reglas de errores	CLAUDE.md: cada línea viene de un error real del agente
Tools programados para verificación	validate.sh, publish.sh, health checks con curl
Filosofía reactiva: error → regla	Exit conditions: "el reviewer máximo 2 rondas" — nació de agentes que no paraban

Visión 3

OpenAI — 6 prácticas de producción

OpenAI	Lo que nosotros ya teníamos
Documentación estructurada	agent.json: tarjeta A2A con skills, descripción y tags
Restricciones arquitectónicas	Tool restriction: si la función no existe, no puede ejecutarla
Linters custom	validate.sh: verifica frontmatter y límites de caracteres
Testing y validación	"Borra todos los DNS" → rechazado. Test de seguridad en vivo
Observabilidad	tmux con 7 paneles de logs en tiempo real
Feedback loops	AI Studio 503 → migración a Vertex AI con 3 variables

Los 5 patrones del harness

78 momentos de harness engineering identificados en nuestros videos — antes de que el término existiera.

1

Restricciones

27 momentos

Limitar lo que el agente puede hacer ANTES de que actúe. Tool restriction, permisos IAM, secrets en Secret Manager.

Visiones: Guides (Fowler) + Constraints (OpenAI)

2

Verificación

18 momentos

Observar DESPUÉS de que el agente actúa. Rechazo de operaciones peligrosas, prompt injection que falla, validate.sh.

Visiones: Sensors (Fowler) + Tools (Hashimoto) + Testing (OpenAI)

3

Documentación

19 momentos

Archivos que definen cómo se comporta el sistema. CLAUDE.md como contrato, agent.json como tarjeta de descubrimiento.

Visiones: AGENTS.md (Hashimoto) + Docs (OpenAI)

4

Observabilidad

5 momentos

Si no puedes ver qué hace el agente, no tienes harness. 7 terminales con logs en tiempo real.

Visiones: Sensors (Fowler) + Observability (OpenAI)

5

Iteración reactiva

5 momentos

Cuando algo falla, el harness se adapta — no el modelo. AI Studio 503 → Vertex AI con 3 variables, sin rebuild.

Visiones: Steering Loop (Fowler) + Error→Regla (Hashimoto) + Feedback Loops (OpenAI)

+

Infra + contexto distribuido

4 momentos

Agentes como servicios independientes en Cloud Run. Cada uno escala a cero. El contexto viaja como JSON en mensajes HTTP — sin filesystem compartido.

Nuestro: un nivel que la literatura actual todavía no cubre

Patrón	Momentos
Restricciones	27
Verificación	18
Documentación	19
Observabilidad	5
Iteración reactiva	5
Infra + contexto distribuido	4
Total	78

El dato que lo cambia todo

Vercel removió el 80% de las tools de su agente

Agente D0: tenían 16 tools especializadas y las reemplazaron por un filesystem con YAMLs y grep. Menos herramientas, harness más simple, mejor resultado. Esto ya no es opinión — es un dato.

100%

Success rate (antes 80%)

3.5x

Más rápido

-40%

Menos tokens

Guía práctica: 3 niveles de harness

Qué hacer mañana con esto, según dónde estés.

Nivel 1 — Harness mínimo

Si estás empezando con agentes.

1

Tools acotadas

Define qué puede hacer tu agente. Si no necesita borrar, no le des la función de borrar.

2

CLAUDE.md o AGENTS.md

Cada vez que el agente falle, agrega una regla. Hashimoto hace exactamente esto.

3

Secrets fuera del código

Secret Manager, variables de entorno encriptadas. Nunca en el código ni en el Dockerfile.

Nivel 2 — Harness productivo

Si ya tienes agentes funcionando.

4

Permisos por rol

Service accounts específicos. Principio de menor privilegio. Tu agente no debería tener más acceso del que necesita.

5

Observabilidad

Logs, health checks. Si no puedes ver qué hace el agente, no tienes harness.

6

Feedback loops

¿Qué pasa cuando falla? ¿Se queda pegado o tiene plan B? El switch de AI Studio a Vertex AI con 3 variables es un feedback loop.

Nivel 3 — Harness multi-agente

Si quieres escalar.

7

Protocolo de descubrimiento

Agent cards, agent.json. Los agentes necesitan saber quién sabe hacer qué sin conocer los detalles internos.

8

Contexto por mensajes, no por filesystem

En producción distribuida, el estado viaja en HTTP. No en archivos compartidos.

9

Exit conditions

Sin ellas, los agentes gastan tokens para siempre.

10

Cada agente se protege solito

Seguridad por diseño, no por esperanza. No dependas de un prompt — depende de la arquitectura.

Fuentes

Las fuentes primarias citadas en el video.

Anthropic · Noviembre 2025

Effective Harnesses for Long-Running Agents

El patrón original: agente inicializador + agente de código + claude-progress.txt. El harness que rodea al modelo.

Mitchell Hashimoto · 5 de febrero 2026

My AI Adoption Journey

Cofundador de HashiCorp y creador de Terraform. Acuña el término "harness engineering" y lo implementa con AGENTS.md.

OpenAI · 11 de febrero 2026

Harness Engineering

7 ingenieros, 1 millón de líneas de código, cero escritas por humanos. 6 prácticas de producción para agentes.

Martin Fowler · Abril 2026

Harness Engineering

Taxonomía formal: Guides (guías) y Sensors (sensores), cada uno computacional o inferencial. "Todo lo que rodea al modelo, excepto el modelo mismo."

Vercel · Diciembre 2025

We removed 80% of our agent's tools

Agente D0: de 16 tools a filesystem con YAMLs. Success rate de 80% a 100%, 3.5x más rápido, 40% menos tokens.

Andrej Karpathy · Abril 2026

Sequoia AI Ascent 2026

Declara el vibe coding muerto. "Puedes externalizar el pensamiento, pero no puedes externalizar la comprensión."

Videos relacionados

Cada video del canal es una pieza del harness. Estos son los que aparecen en los clips.

Agent Skills

El patrón de 40 años: agentes que ejecutan habilidades acotadas y se descubren entre sí.

Google ADK + A2A

7 agentes que construyen un IDP completo comunicándose vía artefactos A2A.

Claude Agent Teams

7 agentes construyen una fábrica de skills. CLAUDE.md como contrato del sistema.

ADK en Cloud Run

7 contenedores independientes, escala a cero, contexto distribuido por HTTP.

Workspace Profiling

Permisos por rol: mismo prompt, resultados distintos según quién lo pida.

Claude Code Memory 2.0

Auto-memory y auto-dream: el harness que evoluciona la documentación automáticamente.

Preguntas frecuentes

Lo esencial sobre harness engineering.

¿Qué es Harness Engineering?

+

Es la disciplina de diseñar todo lo que rodea al modelo de IA, excepto el modelo mismo: restricciones, permisos, infraestructura, protocolos, observabilidad. La fórmula es Agent = Model + Harness. El término fue acuñado por Mitchell Hashimoto (creador de Terraform) en febrero de 2026.

¿Cuál es la diferencia entre Prompt Engineering, Context Engineering y Harness Engineering?

+

Prompt Engineering (2022-2024): le dices al modelo QUÉ hacer. Context Engineering (2025): le das al modelo QUÉ saber — documentos, historial, definiciones de tools. Harness Engineering (2026): le construyes DÓNDE trabajar — restricciones, permisos, infraestructura, feedback loops.

¿Quién inventó el término Harness Engineering?

+

Mitchell Hashimoto, cofundador de HashiCorp y creador de Terraform, lo publicó el 5 de febrero de 2026. Anthropic ya había descrito el patrón en noviembre 2025. OpenAI lo adoptó 6 días después de Hashimoto. Martin Fowler lo formalizó en una taxonomía en abril 2026.

¿El modelo de IA ya no importa?

+

El modelo importa, pero dejó de ser el diferenciador. Puedes usar Gemini, Claude o GPT — si el harness está bien diseñado, funciona con cualquiera. Vercel lo demostró: removieron el 80% de las tools de su agente D0, y el success rate subió de 80% a 100%.

¿Cuáles son las 3 visiones del harness?

+

Fowler: Guides (guías antes de actuar) y Sensors (sensores después de actuar), cada uno computacional o inferencial. Hashimoto: documentación reactiva (AGENTS.md) y tools programados. OpenAI: 6 prácticas de producción — docs estructurados, restricciones arquitectónicas, linters custom, testing, observabilidad y feedback loops.

¿Qué es harnessability?

+

Concepto de Martin Fowler: qué tan controlable es tu sistema para los agentes. No todo sistema es igual de fácil de controlar. Por eso se usan Cloud Run, APIs, agent cards, IAM, schemas y mensajes HTTP — para hacer el sistema más controlable.

¿Por dónde empiezo a implementar harness engineering?

+

Nivel 1 (mínimo): tools acotadas, un archivo CLAUDE.md/AGENTS.md con reglas de errores, y secrets fuera del código. Nivel 2 (productivo): permisos por rol, observabilidad y feedback loops. Nivel 3 (multi-agente): protocolo de descubrimiento, contexto por mensajes HTTP y exit conditions.

Comunidad

Diseña tu propio harness en Agentic Engineers

Restricciones, permisos, observabilidad y feedback loops aplicados a agentes en producción — los 5 patrones con repos reales para practicar. Acceso gratis a la comunidad; los cursos completos van en el tier Premium.

Únete a Agentic Engineers →

Canal YouTube

@NicolasNeiraGarcia

ADK · A2A · Claude Code · Automatización · Infraestructura

Suscribirse ›