Berdasarkan: AI Harness Engineering Interview Preparation Handbook (2026 Edition)
Disusun dalam Bahasa Indonesia
Fokus: Runtime, Guardrails, MCP, Evals, Observability, dan Production Practices

Daftar Isi

Apa Itu AI Harness Engineering?
Tujuh Lapisan Harness untuk Production AI Agents
Dari Prompt Engineering ke Harness Engineering
Instruction Engineering untuk AI Agents
Tool Calling dan MCP (Model Context Protocol)
Memory, State, dan Retrieval untuk AI Agents
Sandboxing dan Execution Environment
Evaluasi, Observability, dan Reliability AI Agents
Guardrails, Safety, dan Governance
Penutup & Ringkasan

1. Apa Itu AI Harness Engineering?

Di tahun 2026, percakapan tentang AI Agents sudah bergeser. Bukan lagi hanya tentang seberapa pintar modelnya, tetapi tentang seberapa baik kita membungkus model tersebut agar bisa diandalkan di production.

Definisi AI Harness Engineering

AI Harness Engineering adalah disiplin ilmu untuk merancang, membangun, dan mengoperasikan lapisan runtime dan control yang membungkus language model, sehingga output-nya bisa dipercaya, diaudit, dan dikomposisikan menjadi software production.

Singkatnya:
Model adalah otaknya. Harness adalah segala sesuatu yang membuat otak itu bisa bekerja dengan aman dan berguna di dunia nyata.

Agent = Model + Harness

Persamaan paling penting dalam bidang ini:

Agent = Model + Harness

Model bersifat komoditas (bisa diganti dengan mudah).
Harness adalah capital yang kamu bangun sendiri dan menjadi pembeda utama.

Dua perusahaan yang menggunakan model yang sama bisa menghasilkan produk yang sangat berbeda, tergantung seberapa baik harness yang mereka miliki.

Mengapa Model yang Lebih Pintar Tidak Cukup?

Banyak orang berpikir: “Kalau modelnya sudah sangat pintar, harness tidak terlalu penting.” Pengalaman production membuktikan sebaliknya.

Model yang lebih pintar tidak secara otomatis memberikan:

Determinisme saat dibutuhkan
Auditability (catatan apa yang dilakukan agent)
Enforcemen izin dan batasan
Kontrol biaya
Ketahanan terhadap serangan (prompt injection)
Komposisi yang baik dengan sistem lain

Semua hal di atas adalah tanggung jawab harness, bukan model.

Empat Lapisan AI Software

Untuk memahami posisi harness engineering, kita perlu melihat empat lapisan:

Lapisan	Penjelasan	Contoh
Model	Neural network itu sendiri	GPT-4o, Claude 4, DeepSeek
Agent	Loop yang menggunakan model untuk observe-plan-act	ReAct agent, Coding agent
Workflow	Komposisi beberapa agent + langkah deterministik	Pipeline CI/CD otomatis
Harness	Lapisan runtime lintas cutting yang mendukung semua lapisan di atas	Sandbox, Guardrails, Observability, Evals

Harness adalah platform-nya. Ia menyediakan lingkungan agar agent bisa berjalan dengan aman.

Analogi Kuda dan Harness

Analogi yang paling sering digunakan:

Kuda = Model (kuat, kadang brilian, tapi tidak bisa diandalkan begitu saja)
Harness = Segala perlengkapan yang menghubungkan kuda dengan kereta dan pengendara
Pengendara = Manusia yang memiliki tujuan dan bertanggung jawab penuh

Tanpa harness yang baik, seekor kuda yang kuat justru menjadi bahaya di tengah kota. Dengan harness yang baik, kekuatannya menjadi sangat berguna.

Di Mana AI Agents Digunakan Saat Ini?

Beberapa kategori penggunaan production AI Agents yang paling matang:

Coding Agents (paling matang)
CI/CD & Pipeline Automation
Customer Support & Triage
Security Remediation
Document-grounded Assistants
Incident Investigation

Setiap kategori memiliki tantangan harness yang berbeda-beda.

Kesimpulan Bagian 1

AI Harness Engineering adalah disiplin yang fokus pada engineering di sekitar model, bukan hanya pada modelnya. Di production, harness jauh lebih penting daripada seberapa pintar model yang digunakan.

Sumber: AI Harness Engineering Interview Preparation Handbook (2026)

← Kembali ke Daftar Isi

2. Tujuh Lapisan Harness untuk Production AI Agents

Salah satu kontribusi terpenting dari buku ini adalah model tujuh lapisan harness. Model ini membantu engineer memahami secara sistematis apa saja yang perlu dibangun di sekitar sebuah AI Agent.

Mengapa Tujuh Lapisan?

Tujuh lapisan ini bukan sekadar teori. Ia mencerminkan lapisan-lapisan yang secara berulang muncul di berbagai production incident. Setiap lapisan memiliki tanggung jawab yang jelas dan saling bergantung.

Tujuh Lapisan Harness

Berikut adalah tujuh lapisan tersebut:

Layer 1: Instruction

System prompt, task definition, constraints, dan persona agent. Lapisan ini menentukan “siapa” agent itu dan “apa” yang boleh/tidak boleh dilakukannya.

Layer 2: Tools

Tool registry, function schemas, input validation, dan permission model. Agent hanya bisa bertindak melalui tools yang disediakan harness.

Layer 3: Memory and Retrieval

Jenis-jenis memory (scratch, episodic, semantic), retrieval pipeline, chunking, embedding, dan grounding. Lapisan ini menentukan seberapa baik agent “mengingat” dan “mencari informasi”.

Layer 4: Execution

Sandboxing, runtime environment, network control, filesystem isolation, dan credential scoping. Lapisan ini menjawab pertanyaan: “Seberapa aman agent ini bisa menjalankan kode atau memanggil tools?”

Layer 5: Policy and Approval

Guardrails, policy engine, human-in-the-loop, approval gates, dan dry-run mode. Lapisan ini mengatur “kapan agent boleh bertindak sendiri dan kapan harus minta persetujuan manusia”.

Layer 6: Observability

Tracing, logging, cost tracking, prompt/completion capture, dan anomaly detection. Tanpa observability yang baik, kita buta saat agent berjalan di production.

Layer 7: Evaluation

Golden datasets, LLM-as-judge, regression testing, trajectory evaluation, dan production monitoring. Lapisan ini menjawab: “Seberapa baik sebenarnya agent ini bekerja?”

Dependency Graph

Ketujuh lapisan ini saling bergantung. Contoh:

Tools (Layer 2) membutuhkan Policy (Layer 5) sebelum dieksekusi.
Observability (Layer 6) dibutuhkan untuk melakukan Evaluation (Layer 7).
Memory (Layer 3) sangat bergantung pada Instruction (Layer 1) yang baik.

Lapisan Mana yang Harus Dibangun Duluan?

Urutan yang umum direkomendasikan:

Instruction + Tools (paling fundamental)
Execution (Sandbox)
Policy & Guardrails
Observability
Evaluation
Memory & Retrieval (bisa dikembangkan secara bertahap)

Kesimpulan Bagian 2

Model tujuh lapisan memberikan kerangka berpikir yang sangat berguna saat merancang AI Agent untuk production. Dengan memahami setiap lapisan dan ketergantungannya, engineer bisa membangun sistem yang lebih sistematis dan lebih mudah di-debug.

← Kembali ke Daftar Isi

3. Dari Prompt Engineering ke Harness Engineering

Memahami evolusi disiplin ini penting agar kita tidak terjebak pada cara berpikir lama.

Timeline Singkat

Tahun	Fokus Utama	Karakteristik	Keterbatasan
2022–2023	Prompt Engineering	Membuat prompt yang bagus	Tidak scalable, tidak versionable
2024	Agent Frameworks	LangChain, AutoGen, CrewAI, dll	Masih tipis, banyak hal diserahkan ke developer
2025	Convergence ke Harness	Mulai muncul istilah harness secara luas	Masih belum terstruktur
2026	Harness Engineering	Menjadi disiplin tersendiri	Masih berkembang

Mengapa Prompt Saja Tidak Cukup untuk Production?

Beberapa alasan utama:

Prompt bersifat artisanal (sulit di-review dan di-version)
Sulit menggeneralisasi ke banyak tugas
Tidak tahan terhadap model upgrade
Tidak memberikan auditability
Tidak menangani failure modes secara sistematis
Tidak mengatur cost dan safety dengan baik

Apa yang Berubah di Harness Engineering?

Harness engineering berfokus pada infrastructure yang membuat ribuan percakapan berjalan dengan baik, bahkan ketika:

Tidak ada yang mengawasi
Input bersifat adversarial
Model provider mengubah bobot secara diam-diam
Tim keuangan meminta penghematan biaya 5x lipat

Seorang Harness Engineer bukanlah “prompt whisperer”. Ia adalah orang yang membangun fondasi agar agent bisa diandalkan di skala production.

Tiga Skill yang Paling Diuji di Interview

Dari banyak interview loop di bidang ini, tiga skill berikut paling sering menjadi pembeda:

Design Judgment — Kemampuan memilih arsitektur yang tepat di bawah tekanan waktu dan membela pilihannya.
Operational Instinct — Kemampuan membayangkan apa yang sebenarnya terjadi saat agent berjalan di production (latency, cost, failure).
Failure Fluency — Kemampuan menyebutkan cara sistem bisa rusak sebelum benar-benar rusak, serta merancang recovery path.

Kesimpulan Bagian 3

Prompt engineering adalah keterampilan penting, tetapi tidak cukup untuk production. Harness engineering adalah evolusi alami yang menjadikan AI Agents bisa diandalkan secara sistematis.

← Kembali ke Daftar Isi

4. Instruction Engineering untuk AI Agents

Instruction layer adalah fondasi dari segala hal. Tanpa instruction yang baik, lapisan-lapisan lain akan kesulitan mengkompensasi.

Tiga Tier Konteks Agent

System-level context — Instruksi permanen yang mendefinisikan identitas dan batasan agent.
Task-level context — Instruksi spesifik untuk tugas saat ini.
Runtime context — Informasi yang dikumpulkan selama agent berjalan (tool results, retrieved documents, previous thoughts).

Apa yang Harus Ada di System Prompt?

Beberapa elemen penting:

Role & Persona
Core Objectives
Hard Constraints (apa yang tidak boleh dilakukan)
Output Format (structured output)
Failure Handling (bagaimana agent harus bereaksi saat gagal)
Escalation Policy

Structured Outputs

Menggunakan structured output (JSON Schema, Pydantic, dll) sangat direkomendasikan di production karena:

Lebih mudah di-parse
Lebih mudah divalidasi
Mengurangi hallucination pada format

Constraint Design

Salah satu praktik terbaik adalah membuat jalan yang aman menjadi jalan yang paling mudah.

Contoh:

Default dry_run = true pada tool yang berbahaya
Agent harus secara eksplisit memilih untuk melakukan aksi destruktif

Failure-Aware Prompting

Agent yang baik tidak hanya tahu cara sukses, tetapi juga tahu cara gagal dengan baik. System prompt sebaiknya berisi instruksi tentang:

Kapan harus menyerah
Kapan harus meminta bantuan manusia
Bagaimana melaporkan ketidakpastian

Prompt Versioning

Di production, prompt harus di-version control, direview, dan bisa di-roll back — sama seperti kode.

Kesimpulan Bagian 4

Instruction Engineering di konteks production jauh lebih dari sekadar menulis prompt yang bagus. Ia mencakup constraint design, structured output, versioning, dan failure handling.

← Kembali ke Daftar Isi

5. Tool Calling dan MCP (Model Context Protocol)

Tools adalah cara agent berinteraksi dengan dunia luar. Kualitas tool design sangat menentukan kualitas agent secara keseluruhan.

Trust Ladder untuk Tools

Tidak semua tool diciptakan sama. Ada tingkatan kepercayaan:

Read-only tools (paling aman)
Write tools dengan dry-run
Write tools dengan human approval
Irreversible actions (paling berisiko)

Prinsip Desain Function Schema

Beberapa prinsip penting:

Nama tool harus jelas dan deskriptif (delete_file, bukan file_op)
Deskripsi harus ditulis untuk model, bukan untuk manusia
Setiap parameter harus punya deskripsi yang baik
Gunakan enum dan required fields secara bijak
Sediakan mode dry_run untuk aksi berbahaya

MCP — Model Context Protocol

MCP adalah standar yang muncul untuk memudahkan integrasi antara agent dengan berbagai tools dan platform. Beberapa poin penting:

MCP mendefinisikan cara agent menemukan dan memanggil tools
Mendukung authentication dan authorization
Memungkinkan komposisi beberapa MCP server
Semakin banyak platform (termasuk Harness) yang menyediakan MCP Server

Read vs Write Separation

Salah satu praktik keamanan terbaik adalah memisahkan tool yang hanya membaca dengan tool yang bisa menulis/mengubah data.

Kesimpulan Bagian 5

Tool calling adalah salah satu lapisan paling kritis dalam harness. Desain schema yang buruk bisa menyebabkan agent melakukan hal yang tidak diinginkan atau gagal memahami cara menggunakan tool dengan benar.

← Kembali ke Daftar Isi

6. Memory, State, dan Retrieval untuk AI Agents

Memory dan retrieval adalah lapisan yang menentukan seberapa “pintar” agent dalam jangka panjang dan seberapa akurat ia dalam menjawab pertanyaan berbasis pengetahuan.

Tiga Jenis Memory

Jenis Memory	Fungsi	Contoh Penggunaan	Tantangan
Scratch Memory	Konteks dalam satu sesi	Conversation history	Context window limit
Episodic Memory	Pengalaman dari run sebelumnya	Reflection, past mistakes	Memory poisoning
Semantic Memory	Pengetahuan domain / dokumen	RAG, company knowledge base	Stale data, retrieval quality

Retrieval yang Baik

Beberapa praktik penting dalam retrieval:

Chunking yang tepat sangat berpengaruh
Hybrid retrieval (BM25 + Vector) sering lebih baik daripada hanya vector
Reranking biasanya meningkatkan kualitas hasil
Selalu sertakan citation/provenance
Deteksi data yang sudah usang (stale data)

Memory Poisoning

Salah satu risiko serius adalah memory poisoning — ketika agent menyimpan informasi yang salah dan kemudian menggunakannya lagi di masa depan. Harness harus memiliki mekanisme untuk memvalidasi dan membersihkan memory.

Kesimpulan Bagian 6

Memory dan retrieval yang baik adalah salah satu pembeda utama antara agent yang hanya terlihat pintar dengan agent yang benar-benar berguna di production.

← Kembali ke Daftar Isi

7. Sandboxing dan Execution Environment

Ketika agent diberi kemampuan untuk menjalankan kode atau memanggil tools yang powerful, keamanan menjadi sangat penting.

Mengapa Default Docker Tidak Cukup?

Docker bagus untuk deployment, tetapi untuk agent execution, kita membutuhkan isolasi yang lebih kuat karena:

Agent bisa mencoba escape
Agent bisa mencoba mengakses resource sensitif
Blast radius harus seminimal mungkin

Teknologi Sandboxing Modern

Beberapa teknologi yang sering digunakan:

gVisor — User-space kernel
Firecracker — MicroVM (ringan dan cepat)
Worktree isolation per task
Network egress policy yang ketat
Filesystem yang read-only atau terbatas

Prinsip Utama Sandboxing

Least privilege
Fast start time
Observable & auditable
Easy to destroy setelah selesai

Kesimpulan Bagian 7

Sandboxing adalah lapisan pertahanan terakhir. Jika agent berhasil mengeksploitasi sandbox, maka seluruh sistem bisa berada dalam bahaya. Investasi di lapisan ini sangat penting untuk agent yang memiliki akses ke tools yang powerful.

← Kembali ke Daftar Isi

8. Evaluasi, Observability, dan Reliability AI Agents

“Anda tidak bisa memperbaiki apa yang tidak bisa Anda ukur.”

Evaluasi Bukan QA Biasa

Di AI Agents, evaluasi adalah engineering discipline, bukan hanya aktivitas QA. Evaluasi harus dilakukan secara terus-menerus, termasuk setelah deployment.

Komponen Evaluasi yang Penting

Golden datasets
LLM-as-judge (dengan hati-hati)
Trajectory evaluation
Regression testing di CI/CD
Statistical rigor

Observability untuk AI Agents

Observability tradisional tidak cukup. Kita membutuhkan:

Trace setiap langkah agent (bukan hanya request-response)
Capture prompt dan completion
Cost tracking per run
Anomaly detection pada trace
Feedback signal integration

Failure Modes yang Sering Terjadi

Beberapa failure mode umum:

Infinite loops
Partially-applied state
Silent failures
Cost explosion
Context poisoning

Kesimpulan Bagian 8

Tanpa observability dan evaluasi yang baik, agent yang terlihat berfungsi di development bisa gagal total di production. Lapisan ini adalah salah satu yang paling sering diremehkan.

← Kembali ke Daftar Isi

9. Guardrails, Safety, dan Governance

Ini adalah lapisan yang menentukan apakah agent bisa dipercaya untuk dijalankan di lingkungan enterprise atau production yang sensitif.

Jenis Guardrails

Input Guardrails — Memeriksa input sebelum masuk ke model
Inline Guardrails — Memeriksa selama proses berjalan
Output Guardrails — Memeriksa output sebelum dikembalikan ke user

Ancaman Utama

Prompt Injection (ancaman paling serius)
Data leakage / PII exposure
Unauthorized actions
Model misuse

Governance di Enterprise

Beberapa aspek penting:

RBAC dan delegated permissions
Audit trail yang lengkap
Approval workflows
Data residency & egress control
Incident response integration

Kesimpulan Bagian 9

Guardrails dan governance bukan penghalang inovasi, melainkan fondasi agar AI Agents bisa digunakan secara bertanggung jawab di skala production.

← Kembali ke Daftar Isi

Penutup & Ringkasan

AI Harness Engineering adalah disiplin yang sedang berkembang pesat di tahun 2026. Fokus utamanya adalah membangun lapisan engineering di sekitar model AI agar bisa diandalkan dalam skala production.

Ringkasan 9 Topik Utama:

No	Topik	Fokus Utama
1	Pengantar Harness Engineering	Agent = Model + Harness
2	Tujuh Lapisan Harness	Instruction → Evaluation
3	Evolusi Disiplin	Prompt → Agent → Harness
4	Instruction Engineering	Prompt, constraint, structured output
5	Tool Calling & MCP	Schema design, protocol integrasi
6	Memory & Retrieval	Scratch, episodic, semantic memory + RAG
7	Sandboxing	Isolasi eksekusi yang aman
8	Evaluasi & Observability	Evals, tracing, reliability
9	Guardrails & Governance	Safety, policy, enterprise readiness

Pesan Akhir:

Model akan terus berkembang dan menjadi lebih pintar.
Tetapi prinsip-prinsip Harness Engineering — bagaimana membungkus model agar aman, dapat diaudit, dan bisa diandalkan — akan tetap relevan dalam waktu yang lama.

Structure in. Structure out.

Sumber Utama:
AI Harness Engineering Interview Preparation Handbook — 2026 Edition oleh AI Engineering Insider

Akhir dari Ebook

Thanks for reading!

AI Harness Engineering: Panduan Lengkap Membangun Production AI Agents

Fri May 22 2026

1970 words · 10 minutes

Teknologi AI AIAgents HarnessEngineering ProductionAI Guardrails MCP Observability Sandboxing LLM AIEngineering MultiAgent PromptEngineering AIInfrastructure