Harness Engineering

文章说了什么

真问题

当执行智能下沉到模型，工程师造的那层"壳"——会不会被它包裹的东西吃掉？四篇文章的表面议题各异（源码分析 / 控制论类比 / 工程体系 / 护城河辩论），但共享同一个焦虑：如果模型每个季度都在变强，那围绕模型搭建的工程系统，是在积累价值还是在积累负债？

真回答

Harness 的价值不会归零——它会迁移。补位层衰减，反馈层增值。工程师的工作从造肌肉变成造传感器。

论证骨架

控制论模式已出现三次（瓦特调速器 → K8s 控制器 → Harness），每次都是：人停止亲手操作，转向设计自动运转的机制
倒U型衰减曲线：同一模型有无 Harness 差距 36pp（42%→78%），但顶级 Harness 之间仅差 2.5pp——不同层衰减速度不同
Claude Code 的存在证明：51万行 TypeScript，TAOR 循环仅 50 行，智能全下沉模型，运行时刻意做"笨"——框架越薄越稳定

隐含假设

模型能力将持续以足够快的速度提升，使得 harness 组件定期变为冗余。若模型进步停滞，harness 从临时脚手架变为永久基础设施，整个分析框架翻转。

边界

四篇全部以 coding agent 为分析对象。知识工作、客服、医疗等领域的 harness 价值曲线可能完全不同——那些领域的"反馈信号"更主观、更难结构化。

                  真问题
                    |
       "我造的壳会被模型吃掉吗？"
                    |
       +------------+------------+
       |                         |
  会（补位层）              不会（反馈层）
       |                         |
  Claude Code 已在          自进化三难困境:
  拆旧组件加新组件          外部信号是结构性需求
       |                         |
       +--------+   +-----------+
                |   |
          控制论: 同一模式
          第三次出现
          人: 操作者 --> 掌舵者
                |
          五个根本挑战
          (状态/目标/验证/熵/边界)
          模型结构性解决不了
                |
                v
            真回答:
       价值不归零，它迁移
    "投资信号，而非逻辑"

对我意味着什么

碰撞一：你的 komorebi 就是一套 Harness——但它在贬值

文章框架                    你的系统
--------                    --------
Agentic Harness  <=====>  komorebi

+-- Durable State    <-->  memory.md + daily-memory
+-- Decomposition    <-->  skill 分层 (L1-L4)
+-- Feedback Loop    <-->  ai.md 十二原则
+-- Legibility       <-->  soul.md
+-- Entropy Control  <-->  "即写不攒"协议
+-- Tool Mediation   <-->  17个技能的编排

但: 每个组件都编码了一个假设
   "模型做不到 X，所以我来补"

   你上次审计哪些假设已过期了吗？

给每个技能步骤贴"假设标签"，每次模型大版本更新后做消融审计——关掉某个步骤，看输出是否变差。不降反升 = 该拆了。

碰撞二：投资信号而非逻辑——ai.md 是最持久的资产

技能系统中两类组件:

衰减快 (逻辑层)          衰减慢 (信号层)
==================       ==================
"先fetch再markitdown"     ai.md 十二原则
"分步提取论证骨架"        soul.md 认知锚点
"ASCII art用基本字符"     "内容忠实性铁律"
"先org报告再制卡"         "好卡片vs坏卡片"标准
       |                         |
       v                         v
  模型变强后                模型越强
  这些步骤可能              这些标准越值钱
  被简化或跳过              (更好的模型能从
                            更精确的标准中
                            提取更多价值)

减少技能中的固定步骤（逻辑），加深 ai.md / soul.md 中的品味标准（信号）。流程步骤越多，未来要拆的技术债越多。

碰撞三：on the loop → on the META loop

in the loop          on the loop         on the META loop
(低层)               (你在这里)           (还没到这里)
===========          ===========          ===============
卡片不好看            卡片不好看            定期审计:
    |                     |               "哪些规则本身
    v                     v                已经过时了？"
手动改这张卡          修改模板规则               |
                     让下次自动更好              v
                                          季度消融审计
                                          1. 关掉一个步骤
                                          2. 跑同样的输入
                                          3. 比较输出质量
                                          4. 不降 = 拆掉

你已经在 on the loop，但技能系统从三月搭建至今没做过减法。模型换了代，步骤没换。

迁移

SPARK LAB 产品设计

"可撕裂性"原则——好的产品架构应该让每个功能模块都能被轻松移除。给每个 feature 贴"假设标签"（此功能存在是因为用户不具备Y能力），每个季度审计哪些假设已过期。不降反升的功能，砍掉比保留更有竞争力。

个人知识系统

"投资信号而非逻辑"翻译为——花时间打磨判断标准（什么是好文章、什么值得存、什么级别的洞见值得一张卡），而不是花时间优化处理流程的步骤数。判断标准越精确，AI 能从中提取的价值越大。