X-RAY · 四篇合集

Harness Engineering

文章说了什么

真问题

当执行智能下沉到模型,工程师造的那层"壳"——会不会被它包裹的东西吃掉?四篇文章的表面议题各异(源码分析 / 控制论类比 / 工程体系 / 护城河辩论),但共享同一个焦虑:如果模型每个季度都在变强,那围绕模型搭建的工程系统,是在积累价值还是在积累负债?

真回答

Harness 的价值不会归零——它会迁移。补位层衰减,反馈层增值。工程师的工作从造肌肉变成造传感器。

论证骨架

隐含假设

模型能力将持续以足够快的速度提升,使得 harness 组件定期变为冗余。若模型进步停滞,harness 从临时脚手架变为永久基础设施,整个分析框架翻转。

边界

四篇全部以 coding agent 为分析对象。知识工作、客服、医疗等领域的 harness 价值曲线可能完全不同——那些领域的"反馈信号"更主观、更难结构化。

                  真问题
                    |
       "我造的壳会被模型吃掉吗?"
                    |
       +------------+------------+
       |                         |
  会(补位层)              不会(反馈层)
       |                         |
  Claude Code 已在          自进化三难困境:
  拆旧组件加新组件          外部信号是结构性需求
       |                         |
       +--------+   +-----------+
                |   |
          控制论: 同一模式
          第三次出现
          人: 操作者 --> 掌舵者
                |
          五个根本挑战
          (状态/目标/验证/熵/边界)
          模型结构性解决不了
                |
                v
            真回答:
       价值不归零,它迁移
    "投资信号,而非逻辑"

对我意味着什么

碰撞一:你的 komorebi 就是一套 Harness——但它在贬值

文章框架                    你的系统
--------                    --------
Agentic Harness  <=====>  komorebi

+-- Durable State    <-->  memory.md + daily-memory
+-- Decomposition    <-->  skill 分层 (L1-L4)
+-- Feedback Loop    <-->  ai.md 十二原则
+-- Legibility       <-->  soul.md
+-- Entropy Control  <-->  "即写不攒"协议
+-- Tool Mediation   <-->  17个技能的编排

但: 每个组件都编码了一个假设
   "模型做不到 X,所以我来补"

   你上次审计哪些假设已过期了吗?

给每个技能步骤贴"假设标签",每次模型大版本更新后做消融审计——关掉某个步骤,看输出是否变差。不降反升 = 该拆了。

碰撞二:投资信号而非逻辑——ai.md 是最持久的资产

技能系统中两类组件:

衰减快 (逻辑层)          衰减慢 (信号层)
==================       ==================
"先fetch再markitdown"     ai.md 十二原则
"分步提取论证骨架"        soul.md 认知锚点
"ASCII art用基本字符"     "内容忠实性铁律"
"先org报告再制卡"         "好卡片vs坏卡片"标准
       |                         |
       v                         v
  模型变强后                模型越强
  这些步骤可能              这些标准越值钱
  被简化或跳过              (更好的模型能从
                            更精确的标准中
                            提取更多价值)

减少技能中的固定步骤(逻辑),加深 ai.md / soul.md 中的品味标准(信号)。流程步骤越多,未来要拆的技术债越多。

碰撞三:on the loop → on the META loop

in the loop          on the loop         on the META loop
(低层)               (你在这里)           (还没到这里)
===========          ===========          ===============
卡片不好看            卡片不好看            定期审计:
    |                     |               "哪些规则本身
    v                     v                已经过时了?"
手动改这张卡          修改模板规则               |
                     让下次自动更好              v
                                          季度消融审计
                                          1. 关掉一个步骤
                                          2. 跑同样的输入
                                          3. 比较输出质量
                                          4. 不降 = 拆掉

你已经在 on the loop,但技能系统从三月搭建至今没做过减法。模型换了代,步骤没换。

迁移

SPARK LAB 产品设计

"可撕裂性"原则——好的产品架构应该让每个功能模块都能被轻松移除。给每个 feature 贴"假设标签"(此功能存在是因为用户不具备Y能力),每个季度审计哪些假设已过期。不降反升的功能,砍掉比保留更有竞争力。

个人知识系统

"投资信号而非逻辑"翻译为——花时间打磨判断标准(什么是好文章、什么值得存、什么级别的洞见值得一张卡),而不是花时间优化处理流程的步骤数。判断标准越精确,AI 能从中提取的价值越大。