文章说了什么
真问题
当执行智能下沉到模型,工程师造的那层"壳"——会不会被它包裹的东西吃掉?四篇文章的表面议题各异(源码分析 / 控制论类比 / 工程体系 / 护城河辩论),但共享同一个焦虑:如果模型每个季度都在变强,那围绕模型搭建的工程系统,是在积累价值还是在积累负债?
真回答
Harness 的价值不会归零——它会迁移。补位层衰减,反馈层增值。工程师的工作从造肌肉变成造传感器。
论证骨架
- 控制论模式已出现三次(瓦特调速器 → K8s 控制器 → Harness),每次都是:人停止亲手操作,转向设计自动运转的机制
- 倒U型衰减曲线:同一模型有无 Harness 差距 36pp(42%→78%),但顶级 Harness 之间仅差 2.5pp——不同层衰减速度不同
- Claude Code 的存在证明:51万行 TypeScript,TAOR 循环仅 50 行,智能全下沉模型,运行时刻意做"笨"——框架越薄越稳定
隐含假设
模型能力将持续以足够快的速度提升,使得 harness 组件定期变为冗余。若模型进步停滞,harness 从临时脚手架变为永久基础设施,整个分析框架翻转。
边界
四篇全部以 coding agent 为分析对象。知识工作、客服、医疗等领域的 harness 价值曲线可能完全不同——那些领域的"反馈信号"更主观、更难结构化。
真问题
|
"我造的壳会被模型吃掉吗?"
|
+------------+------------+
| |
会(补位层) 不会(反馈层)
| |
Claude Code 已在 自进化三难困境:
拆旧组件加新组件 外部信号是结构性需求
| |
+--------+ +-----------+
| |
控制论: 同一模式
第三次出现
人: 操作者 --> 掌舵者
|
五个根本挑战
(状态/目标/验证/熵/边界)
模型结构性解决不了
|
v
真回答:
价值不归零,它迁移
"投资信号,而非逻辑"
对我意味着什么
碰撞一:你的 komorebi 就是一套 Harness——但它在贬值
文章框架 你的系统 -------- -------- Agentic Harness <=====> komorebi +-- Durable State <--> memory.md + daily-memory +-- Decomposition <--> skill 分层 (L1-L4) +-- Feedback Loop <--> ai.md 十二原则 +-- Legibility <--> soul.md +-- Entropy Control <--> "即写不攒"协议 +-- Tool Mediation <--> 17个技能的编排 但: 每个组件都编码了一个假设 "模型做不到 X,所以我来补" 你上次审计哪些假设已过期了吗?
给每个技能步骤贴"假设标签",每次模型大版本更新后做消融审计——关掉某个步骤,看输出是否变差。不降反升 = 该拆了。
碰撞二:投资信号而非逻辑——ai.md 是最持久的资产
技能系统中两类组件:
衰减快 (逻辑层) 衰减慢 (信号层)
================== ==================
"先fetch再markitdown" ai.md 十二原则
"分步提取论证骨架" soul.md 认知锚点
"ASCII art用基本字符" "内容忠实性铁律"
"先org报告再制卡" "好卡片vs坏卡片"标准
| |
v v
模型变强后 模型越强
这些步骤可能 这些标准越值钱
被简化或跳过 (更好的模型能从
更精确的标准中
提取更多价值)
减少技能中的固定步骤(逻辑),加深 ai.md / soul.md 中的品味标准(信号)。流程步骤越多,未来要拆的技术债越多。
碰撞三:on the loop → on the META loop
in the loop on the loop on the META loop
(低层) (你在这里) (还没到这里)
=========== =========== ===============
卡片不好看 卡片不好看 定期审计:
| | "哪些规则本身
v v 已经过时了?"
手动改这张卡 修改模板规则 |
让下次自动更好 v
季度消融审计
1. 关掉一个步骤
2. 跑同样的输入
3. 比较输出质量
4. 不降 = 拆掉
你已经在 on the loop,但技能系统从三月搭建至今没做过减法。模型换了代,步骤没换。
迁移
SPARK LAB 产品设计
"可撕裂性"原则——好的产品架构应该让每个功能模块都能被轻松移除。给每个 feature 贴"假设标签"(此功能存在是因为用户不具备Y能力),每个季度审计哪些假设已过期。不降反升的功能,砍掉比保留更有竞争力。
个人知识系统
"投资信号而非逻辑"翻译为——花时间打磨判断标准(什么是好文章、什么值得存、什么级别的洞见值得一张卡),而不是花时间优化处理流程的步骤数。判断标准越精确,AI 能从中提取的价值越大。