博客

English

从这里开始

可学习的几何

四篇文章，一个观点：深度学习本身就是流形几何，而它最要命的失败，其实是能被量出来的几何撕裂。

工程不变量

真正能上生产的 AI 和量化系统，和原型的差别就在这些 incident 和不变量上——每篇讲一条来之不易的正确性经验。

2026年7月6日

一个人 + AI：量化基金研究组织形态的重构

Dnalyaw 量化交易

传统量化基金用人头堆研究产能：几十个 PhD、各管一段流水线。当研究流程被冻结成可执行的纪律，AI agents 可以承担枚举、验证、监控、报告的全部机械环节，产能第一次和人头数解耦。这篇文章讲这种新组织形态的设计原则：什么交给机器、什么留给人、以及为什么纪律是让 AI 可用的前提而不是结果。

2026年7月5日

风控的两种语言：Sizing 与 Safety 为什么绝不能混为一谈

Dnalyaw 量化交易

仓位控制回答“下多大注”，安全控制回答“什么时候切断我”。这是两类数学性质完全不同的控制系统，而行业里最危险的风控设计错误，就是把它们混成一个。这篇文章讲这条分界线的原理、市场中性为什么不等于危机中性，以及为什么真正的安全控制必须拥有架构级的否决权。

2026年7月4日

alpha 的几何学：为什么量化的护城河是工厂而不是配方

Dnalyaw 量化交易

单一“神奇信号”的时代结束了。真正复利的资产不是任何一个配方，而是持续生产、验证、淘汰信号的工厂本身。这篇文章讲弱信号聚合背后的数学：√N 定律为什么是勾股定理，因子剥离为什么是投影，尾部相关性为什么是和乐（holonomy）——以及为什么读市场和读神经网络，用的是同一套几何、同一个四重境界。

2026年6月25日

训练之后，一个 Mixture-of-Experts 被撕裂到什么程度?

AI 研究与理论

我说过 loss spike 是几何撕裂，不是优化爆掉。那就把撕裂量出来——直接在已发布的 MoE 权重上，OLMoE 和 Qwen。它在每一层都是一次货真价实的 C⁰ 跳变，严重度落在约 24% 的块输出跳变上，是方向性的，而且训练撕不平。给那个比喻补上一个数字。

2026年6月18日

陈省身的一个疑问，被两个世界同时回答

AI 研究与理论

黎曼、庞加莱、陈省身的流形一脉，传到江泽涵、姜伯驹、石根华手里。陈省身留下过一个疑问——分片堆叠的流形，能不能推广到任意复杂的区域？它后来在山体力学和神经网络两个毫不相干的世界里，得到了同一个答案。

2026年5月29日

DiffusionBlocks：网络一直知道自己是三段式的

AI 研究与理论

Sakana AI 的 DiffusionBlocks 把网络拆成独立块训练，并发现 B=3 是甜蜜点。我认为原因在于：残差流本来就被流形视角预言为三段几何相态，所以 B=3 切开的正是一个功能上已经存在的结构。

2026年5月27日

你的 AI 有大脑，它更应该有一颗心

AI Agent 实践

模型越来越聪明，用户却越来越像助理：拖文件、贴邮件、反复解释客户是谁。缺的不是更长的上下文窗口，而是真正的记忆。这就是我为什么要做 Kocoro：一个本地、开源、会记住你的 Mac agent。

2026年5月5日

DeepSeek V4 与流形撕裂

AI 研究与理论

为什么训练时的 loss spike 不是优化失败，而是几何撕裂——DeepSeek V4 的三道防线，把“流形先验”从抽象立场推成了工程证据。

2026年4月25日

Transformer 架构之书：英文版已上线

AI 研究与理论

我的 Transformer 书英文完整版已经上线：32 章与 3 个附录，从 tokenization 到 attention，再到从零实现；并继续讲到 RLHF、Mixture-of-Experts、推理模型，以及后 Transformer 架构。

2026年4月24日

神经网络的四重境界

AI 研究与理论

用修真小说的方式读深度学习：PDE 求解器、流形几何、规范场与量子式注意力；以及为什么最后一境告诉我们，AGI 必须是个人化的。

2026年4月20日

回测到实盘的落差，本质上是成本模型问题

Dnalyaw 量化交易

你的回测显示每月 +2.1%。实盘只有 +1.4%。罪魁祸首几乎从来不是信号衰减，而是成本模型。这篇文章拆解混合 IB + Futu HK 交易布局里，回测到实盘落差的三层结构：为什么每一层都会悄悄吞掉收益，以及要怎样把它们关上。

2026年4月19日

长时间 Agent Loop 中的 Mid-Turn Checkpointing

AI Agent 实践

一个 agent turn 可能跨越 20 次工具调用和 10 分钟。如果 daemon 在第 9 分钟死掉，天真的设计会把一切都丢掉。本文讲为什么“直接重试这一轮”是错的，Kocoro 用什么 phase state machine 取代它，以及怎样的 checkpoint 纪律能扛住 mid-turn 的 SIGKILL。

2026年4月16日

Prompt Caching 的字节稳定性测试

AI Agent 实践

Prompt caching 有效时能省下 90% 成本；一旦悄悄失效，就是 0%。为什么 prompt 会以普通单元测试很少捕捉的方式变得脆弱，以及我们在 Shannon 里构建了怎样的测试纪律，让代码演进时 cache hit rate 仍然稳定。

2026年4月14日

Flatten Verifiers：当你的“平掉全部”订单并没有真的平掉

Dnalyaw 量化交易

在任何交易系统里，最安全关键的操作也是执行工程里最难的正确性问题之一。一次险些出事的 incident、背后的竞态条件，以及我们如何用一个架构模式取代天真的“全部关闭”逻辑，让它按构造就是正确的。

2026年4月4日

AI Agent Harness：Claude Code 公开之后，Kocoro 如何演进

AI Agent 实践

我在 Claude Code 开源之前就构建了 Kocoro：一个 Go agent runtime，包含工具分发、权限、上下文管理和循环检测。等 Claude Code 的架构公开后，二者的收敛非常明显。本文讲我们独立走到的设计、我从它的缓存纪律里学到的东西，以及我认为生产级 harness 应该具备什么。

2026年3月1日

Claude Code 学到的多 Agent 工具设计经验，以及 Shannon 已经做对了什么

AI Agent 实践

一位 Anthropic 工程师描述了 Claude Code 如何从简单 todo list 演进到具备依赖关系的任务图。这些模式，Shannon 也独立走到了同一个地方。本文映射五条经验，也包括 Shannon 仍需补上的差距。

2026年2月17日

信息论足以理解 LLM

AI 研究与理论

香农在 1948 年奠定了基础。七十八年后，他的框架依然解释了 Transformer 为什么有效、交叉熵损失究竟意味着什么，以及为什么模型永远不可能比训练数据更聪明。

2026年2月14日

Dnalyaw：从零工程化一个 AI 量化交易系统

Dnalyaw 量化交易

为什么垂直整合——把研究和执行放进同一条统一 pipeline——才是量化交易真正的护城河，以及 Dnalyaw 如何用数百个特征、严谨风控、横跨全球市场的 Rust/Go/Python 多语言执行核心来构建它。

2026年1月11日

我写了一本关于构建生产级 AI Agent 的书

AI Agent 实践

一本面向实战的生产级 AI Agent 系统指南，覆盖单 Agent 设计、多 Agent 编排、MCP 协议、Computer Use、成本控制，以及企业级部署模式。

2026年1月11日

我的 Transformer 与 LLM 架构之书

AI 研究与理论

一次深入拆解 Transformer 架构每个组件的旅程：从 Tokenization 到 Attention 机制，从前向传播到代码实现。写给那些想真正理解 GPT 与 ChatGPT 如何运作的开发者。

2026年1月6日

2025 年回顾与 2026 年预测

个人随笔与更新

回看 2025 如何让 agent workflow 和 reasoning model 变成日常，以及为什么 2026 感觉不像一个预测，更像一个你已经可以选择进入的状态。

2025年10月21日

Tensor Logic：一种类脑架构

AI 研究与理论

连接逻辑与学习之间的裂缝——张量方程如何创造既能符号化思考、也能直觉式学习的 AI 系统。

2025年10月7日

Shannon：设计一个生产级多 Agent 平台

AI Agent 实践

一篇关于 Shannon 架构的深度解析：这是一个可自托管的多 Agent 平台，用 Rust、Go、Python 的明确技术分工，解决生产 AI 中最难的三个问题：失控成本、非确定性失败，以及安全漏洞。

2025年4月29日

AI 量化交易：从模型到量化基金

Dnalyaw 量化交易

为 AI 从业者拆解量化交易：量化基金到底在做什么，为什么强化学习比 LLM 更适合市场，以及真正的门槛在哪里。

2025年2月25日

从 RNN 到 LLM：十年的简单性与变形

AI 研究与理论

重读 Andrej Karpathy 2015 年那篇 RNN 文章，回看 LLM 如何在 Transformer 与 fine-tuning 中完成出人意料的演化。

2024年2月22日

Transformer 架构详解：一篇完整的梳理

AI 研究与理论

一步步走完 Transformer 架构：从 input embeddings 与 positional encoding，到 self-attention，再到 decoder-only 的 GPT 变体。