博客
English2026年5月29日
DiffusionBlocks:网络一直知道自己是三段式的
AI 研究与理论
Sakana AI 的 DiffusionBlocks 把网络拆成独立块训练,并发现 B=3 是甜蜜点。我认为原因在于:残差流本来就被流形视角预言为三段几何相态,所以 B=3 切开的正是一个功能上已经存在的结构。
2026年5月27日
你的 AI 有大脑,它更应该有一颗心
AI Agent 实践
模型越来越聪明,用户却越来越像助理:拖文件、贴邮件、反复解释客户是谁。缺的不是更长的上下文窗口,而是真正的记忆。这就是我为什么要做 Kocoro:一个本地、开源、会记住你的 Mac agent。
2026年5月5日
DeepSeek V4 与流形撕裂
AI 研究与理论
为什么训练时的 loss spike 不是优化失败,而是几何撕裂——DeepSeek V4 的三道防线,把“流形先验”从抽象立场推成了工程证据。
2026年4月25日
Transformer 架构之书:英文版已上线
AI 研究与理论
我的 Transformer 书英文完整版已经上线:32 章与 3 个附录,从 tokenization 到 attention,再到从零实现;并继续讲到 RLHF、Mixture-of-Experts、推理模型,以及后 Transformer 架构。
2026年4月24日
神经网络的四重境界
AI 研究与理论
用修真小说的方式读深度学习:PDE 求解器、流形几何、规范场与量子式注意力;以及为什么最后一境告诉我们,AGI 必须是个人化的。
2026年4月20日
回测到实盘的落差,本质上是成本模型问题
Dnalyaw 量化交易
你的回测显示每月 +2.1%。实盘只有 +1.4%。罪魁祸首几乎从来不是信号衰减,而是成本模型。这篇文章拆解混合 IB + Futu HK 交易布局里,回测到实盘落差的三层结构:为什么每一层都会悄悄吞掉收益,以及要怎样把它们关上。
2026年4月19日
长时间 Agent Loop 中的 Mid-Turn Checkpointing
AI Agent 实践
一个 agent turn 可能跨越 20 次工具调用和 10 分钟。如果 daemon 在第 9 分钟死掉,天真的设计会把一切都丢掉。本文讲为什么“直接重试这一轮”是错的,Kocoro 用什么 phase state machine 取代它,以及怎样的 checkpoint 纪律能扛住 mid-turn 的 SIGKILL。
2026年4月16日
Prompt Caching 的字节稳定性测试
AI Agent 实践
Prompt caching 有效时能省下 90% 成本;一旦悄悄失效,就是 0%。为什么 prompt 会以普通单元测试很少捕捉的方式变得脆弱,以及我们在 Shannon 里构建了怎样的测试纪律,让代码演进时 cache hit rate 仍然稳定。
2026年4月14日
Flatten Verifiers:当你的“平掉全部”订单并没有真的平掉
Dnalyaw 量化交易
在任何交易系统里,最安全关键的操作也是执行工程里最难的正确性问题之一。一次险些出事的 incident、背后的竞态条件,以及我们如何用一个架构模式取代天真的“全部关闭”逻辑,让它按构造就是正确的。
2026年4月4日
AI Agent Harness:Claude Code 公开之后,Kocoro 如何演进
AI Agent 实践
我在 Claude Code 开源之前就构建了 Kocoro:一个 Go agent runtime,包含工具分发、权限、上下文管理和循环检测。等 Claude Code 的架构公开后,二者的收敛非常明显。本文讲我们独立走到的设计、我从它的缓存纪律里学到的东西,以及我认为生产级 harness 应该具备什么。
2026年3月1日
Claude Code 学到的多 Agent 工具设计经验,以及 Shannon 已经做对了什么
AI Agent 实践
一位 Anthropic 工程师描述了 Claude Code 如何从简单 todo list 演进到具备依赖关系的任务图。这些模式,Shannon 也独立走到了同一个地方。本文映射五条经验,也包括 Shannon 仍需补上的差距。
2026年2月17日
信息论足以理解 LLM
AI 研究与理论
香农在 1948 年奠定了基础。七十八年后,他的框架依然解释了 Transformer 为什么有效、交叉熵损失究竟意味着什么,以及为什么模型永远不可能比训练数据更聪明。
2026年2月14日
Dnalyaw:从零工程化一个 AI 量化交易系统
Dnalyaw 量化交易
为什么垂直整合——把研究和执行放进同一条统一 pipeline——才是量化交易真正的护城河,以及 Dnalyaw 如何用数百个特征、严谨风控、横跨全球市场的 Rust/Go/Python 多语言执行核心来构建它。
2026年1月11日
我写了一本关于构建生产级 AI Agent 的书
AI Agent 实践
一本面向实战的生产级 AI Agent 系统指南,覆盖单 Agent 设计、多 Agent 编排、MCP 协议、Computer Use、成本控制,以及企业级部署模式。
2026年1月11日
我的 Transformer 与 LLM 架构之书
AI 研究与理论
一次深入拆解 Transformer 架构每个组件的旅程:从 Tokenization 到 Attention 机制,从前向传播到代码实现。写给那些想真正理解 GPT 与 ChatGPT 如何运作的开发者。
2026年1月6日
2025 年回顾与 2026 年预测
个人随笔与更新
回看 2025 如何让 agent workflow 和 reasoning model 变成日常,以及为什么 2026 感觉不像一个预测,更像一个你已经可以选择进入的状态。
2025年10月21日
Tensor Logic:一种类脑架构
AI 研究与理论
连接逻辑与学习之间的裂缝——张量方程如何创造既能符号化思考、也能直觉式学习的 AI 系统。
2025年10月7日
Shannon:设计一个生产级多 Agent 平台
AI Agent 实践
一篇关于 Shannon 架构的深度解析:这是一个可自托管的多 Agent 平台,用 Rust、Go、Python 的明确技术分工,解决生产 AI 中最难的三个问题:失控成本、非确定性失败,以及安全漏洞。
2025年4月29日
AI 量化交易:从模型到量化基金
Dnalyaw 量化交易
为 AI 从业者拆解量化交易:量化基金到底在做什么,为什么强化学习比 LLM 更适合市场,以及真正的门槛在哪里。
2025年2月25日
从 RNN 到 LLM:十年的简单性与变形
AI 研究与理论
重读 Andrej Karpathy 2015 年那篇 RNN 文章,回看 LLM 如何在 Transformer 与 fine-tuning 中完成出人意料的演化。
2024年2月22日
Transformer 架构详解:一篇完整的梳理
AI 研究与理论
一步步走完 Transformer 架构:从 input embeddings 与 positional encoding,到 self-attention,再到 decoder-only 的 GPT 变体。