技术 | HenYan's Blog

技术 2026年6月8日

我想要一个属于自己的 AI 智能体

LogicAI2 系列第一篇。不讲架构，不讲代码——只讲一个朴素的需求：我希望有一个真正了解我、和我一起工作的 AI。

技术 2026年6月7日

Transformer 原理（五）：从训练到推理 —— 损失函数、KV Cache 与注意力优化

Transformer 系列最终篇。拆解交叉熵损失如何驱动模型学习、KV Cache 如何将推理从 O(n²) 降到 O(n)、MQA/GQA 如何压缩 KV Cache 的显存占用、Flash Attention 如何用分块计算突破显存瓶颈。

#Transformer#AI#深度学习

技术 2026年6月6日

Transformer 原理（四）：砖与瓦 —— Residual、LayerNorm、FFN 与 Decoder-only 架构

Transformer 系列第四篇。拆解每层 Encoder/Decoder 内部的关键组件：残差连接如何让深层网络可训练、LayerNorm 为什么选择层而非批、FFN 的隐藏维度为什么是 4 倍、Causal Mask 如何防止作弊，以及 Decoder-only 架构为什么成为大模型的主流选择。

#Transformer#AI#深度学习