我想要一个属于自己的 AI 智能体
LogicAI2 系列第一篇。不讲架构,不讲代码——只讲一个朴素的需求:我希望有一个真正了解我、和我一起工作的 AI。
技术与生活的记录
共 8 篇
LogicAI2 系列第一篇。不讲架构,不讲代码——只讲一个朴素的需求:我希望有一个真正了解我、和我一起工作的 AI。
Transformer 系列最终篇。拆解交叉熵损失如何驱动模型学习、KV Cache 如何将推理从 O(n²) 降到 O(n)、MQA/GQA 如何压缩 KV Cache 的显存占用、Flash Attention 如何用分块计算突破显存瓶颈。
Transformer 系列第四篇。拆解每层 Encoder/Decoder 内部的关键组件:残差连接如何让深层网络可训练、LayerNorm 为什么选择层而非批、FFN 的隐藏维度为什么是 4 倍、Causal Mask 如何防止作弊,以及 Decoder-only 架构为什么成为大模型的主流选择。
Transformer 系列第三篇。拆解多头注意力的设计哲学与参数量真相,并追溯位置编码从 Sinusoidal 到 RoPE 的进化史。
Transformer 系列第二篇。从"it 指代什么"的动机出发,逐步拆解 Self-Attention 的完整计算过程,深入理解 Q、K、V 的设计哲学与缩放因子的数学证明。
Transformer 系列第一篇。从 RNN 的困境出发,建立对 Transformer 架构的全局直觉:Encoder-Decoder 结构、数据流、Embedding 与 BPE 分词。
从零开始用 Astro 搭建一个现代化的个人博客,记录完整过程和踩过的坑。
为什么要写博客?记录、思考、分享——在信息爆炸的时代,写作是最好的学习方式。