Archive

stay hungry stay foolish
2025

Navigating the RLHF Landscape: From Policy Gradients to PPO, GAE, and DPO for LLM Alignment [En/中]

大语言模型 RLHF 全链路揭秘:从策略梯度、PPO、GAE 到 DPO 的实战指南


DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge [En/中]

DeepSeek-R1 技术剖析:没有强化学习基础也能看懂的 PPO & GRPO


Why Cache 32 Heads When One Latent Variable Suffices? A Theory-to-Code Guide to DeepSeek’s MLA for KV-Cache [En/中]

从多头共享到潜变量:DeepSeek的MLA在低秩投影与按需解压中重新定义 KV-Cache


From Zero to Reasoning Hero: How DeepSeek-R1 Leverages Reinforcement Learning to Master Complex Reasoning [En/中]

千呼万唤始出来:DeepSeek-R1 如何通过强化学习实现复杂推理


A Review on the Evolvement of Load Balancing Strategy in MoE LLMs: Pitfalls and Lessons [En/中]

关于 MoE 大模型负载均衡策略演进的回顾:坑点与经验教训


2024

Patching the Foundation Models: Pitfalls and Pains in Machine Unlearning [En/中]

给大模型打打补丁:机器反学习方法中的陷阱与痛点


2020

读书笔记——重述《Effective C++》[中/En]

Reading Notes - Talk about Effective C++ in My Own Words


漫谈C++——C++17中的constexpr

C++学习笔记


漫谈C++——const真理大讨论之 const的线程安全

C++学习笔记


漫谈C++——const真理大讨论之 mutable

C++学习笔记


漫谈C++——const真理大讨论之 语法和语义const

C++学习笔记


漫谈C++——谈谈在函数中使用auto

C++学习笔记


漫谈C++——工厂模式中的通行证策略

C++学习笔记


漫谈C++——动态与静态

C++学习笔记


Visual Slam笔记——李群和李代数

Visual SLAM笔记


漫谈C++——谈谈在变量中使用auto

C++学习笔记


漫谈C++——override和final让你的虚函数更安全

C++学习笔记


漫谈C++——从编译期常量到constexpr(三)

C++学习笔记


漫谈C++——从编译期常量到constexpr(二)

C++学习笔记


漫谈C++——从编译期常量到constexpr(一)

C++学习笔记


漫谈C++——C++17新特性之std::optional

C++学习笔记


漫谈C++——用了这么久,你真的懂nullptr吗

C++学习笔记


漫谈C++——起底万能指针void*

C++学习笔记


漫谈C++——右值引用与移动语义

C++学习笔记


漫谈C++——强枚举到底有多强

C++学习笔记


算法笔记——单调栈

Leetcode刷题总结 五


漫谈C++——顶层和底层const

C++学习笔记


刷题笔记——Bitset详解

C++学习笔记


刷题笔记——卡特兰数

LeetCode刷题总结 四


刷题笔记——快慢指针

LeetCode刷题总结 三


刷题笔记——滑动窗口

LeetCode刷题总结 二


刷题笔记——异或的用法

LeetCode 刷题总结一


2019

LeetCode 刷题记录

思路与坑