Pixiv - おむたつ/omutatsu
Slurm Pitfalls
在编写分布式训练脚本时,我们通常需要通过环境变量向每个进程传递 RANK、WORLD_SIZE 和 LOCAL_RANK 等信息。本文记录了一个在 Slurm 脚本中设置环境变量时遇到的陷阱。
解读 DeepSeek V4
2026年5月,DeepSeek-AI 发布了 DeepSeek-V4 系列的预览版本。这一代最引人注目的突破是:首次在开放模型中原生支持百万 token 上下文,且效率相比前代大幅提升。
CS336 Lecture Notes 2
本节内容基于 Lecture 3,主题为 “Everything You Didn’t Want to Know About LM Architecture and Hyperparameters”,系统性地介绍了现代大语言模型的架构设计选择和超参数配置共识。
CS336 Lecture Notes 4
本讲主题是多GPU并行。与上一讲关注单GPU内部优化(通过融合/分块减少内存访问)不同,本讲关注如何通过复制/分片减少跨GPU/节点通信。
CS336 Lecture Notes 5
想象这样一个场景:朋友给你一万张 B200 GPU 一个月的使用权,让你构建一个优秀的开源语言模型。你会怎么做?