分布式 PyTorch 初探
在一个包含 4 个 GPU 的节点上运行的结果如下:
Slurm Pitfalls
在编写分布式训练脚本时,我们通常需要通过环境变量向每个进程传递 RANK、WORLD_SIZE 和 LOCAL_RANK 等信息。本文记录了一个在 Slurm 脚本中设置环境变量时遇到的陷阱。
解读 DeepSeek V4
2026年5月,DeepSeek-AI 发布了 DeepSeek-V4 系列的预览版本。这一代最引人注目的突破是:首次在开放模型中原生支持百万 token 上下文,且效率相比前代大幅提升。
CS336 Lecture Notes 1
简单来说就是将输入(一般为文本)编码为一个 token 序列,可以在 Tiktokenizer 感受这一过程。
CS336 Lecture Notes 2
本节内容基于 Lecture 3,主题为 “Everything You Didn’t Want to Know About LM Architecture and Hyperparameters”,系统性地介绍了现代大语言模型的架构设计选择和超参数配置共识。
CS336 Lecture Notes 3
距离 SM 越近的内存越快:
CS336 Lecture Notes 4
本讲主题是多GPU并行。与上一讲关注单GPU内部优化(通过融合/分块减少内存访问)不同,本讲关注如何通过复制/分片减少跨GPU/节点通信。
CS336 Lecture Notes 5
想象这样一个场景:朋友给你一万张 B200 GPU 一个月的使用权,让你构建一个优秀的开源语言模型。你会怎么做?
CS336 Lecture Notes 6
本节探讨 LLM scaling 的最佳实践:
CS336 Lecture Notes 7
核心观点:数据是训练语言模型最关键的要素。
Profile Image of the Author
Ming
你是来找 Ming 学习的吗
🎉 欢迎来到 Ming 的博客
这里是我的个人博客,分享 AI Infra、LLM 等技术内容。欢迎关注交流!
分类
标签
站点统计
文章
19
分类
6
标签
12
总字数
69,591
运行时长
0
最后活动
0 天前

目录