GitHub · 项目涌现

rohitg00/从零开始的 AI 工程

rohitg00/ai-engineering-from-scratch

二〇二六年五月十二日·★ 6,484·⑂ 1,357·Python·MIT · GitHub 原仓库

摘要

Rohitg00 在 GitHub 上发布了一个名为“从零开始学AI工程”的开源课程，包含 283+ 节课、20 个阶段、约 320 小时内容。课程覆盖从线性代数到自主智能体集群的 AI 工程全栈，使用 Python、TypeScript、Rust、Julia 四种语言。每节课产出可复用的 prompt、技能、智能体和 MCP 服务器。课程采用 AI 原生学习方式，内置 Claude Code 技能用于定位起点和测验。

🧠 从零开始学AI工程

从线性代数到自主智能体集群。用AI学习AI，然后交付工具。

🧭 快速导航

🚀 开始 · 🤖 AI原生 · 🗺️ 学习旅程 · 🧰 工具包 · 📚 术语表 · 🛣️ 路线图 · 🤝 贡献 · 🌐 网站

💬 "84%的学生已经在使用AI工具。只有18%的人觉得自己有能力在专业场景中使用它们。

本课程旨在弥合这一差距。"

283+节课。20个阶段。约320小时。 从线性代数到自主智能体集群。Python、TypeScript、Rust、Julia。每节课都会产出可复用的成果：prompt、技能、智能体和MCP服务器。

你不仅学习AI。你用AI学习AI。然后构建真实的东西。最后交付他人可用的工具。

🆚 为什么选择这门课？

🤖 AI原生学习

这不是一门你观看的课程。这是一门你与你的AI编码智能体一起使用的课程。

🎯 用AI学习，而不仅仅是学习AI

# 🧪 根据你已有的知识找到起点
/find-your-level

# ✅ 完成一个阶段后进行自我测验
/check-understanding 3

# 📦 每节课都会产出一个可复用的工件
ls phases/03-deep-learning-core/05-loss-functions/outputs/
# ├── prompt-loss-function-selector.md
# └── prompt-loss-debugger.md

🛠️ 内置Claude Code技能

🎴 技能	⚡ 功能
	🧭 10道题的测验，将你的知识映射到起始阶段，并构建包含时间估算的个性化学习路径
	📝 每个阶段的测验（8道题），附带反馈和需要复习的具体课程

🚢 每节课都有产出

其他课程以*"恭喜，你学会了X"*结束。我们的课程以可复用的工具结束：

📝Prompts 粘贴到任何AI助手中获取专家级帮助

🎴技能安装到Claude Code、Cursor或任何智能体中

🤖智能体 部署为自主工作单元

🔌MCP服务器 接入任何兼容MCP的AI应用

包含277个术语的可搜索术语表。完整的课程目录。约306小时的内容，每节课都有时间估算。 🌐 浏览网站 →

🗺️ 学习旅程

20个阶段 · 283+节课 · 点击任意阶段展开

图例： 动手实现 · 概念 + 直觉

`12节课`

🛠️ 为后续所有内容准备好你的环境。

#	课程	语言
01	开发环境	🐍 🟦 🦀
02	Git与协作	—
03	GPU设置与云服务	🐍
04	API与密钥	🐍 🟦
05	Jupyter Notebooks	🐍
06	Python环境	🐍
07	AI的Docker	🐍
08	编辑器设置	—
09	数据管理	🐍
10	终端与Shell	—
11	AI的Linux	—
12	调试与性能分析	🐍

#	课程	语言
01	线性代数直觉	🐍 🟣
02	向量、矩阵与运算	🐍 🟣
03	矩阵变换与特征值	🐍 🟣
04	ML的微积分：导数与梯度	🐍
05	链式法则与自动微分	🐍
06	概率与分布	🐍
07	贝叶斯定理与统计思维	🐍
08	优化：梯度下降家族	🐍
09	信息论：熵、KL散度	🐍
10	降维：PCA、t-SNE、UMAP	🐍
11	奇异值分解	🐍 🟣
12	张量运算	🐍
13	数值稳定性	🐍
14	范数与距离	🐍
15	ML的统计学	🐍
16	采样方法	🐍
17	线性系统	🐍
18	凸优化	🐍
19	AI的复数	🐍
20	傅里叶变换	🐍
21	ML的图论	🐍
22	随机过程	🐍

#	课程	语言
01	什么是机器学习	🐍
02	从零实现线性回归	🐍
03	逻辑回归与分类	🐍
04	决策树与随机森林	🐍
05	支持向量机	🐍
06	KNN与距离度量	🐍
07	无监督学习：K-Means、DBSCAN	🐍
08	特征工程与选择	🐍
09	模型评估：指标、交叉验证	🐍
10	偏差、方差与学习曲线	🐍
11	集成方法：Boosting、Bagging、Stacking	🐍
12	超参数调优	🐍
13	ML流水线与实验追踪	🐍
14	朴素贝叶斯	🐍
15	时间序列基础	🐍
16	异常检测	🐍
17	处理不平衡数据	🐍
18	特征选择	🐍

#	课程	语言
01	感知机：一切开始的地方	🐍
02	多层网络与前向传播	🐍
03	从零实现反向传播	🐍
04	激活函数：ReLU、Sigmoid、GELU及其原理	🐍
05	损失函数：MSE、交叉熵、对比损失	🐍
06	优化器：SGD、Momentum、Adam、AdamW	🐍
07	正则化：Dropout、权重衰减、BatchNorm	🐍
08	权重初始化与训练稳定性	🐍
09	学习率调度与预热	🐍
10	构建你自己的迷你框架	🐍
11	PyTorch入门	🐍
12	JAX入门	🐍
13	调试神经网络	🐍

#	课程	语言
01	图像基础：像素、通道、色彩空间	🐍
02	从零实现卷积	🐍
03	CNN：从LeNet到ResNet	🐍
04	图像分类	🐍
05	迁移学习与微调	🐍
06	目标检测——从零实现YOLO	🐍
07	语义分割——U-Net	🐍
08	实例分割——Mask R-CNN	🐍
09	图像生成——GAN	🐍
10	图像生成——扩散模型	🐍
11	Stable Diffusion——架构与微调	🐍
12	视频理解——时序建模	🐍
13	3D视觉：点云、NeRF	🐍
14	视觉Transformer（ViT）	🐍
15	实时视觉：边缘部署	🐍 🦀
16	构建完整的视觉流水线	🐍
17	自监督视觉——SimCLR、DINO、MAE	🐍
18	开放词汇视觉——CLIP	🐍
19	OCR与文档理解	🐍
20	图像检索与度量学习	🐍
21	关键点检测与姿态估计	🐍
22	从零实现3D高斯泼溅	🐍
23	扩散Transformer与Rectified Flow	🐍
24	SAM 3与开放词汇分割	🐍
25	视觉语言模型（ViT-MLP-LLM）	🐍
26	单目深度与几何估计	🐍
27	多目标跟踪与视频记忆	🐍
28	世界模型与视频扩散	🐍

#	课程	语言
01	文本处理：分词、词干提取、词形还原	🐍
02	词袋模型、TF-IDF与文本表示	🐍
03	词嵌入：从零实现Word2Vec	🐍
04	GloVe、FastText与子词嵌入	🐍
05	情感分析	🐍
06	命名实体识别（NER）	🐍
07	词性标注与句法分析	🐍
08	文本分类——用于文本的CNN与RNN	🐍
09	序列到序列模型	🐍
10	注意力机制——突破性进展	🐍
11	机器翻译	🐍
12	文本摘要	🐍
13	问答系统	🐍
14	信息检索与搜索	🐍
15	主题建模：LDA、BERTopic	🐍
16	文本生成	🐍
17	聊天机器人：从规则到神经网络	🐍
18	多语言NLP	🐍
19	子词分词：BPE、WordPiece、Unigram、SentencePiece	🐍
20	结构化输出与约束解码	🐍
21	NLI与文本蕴含	🐍
22	嵌入模型深度解析	🐍
23	RAG的分块策略	🐍
24	指代消解	🐍
25	实体链接与消歧	🐍
26	关系抽取与知识图谱构建	🐍
27	LLM评估：RAGAS、DeepEval、G-Eval	🐍
28	长上下文评估：NIAH、RULER、LongBench、MRCR	🐍
29	对话状态追踪	🐍

#	课程	语言
01	音频基础：波形、采样、FFT	🐍
02	频谱图、Mel尺度与音频特征	🐍
03	音频分类	🐍
04	语音识别（ASR）	🐍
05	Whisper：架构与微调	🐍
06	说话人识别与验证	🐍
07	文本转语音（TTS）	🐍
08	语音克隆与语音转换	🐍
09	音乐生成	🐍
10	音频语言模型	🐍
11	实时音频处理	🐍 🦀
12	构建语音助手流水线	🐍
13	神经音频编解码器——EnCodec、SNAC、Mimi、DAC	🐍
14	语音活动检测与话轮转换	🐍
15	流式语音到语音——Moshi、Hibiki	🐍
16	语音反欺骗与音频水印	🐍
17	音频评估——WER、MOS、MMAU、排行榜	🐍

#	课程	语言
01	为什么是Transformer：RNN的问题	🐍
02	从零实现自注意力	🐍
03	多头注意力	🐍
04	位置编码：Sinusoidal、RoPE、ALiBi	🐍
05	完整Transformer：编码器+解码器	🐍
06	BERT——掩码语言建模	🐍
07	GPT——因果语言建模	🐍
08	T5、BART——编码器-解码器模型	🐍
09	视觉Transformer（ViT）	🐍
10	音频Transformer——Whisper架构	🐍
11	混合专家模型（MoE）	🐍
12	KV缓存、Flash Attention与推理优化	🐍
13	缩放定律	🐍
14	从零构建Transformer	🐍

#	课程	语言
01	生成模型：分类与历史	🐍
02	自编码器与VAE	🐍
03	GAN：生成器与判别器	🐍
04	条件GAN与Pix2Pix	🐍
05	StyleGAN	🐍
06	扩散模型——从零实现DDPM	🐍
07	潜在扩散与Stable Diffusion	🐍
08	ControlNet、LoRA与条件控制	🐍
09	图像修复、外绘与编辑	🐍
10	视频生成	🐍
11	音频生成	🐍
12	3D生成	🐍
13	Flow Matching与Rectified Flows	🐍
14	评估：FID、CLIP Score	🐍

#	课程	语言
01	MDP、状态、动作与奖励	🐍
02	动态规划	🐍
03	蒙特卡洛方法	🐍
04	Q-Learning、SARSA	🐍
05	深度Q网络（DQN）	🐍
06	策略梯度——REINFORCE	🐍
07	Actor-Critic——A2C、A3C	🐍
08	PPO	🐍
09	奖励建模与RLHF	🐍
10	多智能体RL	🐍
11	Sim-to-Real迁移	🐍
12	游戏中的RL	🐍

#	课程	语言
01	分词器：BPE、WordPiece、SentencePiece	🐍
02	从零构建分词器	🐍
03	预训练的数据流水线	🐍
04	预训练迷你GPT（124M）	🐍
05	分布式训练、FSDP、DeepSpeed	🐍
06	指令微调——SFT	🐍
07	RLHF——奖励模型+PPO	🐍
08	DPO——直接偏好优化	🐍
09	宪法AI与自我改进	🐍
10	评估——基准、评测	🐍
11	量化：INT8、GPTQ、AWQ、GGUF	🐍 🦀
12	推理优化	🐍
13	构建完整的LLM流水线	🐍
14	开源模型：架构详解	🐍
15	投机解码与EAGLE-3	🐍
16	差分注意力（V2）	🐍
17	原生稀疏注意力（DeepSeek NSA）	🐍
18	多Token预测（MTP）	🐍
19	DualPipe并行	🐍
20	DeepSeek-V3架构详解	🐍
21	Jamba——混合SSM-Transformer	🐍
22	异步与Hogwild!推理	🐍

#	课程	语言
01	Prompt工程：技术与模式	🐍
02	Few-Shot、CoT、思维树	🐍
03	结构化输出	🐍 🟦
04	嵌入与向量表示	🐍
05	上下文工程	🐍 🟦
06	RAG：检索增强生成	🐍 🟦
07	高级RAG：分块、重排序	🐍
08	使用LoRA与QLoRA进行微调	🐍
09	函数调用与工具使用	🐍
10	评估与测试	🐍
11	缓存、速率限制与成本	🐍
12	护栏与安全	🐍
13	构建生产级LLM应用	🐍
14	模型上下文协议（MCP）	🐍
15	Prompt缓存与上下文缓存	🐍

#	课程	语言
01	视觉Transformer与Patch-Token原语	🐍
02	CLIP与对比视觉语言预训练	🐍
03	BLIP-2 Q-Former作为模态桥接	🐍
04	Flamingo与门控交叉注意力	🐍
05	LLaVA与视觉指令微调	🐍
06	任意分辨率视觉——Patch-n'-Pack与NaFlex	🐍
07	开源VLM配方：真正重要的东西	🐍
08	LLaVA-OneVision：单图、多图、视频	🐍
09	Qwen-VL家族与动态FPS视频	🐍
10	InternVL3原生多模态预训练	🐍
11	Chameleon早期融合纯Token	🐍
12	Emu3用于生成的Next-Token预测	🐍
13	Transfusion自回归+扩散	🐍
14	Show-o离散扩散统一	🐍
15	Janus-Pro解耦编码器	🐍
16	MIO任意到任意流式	🐍
17	视频语言时序定位	🐍
18	百万Token上下文的长视频	🐍
19	音频语言模型：从Whisper到AF3	🐍
20	全模态模型：Thinker-Talker流式	🐍
21	具身VLA：RT-2、OpenVLA、π0、GR00T	🐍
22	文档与图表理解	🐍
23	ColPali视觉原生文档RAG	🐍
24	多模态RAG与跨模态检索	🐍
25	多模态智能体与计算机使用（毕业项目）	🐍

#	课程	语言
01	工具接口	🐍
02	函数调用深度解析	🐍
03	并行与流式工具调用	🐍
04	结构化输出	🐍
05	工具Schema设计	🐍
06	MCP基础	🐍
07	构建MCP服务器	🐍
08	构建MCP客户端	🐍
09	MCP传输层	🐍
10	MCP资源与Prompts	🐍
11	MCP采样	🐍
12	MCP Roots与Elicitation	🐍
13	MCP异步任务	🐍
14	MCP应用	🐍
15	MCP安全I——工具投毒	🐍
16	MCP安全II——OAuth 2.1	🐍
17	MCP网关与注册中心	🐍
18	生产环境MCP认证——DCR + JWKS on iii	🐍
19	A2A协议	🐍
20	OpenTelemetry GenAI	🐍
21	LLM路由层	🐍
22	技能与Agent SDK	🐍
23	毕业项目——工具生态系统	🐍

#	课程	语言
01	智能体循环	🐍
02	ReWOO与Plan-and-Execute	🐍
03	Reflexion与言语强化学习	🐍
04	思维树与LATS	🐍
05	Self-Refine与CRITIC	🐍
06	工具使用与函数调用	🐍
07	记忆——虚拟上下文与MemGPT	🐍
08	记忆块与睡眠时间计算	🐍
09	混合记忆——Mem0向量+图+KV	🐍
10	技能库与终身学习——Voyager	🐍
11	使用HTN与进化搜索进行规划	🐍
12	Anthropic的工作流模式	🐍
13	LangGraph——有状态图与持久化执行	🐍
14	AutoGen v0.4——Actor模型	🐍
15	CrewAI——基于角色的团队与流程	🐍
16	OpenAI Agents SDK——交接、护栏、追踪	🐍
17	Claude Agent SDK——子智能体与会话存储	🐍
18	Agno与Mastra——生产运行时	🐍 🟦
19	基准——SWE-bench、GAIA、AgentBench	🐍
20	基准——WebArena与OSWorld	🐍
21	计算机使用——Claude、OpenAI CUA、Gemini	🐍
22	语音智能体——Pipecat与LiveKit	🐍
23	OpenTelemetry GenAI语义约定	🐍
24	智能体可观测性——Langfuse、Phoenix、Opik	🐍
25	多智能体辩论与协作	🐍
26	故障模式——智能体为何失效	🐍
27	Prompt注入与PVE防御	🐍
28	编排模式——监督者、集群、层级	🐍
29	生产运行时——队列、事件、Cron	🐍
30	评估驱动的智能体开发	🐍

#	课程	语言
01	从聊天机器人到长周期智能体（METR）	🐍
02	STaR、V-STaR、Quiet-STaR：自学推理	🐍
03	AlphaEvolve：进化编码智能体	🐍
04	Darwin Gödel Machine：自修改智能体	🐍
05	AI Scientist v2：工坊级研究	🐍
06	自动化对齐研究（Anthropic AAR）	🐍
07	递归自我改进：能力与对齐	🐍
08	有界自我改进设计	🐍
09	自主编码智能体全景（SWE-bench、CodeAct）	🐍
10	Claude Code权限模式与自动模式	🐍
11	浏览器智能体与间接Prompt注入	🐍
12	长运行智能体的持久化执行	🐍
13	动作预算、迭代上限、成本调控器	🐍
14	终止开关、断路器、Canary Token	🐍
15	HITL：提议-然后-提交	🐍
16	检查点与回滚	🐍
17	宪法AI与规则覆盖	🐍
18	Llama Guard与输入/输出分类	🐍
19	Anthropic负责任扩展政策v3.0	🐍
20	OpenAI准备框架与DeepMind FSF	🐍
21	METR时间范围与外部评估	🐍
22	CAIS、CAISI与社会规模风险	🐍

#	课程	语言
01	为什么需要多智能体	🟦
02	FIPA-ACL遗产与言语行为	🐍
03	通信协议	🟦
04	多智能体原语模型	🐍
05	监督者/编排器-工作者模式	🐍
06	层级架构与分解漂移	🐍
07	思维社会与多智能体辩论	🐍
08	角色专业化——规划者/批评者/执行者/验证者	🐍
09	并行集群与网络化架构	🐍
10	群聊与发言者选择	🐍
11	交接与例程（无状态编排）	🐍
12	A2A——智能体到智能体协议	🐍
13	共享记忆与黑板模式	🐍
14	共识与拜占庭容错	🐍
15	投票、自洽性与辩论拓扑	🐍
16	谈判与讨价还价	🐍
17	生成式智能体与涌现模拟	🐍
18	心智理论与涌现协调	🐍
19	集群优化（PSO、ACO）	🐍
20	MARL——MADDPG、QMIX、MAPPO	🐍
21	智能体经济、Token激励、声誉	🐍
22	生产环境扩展——队列、检查点、持久性	🐍
23	故障模式——MAST、群体思维、单一文化	🐍
24	评估与协调基准	🐍
25	案例研究与2026年最新技术	🐍

#	课程	语言
01	托管LLM平台——Bedrock、Azure OpenAI、Vertex AI	🐍
02	推理平台经济学——Fireworks、Together、Baseten、Modal	🐍
03	Kubernetes上的GPU自动缩放——Karpenter、KAI Scheduler	🐍
04	vLLM服务内部原理——PagedAttention、Continuous Batching、Chunked Prefill	🐍
05	生产环境中的EAGLE-3投机解码	🐍
06	SGLang与RadixAttention用于前缀密集型工作负载	🐍
07	Blackwell上的TensorRT-LLM，使用FP8与NVFP4	🐍
08	推理指标——TTFT、TPOT、ITL、Goodput、P99	🐍
09	生产环境量化——AWQ、GPTQ、GGUF、FP8、NVFP4	🐍
10	无服务器LLM的冷启动缓解	🐍
11	多区域LLM服务与KV缓存局部性	🐍
12	边缘推理——ANE、Hexagon、WebGPU、Jetson	🐍
13	LLM可观测性栈选择	🐍
14	Prompt缓存与语义缓存经济学	🐍
15	批量API——50%折扣作为行业标准	🐍
16	模型路由作为成本降低原语	🐍
17	分离式Prefill/Decode——NVIDIA Dynamo与llm-d	🐍
18	使用LMCache KV卸载的vLLM生产栈	🐍
19	AI网关——LiteLLM、Portkey、Kong、Bifrost	🐍
20	影子、金丝雀与渐进式部署	🐍
21	LLM特性的A/B测试——GrowthBook与Statsig	🐍
22	LLM API的负载测试——k6、LLMPerf、GenAI-Perf	🐍
23	AI的SRE——多智能体事件响应	🐍
24	LLM生产环境的混沌工程	🐍
25	安全——密钥、PII擦除、审计日志	🐍
26	合规——SOC 2、HIPAA、GDPR、EU AI Act、ISO 42001	🐍
27	LLM的FinOps——单位经济学与多租户归因	🐍
28	自托管服务选择——llama.cpp、Ollama、TGI、vLLM、SGLang	🐍

#	课程	语言
01	指令遵循作为对齐信号	🐍
02	奖励黑客与古德哈特定律	🐍
03	直接偏好优化家族	🐍
04	谄媚作为RLHF的放大效应	🐍
05	宪法AI与RLAIF	🐍
06	Mesa优化与欺骗性对齐	🐍
07	休眠智能体——持久欺骗	🐍
08	前沿模型中的上下文阴谋	🐍
09	对齐伪装	🐍
10	AI控制——尽管存在颠覆，仍保安全	🐍
11	可扩展监督与弱到强	🐍
12	红队测试：PAIR与自动化攻击	🐍
13	多轮越狱	🐍
14	ASCII艺术与视觉越狱	🐍
15	间接Prompt注入与工具滥用	🐍
16	数据中毒与后门攻击	🐍
17	模型窃取与提取攻击	🐍
18	对抗性鲁棒性——PGD、FGSM、对抗训练	🐍
19	可解释性——特征可视化、探针、SAE	🐍
20	激活门控与表示工程	🐍
21	因果追踪与电路发现	🐍
22	监控与异常检测	🐍
23	偏见审计与公平性指标	🐍
24	隐私——联邦学习、差分隐私	🐍
25	模型遗忘与数据删除	🐍
26	AI透明度——模型卡、数据表、影响评估	🐍
27	AI治理——董事会、政策、审计	🐍
28	AI安全案例研究	🐍
29	构建负责任的AI系统	🐍
30	AI对齐的未来方向	🐍

#	课程	语言
01	毕业项目选择与范围界定	🐍
02	系统设计与架构	🐍
03	数据收集与准备	🐍
04	模型选择与训练	🐍
05	评估与迭代	🐍
06	部署与监控	🐍
07	文档与演示	🐍
08	代码审查与优化	🐍
09	最终演示与展示	🐍
10	反思与下一步	🐍

🧰 课程产出：工具包

你不仅学习AI。你构建AI。然后交付工具。

每节课都会产出可复用的工件。以下是你在整个课程中构建的内容示例：

类别	示例产出
📝 Prompts	`prompt-loss-function-selector.md` · `prompt-architecture-validator.md` · `prompt-debugging-assistant.md`
🎴 技能	`/find-your-level` · `/check-understanding` · 自定义Claude Code技能
🤖 智能体	代码审查智能体 · 文档智能体 · 研究智能体 · 数据流水线智能体
🔌 MCP服务器	数据库MCP · 文件系统MCP · API网关MCP · 搜索MCP
🐍 Python包	`ai-utils` · `model-eval` · `agent-framework` · `data-pipeline`
🟦 TypeScript应用	Web仪表盘 · API服务器 · CLI工具 · 浏览器扩展
🦀 Rust库	高性能推理 · 音频处理 · 量化内核
🟣 Julia包	数学原语 · 优化求解器 · 概率模型

🌐 浏览完整工具包 →

🚀 开始

准备好开始你的AI工程之旅了吗？

前提条件

基本的编程知识（任何语言）
一台可以运行代码的计算机（建议使用GPU，但非必需）
对学习AI的热情

快速开始

# 克隆仓库
git clone https://github.com/rohitg00/ai-engineering-from-scratch.git
cd ai-engineering-from-scratch

# 找到你的起点
# 在Claude Code中运行：
/find-your-level

# 或者手动浏览阶段
ls phases/

学习路径

新手？ 从阶段0开始，按顺序进行
有经验？ 运行/find-your-level获取个性化路径
只想学习特定主题？ 直接跳转到相关阶段

🤝 贡献

我们欢迎各种形式的贡献！

查看贡献指南了解如何参与。

贡献方式：

🐛 报告问题
💡 建议新课程
📝 改进现有课程
🌐 帮助翻译
🎨 改进文档

📄 许可证

MIT许可证

用❤️和🤖构建

🌐 网站 · 🐙 GitHub · 📚 术语表 · 🛣️ 路线图

同时见于 gh-search:llm、gh-search:mcp

译自 GitHub · 项目涌现 · 录于二〇二六年五月十二日