Brian老师的AI课程笔记

第1章【扬帆启程】深度求索：课程导学与AI基础

第2章【行业概览】 LLM时代背景与应用价值，搜索+生成的时代

第3章【初识DeepSeek】多模态与MoE核心特性

第4章【通用提示词能力】大模型“基石”，从聊天到精准AI交互

第5章【进阶应用】界面化工作流整合：让DeepSeek融入业务

第6章【企业级开发准备】 AI编程环境与常用开发工具LLM应用案例

第7章【RAG根基】深度学习与Transformer剖析

第8章【本地私有化】 DeepSeek部署与数据安全

第9章【API实践】DeepSeek推理与多场景接入

第10章【爆火AI工具】MCP 能力开发与接入实战全流程（纯扩展的）

第11章【搜索整合】 RAG原理与本地搜索方案

第12章【本地化搜索方案】开源库与数据整合

第13章【向量检索】解锁海量数据的高效检索之道

第14章【编排实战】运用LangChain串联搜索与生成，打造智能工作流

第15章【RAG进阶】搜索与向量数据库的深度结合

第16章【多Agent协同】企业级搜索分析的强化，更灵活的知识与决策

第17章【可视化UI进阶】开源UI界面Open WebUI打造本地 AI 聊天系统

第18章【生产部署】高性能推理与容器化思路持续更新

第19章【定制简易界面】开发测试用：Gradio/Streamlit打造交互体验持续更新

第20章【接口并发】 API安全、限流与监控管理，如何效率+性能兼顾持续更新

第21章【微调与扩展】让模型更贴近业务需求持续更新

第22章【课程回响】AI生成式课程笔记 × 教学内容RAG化实践持续更新

模型规模	FP16显存	INT8显存	INT4显存	上下文8K显存
7B	14GB	7GB	4GB	16-18GB
13B	26GB	13GB	7GB	30-32GB
32B	64GB	32GB	16GB	70-75GB
70B	140GB	70GB	35GB	150-160GB

模型/平台	最低显存需求	推荐内存	典型部署场景
DeepSeek-R1 7B / Qwen2-7B	8GB (INT4)	16GB	轻量智能体、文档摘要
DeepSeek-R1 14B / Qwen3-32B	16GB	32GB	多轮对话、RAG知识库
DeepSeek-R1 70B (量化)	24GB (双卡或A100)	64GB+	专业级智能体、多模态生成
Llama-4 / Phi-4 (未量化)	48GB+	96GB+	企业级Agentic AI、长上下文推理

量化类型	显存占用	准确率损失	延迟变化	适用场景
FP16	100%	基准	基准	生产环境首选
INT8	50%	-1.6%	-15%	性能与精度平衡
INT4	25%	-7.4%	-29%	边缘设备/消费级显卡
FP8 (2026新标准)	50%	-0.5%	-20%	RTX 40/50系显卡优化

显卡	显存	适用模型	价格	核心特点
RTX 4060 Ti 16GB	16GB	7B-FP16/13B-INT4	¥3,500	入门首选，性价比极高
RTX 5060 Ti 16GB	16GB GDDR7	7B-FP16/13B-INT4	¥4,200	DLSS 4支持，带宽提升50%
RTX 4090	24GB	13B-FP16/32B-INT8	¥14,000	甜品级旗舰，广泛支持
RTX 5070 Ti 16GB	16GB GDDR7	13B-FP16/32B-INT4	¥8,000	2K 240Hz全能选手
RTX 5090	32GB GDDR7	32B-FP16/70B-INT4	¥35,000+	消费级王者

显卡	显存	FP16算力	适用场景	云服务价格
A10	24GB	125 TFLOPS	中小规模推理	¥5/小时
A100 80GB	80GB	312 TFLOPS	大规模生产	¥25/小时
H100 80GB	80GB HBM3	989 TFLOPS	最高性能需求	¥40/小时
H200 141GB	141GB HBM3e	989 TFLOPS	超大模型训练	¥50/小时

Brian老师的AI课程笔记

模型硬件推荐与系统环境要求

显存与模型参数关系

核心计算公式

2026年模型显存需求对照表

量化技术深度解析

量化原理与精度损失

量化工具实战

GPU选型建议(2026年最新)

消费级显卡推荐

专业/服务器显卡推荐

Apple Silicon方案

操作系统推荐

软件环境配置

Docker快速启动

Python环境配置

vLLM服务部署

硬件监控命令

常见问题与解决方案

部署成本对比(2026年)

推理框架推荐(2026年)

选型决策树

入门尝鲜档（5000-8000元）

进阶性价比档（10000-15000元）

高端发烧档（20000-30000元）

未来趋势展望

2026年技术风向

升级建议

芯片	统一内存	7B模型吞吐	13B模型支持
M1 Pro	16GB	8 t/s	INT4量化
M2 Ultra	192GB	35 t/s	FP16原生
M3 Max	128GB	25 t/s	INT8量化
M4 Max (2026)	256GB	45 t/s	FP16原生

系统	特点	适用场景
Ubuntu 22.04 LTS	CUDA支持完善，社区资源丰富	通用AI服务器
Rocky Linux 9	企业级稳定性，RHEL兼容	金融/医疗领域
macOS	Metal加速，M系列芯片优化	开发/测试环境
Windows WSL2	需额外配置CUDA	不推荐生产

问题	原因	解决方案
Docker无法识别GPU	nvidia-container-toolkit未安装	`sudo apt install nvidia-container-toolkit`
Ollama速度突然下降	触发内存交换	检查活动监视器，重启服务，增加内存
显存不足OOM	上下文过长或batch过大	启用FlashAttention、量化或减少batch
CUDA out of memory	模型参数超出显存	使用4-bit量化，显存占用减75%
PCIe带宽瓶颈	使用PCIe 3.0 x8	升级到PCIe 4.0/5.0主板

配置	月成本	支持QPS	适用场景
RTX 4060 Ti 自建	¥500（电费）	10	个人开发
RTX 4090x2 自建	¥8,000	50	小团队
4xA100 云服务	¥18,000	500	中型企业
8xH100 云服务	¥80,000	2000	大规模生产