帮助技术开发者、AI 工程师快速掌握 LLM 推理核心瓶颈、性能指标、优化方案及部署实践

*   01 LLM 推理优化与部署实战/

  *   01 课程内容介绍.mp4 02:49

  *   02 LLM推理基础-预填充与解码阶段.mp4 13:27

  *   03 LLM推理基础-推理阶段与KVCache的关系.mp4 07:54

  *   04 LLM推理基础-生成KVCache过程推演.mp4 13:39

  *   05 LLM推理基础-为何需要对KVCache优化.mp4 06:34

  *   06 LLM推理基础-如何估算模型占用内存.mp4 09:21

  *   07 LLM推理基础-GPU内部运算原理与推理机制的关系.mp4 15:22

  *   08 LLM推理基础-列举LLM存储介质以及如何搬运参数.mp4 06:14

  *   09 LLM推理基础-优化思路-参数量化-运行时加速-IO优化.mp4 04:21

  *   10 LLM推理基础-章节总结.mp4 07:53

  *   11 LLM性能指标-内容介绍.mp4 02:33

  *   12 LLM性能指标-推理评估指标全景图.mp4 05:12

  *   13 LLM性能指标-首词生成时间.mp4 03:46

  *   14 LLM性能指标-每词生成时间.mp4 02:22

  *   15 LLM性能指标-端到端的请求时间.mp4 03:00

  *   16 LLM性能指标-系统吞吐量TPS.mp4 05:04

  *   17 LLM性能指标-业务指标SLO.mp4 06:25

  *   18 LLM性能指标-评测过程与评测工具.mp4 08:49

  *   19 LLM性能指标-章节总结.mp4 05:02

  *   20 模型压缩-内容介绍.mp4 05:43

  *   21 模型压缩-压缩策略-量化-剪枝-蒸馏.mp4 05:45

  *   22 模型压缩-模型量化-参数存储空间的组成.mp4 04:51

  *   23 模型压缩-模型量化前后使用的方法AWQ与GPTQ.mp4 06:56

  *   24 模型压缩-AWQ针对PPL的实验结果.mp4 05:06

  *   25 模型压缩-AWQ量化过程与实现-.mp4 11:34

  *   26 模型压缩-GPTQ量化过程以及优化IO策略.mp4 12:27

  *   27 模型压缩-GPTQ量化工具与实践.mp4 03:15

  *   28 模型压缩-剪枝分类和过程详解.mp4 08:52

  *   29 模型压缩-模型蒸馏分类和应用场景.mp4 08:58

  *   30 模型压缩-章节总结.mp4 08:07

  *   31 运行时加速方案-内容介绍.mp4 05:36

  *   32 运行时加速方案-多头注意力机制原理与弊端.mp4 07:18

  *   33 运行时加速方案-多头注意力计算过程与分析.mp4 05:37

  *   34 运行时加速方案-MQA与GQA机制以及性能比较.mp4 08:09

  *   35 运行时加速方案-GPU运算与数据传输分析.mp4 09:31

  *   36 运行时加速方案-FlashAttention切块和算子.mp4 08:12

  *   37 运行时加速方案-PagedAttention原理解析.mp4 14:01

  *   38 运行时加速方案-持续批处理原理解析.mp4 09:57

  *   39 运行时加速方案-核心推理框架选型.mp4 06:34

  *   40 运行时加速方案-章节总结.mp4 06:18

  *   41 推理部署实战指导与总结.mp4 06:48

*   02 vLLM推理实战/

  *   01 vLLM产品介绍.mp4 08:15

  *   02 vLLM分布式推理.mp4 10:48

  *   03 显卡驱动安装与配置.mp4 09:46

  *   04 Docker进行vLLM模型安装与部署.mp4 12:05

  *   05 测试vLLM部署的大模型.mp4 09:20

  *   06 vLLM分布式部署思路.mp4 12:43

  *   07 系统构建网络配置和框架安装.mp4 15:21

  *   08 Head和Worker节点配置创建推理集群.mp4 10:36

  *   09 测试vLLM分布式部署.mp4 08:06

*   03 高级量化实战/

  *   01 量化实战-量化目的与结果介绍.mp4 12:42

  *   02 量化实战-思路与实战步骤讲解.mp4 06:44

  *   03 量化实战-了解硬件架构量化工具.mp4 05:22

  *   04 量化实战-安装WSL与Conda.mp4 08:23

  *   05 TensorRT模型优化器安装与配置.mp4 16:05

  *   06 NVFP4量化格式.mp4 10:28

  *   07 模型量化脚本解析与校准数据集.mp4 13:23

  *   08 模型量化以及结果查看.mp4 05:07

  *   09 测试量化之后模型查看返回结果.mp4 07:33

  *   10 介绍EvalScope与Perf命令组成.mp4 12:17

  *   11 使用EvalScope评测量化模型.mp4 10:50

  *   12 介绍LLMCompressor量化工具.mp4 10:17

  *   13 安装LLMCompressor.mp4 04:43

  *   14 使用LLMCompressor对GPTQ-AWQ-NV.mp4 12:42

  *   15 针对两种量化工具比较四种量化结果.mp4 11:55

  *   16 量化实战-课程总结.mp4 03:43