LLM推理优化与部署实战

深入LLM推理优化与实战部署

编辑点评

聚焦LLM推理优化,涵盖量化、压缩、加速等实战技巧,适合对大模型性能调优有深入需求的技术人员。

⭐ 编辑推荐

本课程深入探讨LLM推理优化与部署,从基础到实战,助你提升大模型性能。

课程亮点

LLM推理优化实战
量化与压缩技术
模型加速部署

课程目录

3-16 量化实战-课程总结_【公重号:CunWorkNotes】.tle  [16.8 MB]
3-3 量化实战-了解硬件架构量化工具.mp4  [19.3 MB]
1-18 LLM性能指标-评测过程与评测工具【不易整理‖请关注:CunWorkNoteS】.mp4  [31.6 MB]
3-6 NVFP4量化格式【整理不易‖记得关注:CunWorKNotes】.mp4  [35.2 MB]
3-11 使用EvalScope评测量化模型【持续更新‖免费提供:CunworknoteS】.mp4  [52.3 MB]
3-2 量化实战-思路与实战步骤讲解【整理不易‖记得关注:CunWorKNotes】.mp4  [25.1 MB]
1-39 运行时加速方案-核心推理框架选型.mp4  [21.1 MB]
1-6 LLM推理基础-如何估算模型占用内存【整理不易‖记得关注:CunWorKNotes】.mp4  [29.8 MB]
3-4 量化实战-安装WSL与Conda【整理不易‖记得关注:CunWorKNotes】.mp4  [32.4 MB]
1-27 模型压缩-GPTQ量化工具与实践.mp4  [8.1 MB]
1-22 模型压缩-模型量化-参数存储空间的组成.mp4  [17.3 MB]
3-14 使用LLMCompressor对GPTQ-AWQ-NV【整理不易‖记得关注:CunWorKNotes】.tle  [51.4 MB]
1-33 运行时加速方案-多头注意力计算过程与分析_【整理不易‖记得关注:CunWorKNotes】.mp4  [14.8 MB]
3-7 模型量化脚本解析与校准数据集.mp4  [49.0 MB]
3-13 安装LLMCompressor【更多精选‖公众号:CunWorknotes】  .mp4  [16.5 MB]
1-21 模型压缩-压缩策略-量化-剪枝-蒸馏.mp4  [21.5 MB]
1-2 LLM推理基础-预填充与解码阶段_.mp4  [39.9 MB]
1-14 LLM性能指标-每词生成时间【公重号:CunWorkNotes】.mp4  [5.5 MB]
1-4 LLM推理基础-生成KVCache过程推演_【不易整理‖请关注:CunWorkNoteS】.mp4  [33.1 MB]
1-19 LLM性能指标-章节总结.mp4  [15.5 MB]
1-26 模型压缩-GPTQ量化过程以及优化IO策略【公重号:CunWorkNotes】.mp4  [43.6 MB]
1-32 运行时加速方案-多头注意力机制原理与弊端_.mp4  [23.6 MB]
1-5 LLM推理基础-为何需要对KVCache优化_【整理不易‖记得关注:CunWorKNotes】.mp4  [16.7 MB]
01-vLLM推理实战.docx  [2.7 MB]
1-36 运行时加速方案-FlashAttention切块和算子.mp4  [23.9 MB]
1-40 运行时加速方案-章节总结【不易整理‖请关注:CunWorkNoteS】.mp4  [23.1 MB]
1-24 模型压缩-AWQ针对PPL的实验结果【持续更新‖免费提供:CunworknoteS】.mp4  [21.4 MB]
1-3 LLM推理基础-推理阶段与KVCache的关系_.mp4  [19.1 MB]
3-10 介绍EvalScope与Perf命令组成.mp4  [49.8 MB]
1-37 运行时加速方案-PagedAttention原理解析【资源精选‖更多关注:CunworkNotes】.mp4  [44.9 MB]
1-38 运行时加速方案-持续批处理原理解析.mp4  [38.6 MB]
1-7 LLM推理基础-GPU内部运算原理与推理机制的关系【资源精选‖更多关注:CunworkNotes】.mp4  [48.5 MB]
3-5 TensorRT模型优化器安装与配置【更多精选‖公众号:CunWorknotes】  .mp4  [61.4 MB]
1-31 运行时加速方案-内容介绍.mp4  [11.9 MB]
2-3 显卡驱动安装与配置.mp4  [39.5 MB]
2-4 Docker进行vLLM模型安装与部署【优质资源‖关注:cunWorkNotes 解锁】.mp4  [28.1 MB]
1-30 模型压缩-章节总结.mp4  [29.3 MB]
3-8 模型量化以及结果查看.mp4  [24.9 MB]
1-20 模型压缩-内容介绍.mp4  [14.3 MB]
3-15 针对两种量化工具比较四种量化结果_.mp4  [43.1 MB]
3-9 测试量化之后模型查看返回结果.mp4  [34.3 MB]
2-5 测试vLLM部署的大模型【更多精选‖公众号:CunWorknotes】  .mp4  [33.9 MB]
1-29 模型压缩-模型蒸馏分类和应用场景.mp4  [28.4 MB]
《LLM推理优化与部署实战》课件.pptx  [13.2 MB]
1-23 模型压缩-模型量化前后使用的方法AWQ与GPTQ.mp4  [21.4 MB]
3-12 介绍LLMCompressor量化工具【优质资源‖关注:cunWorkNotes 解锁】.mp4  [36.5 MB]
1-15 LLM性能指标-端到端的请求时间【公重号:CunWorkNotes】.mp4  [8.6 MB]
2-1 vLLM产品介绍.mp4  [28.3 MB]
1-10 LLM推理基础-章节总结.mp4  [23.8 MB]
1-41 推理部署实战指导与总结【整理不易‖记得关注:CunWorKNotes】.mp4  [22.6 MB]
2-2 vLLM分布式推理.mp4  [35.8 MB]
1-1 课程内容介绍_【持续更新‖免费提供:CunworknoteS】.mp4  [7.2 MB]
1-17 LLM性能指标-业务指标SLO.mp4  [23.7 MB]
2-9 测试vLLM分布式部署.mp4  [43.5 MB]
1-28 模型压缩-剪枝分类和过程详解.mp4  [30.1 MB]
1-34 运行时加速方案-MQA与GQA机制以及性能比较_【持续更新‖免费提供:CunworknoteS】.mp4  [20.9 MB]
1-9 LLM推理基础-优化思路-参数量化-运行时加速-IO优化.mp4  [11.7 MB]
tle格式播放器说明【更多精选‖公众号:CunWorknotes】  .txt  [381.0 B]
2-6 vLLM分布式部署思路【优质资源‖关注:cunWorkNotes 解锁】.mp4  [39.7 MB]
1-25 模型压缩-AWQ量化过程与实现-【持续更新‖免费提供:CunworknoteS】.mp4  [47.2 MB]
02-量化实战-高级.docx  [4.4 MB]
1-35 运行时加速方案-GPU运算与数据传输分析_【公重号:CunWorkNotes】.mp4  [26.3 MB]
1-12 LLM性能指标-推理评估指标全景图【公重号:CunWorkNotes】.mp4  [12.9 MB]
2-8 Head和Worker节点配置创建推理集群.mp4  [37.1 MB]
2-7 系统构建网络配置和框架安装【持续更新‖免费提供:CunworknoteS】.mp4  [48.5 MB]
1-11 LLM性能指标-内容介绍.mp4  [6.9 MB]
1-8 LLM推理基础-列举LLM存储介质以及如何搬运参数.tle  [17.9 MB]
1-13 LLM性能指标-首词生成时间【持续更新‖免费提供:CunworknoteS】.mp4  [10.9 MB]
1-16 LLM性能指标-系统吞吐量TPS【公重号:CunWorkNotes】.mp4  [14.5 MB]
3-1 量化实战-量化目的与结果介绍.mp4  [46.2 MB]

适合人群

  • 大模型研发人员
  • AI性能优化工程师
  • 算法工程师

学习收获

掌握LLM推理优化方法
学习模型压缩技术
实现模型加速部署

祝您学习愉快!

学有所成,前程似锦!