多模态系列课程第一季图文与视频理解

课程简介(27:16)

课程相关资料下载

Tommy的AI学习圈

PREVIEW

START

第一章多模态大模型前沿技术综述与最新进展

学前下载-本系列课程思维导图

多模态AI简介与最新技术进展(25:51)

]通用多模态架构核心组件及其实现方式解析(17:05)

领域多模态架构及其视觉编码器和投影器详解(35:45)

领域多模态MoE、Mamba与统一框架:高效多模态方案(21:37)

从预训练到微调:数据在多模态模型中的全周期应用(21:04)

前沿多模态微调技术:PEFT与RLHF技术解析(23:54)

多模态评估方法详解(26:49)

多模态幻觉:数据、模型与训练深入探讨(31:37)

多模态模型应用场景分析(20:12)

小测验

START

第二章多模态视觉编码器系列算法深度解析

]视觉编码器CLIP算法原理深入讲解(26:45)

]视觉编码器EVA系列模型深入讲解(26:18)A

START

第三章多模态投影器系列算法核心解析

投影器TokenPacker算法原理深入讲解(28:16)

投影器Matryoshka算法原理深入讲解(27:18)

第四章LLaVA多模态系列算法实战解析LLaVA系列学习指南与课程内容速览(19:59)LLaVA简介与视觉指令数据生成的原理(13:09)LLaVA基于视觉指令数据进行模型微调的原理(13:31)LLaVA1.5探索视觉指令微调与高分辨率扩展(19:23)]LLaVA1.6从高分辨率输入到高效部署(8:56)LL-#

]LLaVA-NeXT全面的消融研究与综合分析(23:26)

LLaVA-NeXT-Interleave核心原理与架构解析(16:33)

START

第五章实战项目1:LLaVA多模态模型全流程实战

LLaVA实战项目资料

LLaVA环境配置与模型下载(13:45)

LLaVA在五种场景下的模型部署与推理(25:17)

基于Transformers进行LLaVA案例实践(19:13)

]Transformers框架下LLaVA推理核心源码解析(20:43)