第一阶段 从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long第三阶段 从LongLora到LongQLora第四阶段 大模型上下文长度扩
* 第一阶段 从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long/
* 第1课 transformer原始论文中的标准位置编码
* 第2课 从复数到欧拉公式
* 第3课 旋转位置编码(RoPE)的推导与实现
* 第4课 线性偏差注意力ALiBi与LLaMA 2 Long
* 第6课 从RoPE、位置内插到NTK-aware/NTK-by-parts/Dynamic NTK插值2
* 第7课 YaRN全面解析
* 第三阶段 从LongLora到LongQLora/
* 第8课 LongLora
* 第9课 LongQLora:QLoRA to Attention层且训练时S2推理时全局
* 第10课 LongQLoRA的源码剖析
* 第四阶段 大模型上下文长度扩展的最新方法:SelfExtended、LongRoPE、CEPE/
* 第11课 得克萨斯SelfExtended、陈丹琦团队CEPE
* 第12课 微软LongRoPE
* 第13课 清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回
* 第五阶段 通透理解FlashAttention与FlashAttention2/
* 第14课 FlashAttention
* 第15课 FlashAttention2





![[衡天云]爆款云服务器 低至12元/月](/hty.png)