第一阶段 从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long第三阶段 从LongLora到LongQLora第四阶段 大模型上下文长度扩

*   第一阶段 从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long/

  *   第1课 transformer原始论文中的标准位置编码

  *   第2课 从复数到欧拉公式

  *   第3课 旋转位置编码(RoPE)的推导与实现

  *   第4课 线性偏差注意力ALiBi与LLaMA 2 Long

  *   第6课 从RoPE、位置内插到NTK-aware/NTK-by-parts/Dynamic NTK插值2

  *   第7课 YaRN全面解析

*   第三阶段 从LongLora到LongQLora/

  *   第8课 LongLora

  *   第9课 LongQLora:QLoRA to Attention层且训练时S2推理时全局

  *   第10课 LongQLoRA的源码剖析

*   第四阶段 大模型上下文长度扩展的最新方法:SelfExtended、LongRoPE、CEPE/

  *   第11课 得克萨斯SelfExtended、陈丹琦团队CEPE

  *   第12课 微软LongRoPE

  *   第13课 清华NLP组发布InfLLM:无需额外训练,「1024K超长上下文」100%召回

*   第五阶段 通透理解FlashAttention与FlashAttention2/

  *   第14课 FlashAttention

  *   第15课 FlashAttention2