根据模型的数据流程方向和自己的经验列出:
一、模型输入
分词器:BPE,BBPE
位置编码:绝对位置编码,三角函数编码,ROPE
词向量模型:词袋,监督学习模型;BGE,BCE,BERT
transformers:手写数据集构造类、数据集加载函数colloctor
二、模型结构
transformers:结构,解码器only为啥比编码器好,llama在原始解码器上的改进及原因
归一化:层归一化,RNSnorm,批归一化,Pre-LN和Post-LN的区别
激活函数:tanh,relu,gelu,silu
FFN结构
注意力机制:自注意力,多头注意力,分组查询注意力,多查询注意力(前两个要手写)
softmax和sigmoid函数
llama结构,GLM结构
三、模型推理
推理原理
解码策略:温度等参数,需要结合代码理解
KVcache
长度外推:滑动窗口,rope,位置插值,yarn的原理
推理部署框架:vllm,fastapi
多轮对话实现原理
流式输出实现原理
四、模型训练
分布式:数据并行,模型并行,流水线并行
deepseed经验
多机多卡经验
参数调优经验
数据配比经验
高效微调:lora原理,peft使用
混合精度
模型量化
ppo,KTO ,dpo原理
五、数据工程
预训练、sft、dpo数据集格式
主流数据集
六、多模态大模型
模型架构:BILP2、LLAVA1.5,书生2
模态数据处理:多图,多视频,图文交错
模型两阶段训练经验
数据集构造经验
六、产品应用
RAG:作用,流程,性能调优经验
agent:作用,实现方法,优化经验