前言:
小白,解除大模型,觉得模型命名很奇怪,就是带有后缀前缀
打比方:这个模型的命名其实四部分是这个含义
deepseek-ai/DeepSeek-R1-Distill-Qwen-7B
参数学习:
- Instruct:经过指令微调的版本,专为对话交互优化
- 适合直接问答、多轮对话等场景
- 理解用户意图能力更强,输出更符合人类对话习惯
- Preview:预览/测试版本
- 可能包含未完全稳定的新功能
- 常用于技术尝鲜或早期体验
- turbo:优化技术
- 减少显存占用
- 提升推理速度
- Coder:垂直加速
- 垂直领域标识(专注代码生成与理解的专用分支)
然后第一个开头的一般是什么公司