您的位置：首页 > 游戏 > 游戏 > 上海公司注销流程及资料_谷德设计网工作_免费网站建站平台_重庆网站seo服务

上海公司注销流程及资料_谷德设计网工作_免费网站建站平台_重庆网站seo服务

2025/2/23 1:43:57 来源：https://blog.csdn.net/CSBLOG/article/details/144562533 浏览: 次关键词：上海公司注销流程及资料_谷德设计网工作_免费网站建站平台_重庆网站seo服务

上海公司注销流程及资料_谷德设计网工作_免费网站建站平台_重庆网站seo服务

大语言模型学习的重点：

模型的训练 / 微调
部署模型
上层开发（以 LangChain 家族为核心）
- Open API
- Prompt 开发
- RAG 开发
- Agent 开发

训练 train 和微调 fine-tune 的区别

共同点：

都是修改模型的参数

训练：

从零开始，训练一个大模型
类似买一块布，手动做一条裤子
数据量：
- 预训练 18T
时间：
- 2个月
训练平台：
- 千卡
- 万卡
- H100，A100

微调：

从别人训练号的开源大模型开始，去做一个具体任务微调
类似买一条成品裤，根据腿长剪裤脚
数据量：
- 几十条起
时间：
- 几分钟起
训练平台：
- 能把模型放下即可
- 4090

三阶段：

第一阶段：预训练

Pre-Train
内功修炼
往往是厂家来做
自监督
- 无需标注
自回归方式训练
数据：
- 一段一段的文本
成果：
- base 大模型
- 半成品，不是直接用来做任务，而是让下游任务微调
- 只能进行简单的文本续写（不具备质量遵循和函数调用能力）

第二阶段：监督指令微调

Supervised Finetune
对标业务
对标具体的任务
外功修炼
功能：
- 对标人类聊天习惯
- 指令遵循能力（你让它做什么，它就做什么）
- 函数调用能力（大模型能够判断什么时候需要借助外部函数）
- 复杂推理能力（大模型可以分步骤拆解问题和执行相关的推理）
数据（知识编辑）：
- 问答对 question answer pair
- system
- user
- assistant
- function_call
- history
- ……
两种风格：
- 为了注入知识
- 为了提升能力
并行训练
优秀是一种习惯

第三阶段：偏好优化

RLHF：Reinforcement Learning from Human Feedback
DPO：Direct Preference Optimization
一问两答：
- 一问：一个问题
- 两答：
  - 一个不好的答案：大模型当前的回答
  - 一个好的答案：你修改后的答案
这个阶段做的比较少，因为数据比较难整理
产物：
- chat
- instruct

全程零代码

模型的训练和微调，属于零代码的过程，可能需要做的是数据格式转换。

工程平衡：

重点突出我们的微调能力
但是，不能太大的破坏原有的能力！

模型的测评

大部分微调都把模型给整废了，而不是越来越好。厂家发布的模型半真半假，一般发布的都是最好的模型，咱们拿来整废了是常态，训练好是一件不太容易的事情。为什么不太容易？怎么就整废了？怎么才能弄好？没有万能公式一步到位，是个不断炼丹尝试的过程，比较玄学。

微调：

废了是常态
训练好是一件不太容易的事情

考试：

全学科考试
- MMLU
- CMMLU
- C-Eval
- ……

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

最新新闻

热搜词

基于SpringBoot+Vue的旅游服务平台的设计与实现蛙泳在 Windows 上使用 CMake 生成 Makefile python 实现多进程 multiprocessing和双向通信multiprocessing.pip ubuntu 下安装 docker 《德阳市餐饮服务业油烟污染防治管理办法（征求意见稿）》之创新油烟监管

声明：本站所有新闻及新闻图片来源于其他网站，如有侵权，请及时联系我们！

客户服务 | 关于我们 | 版权声明

版权所有：

Copyright 2024 尧图网 All Rights Reserved.QQ:809451989