您的位置:首页 > 游戏 > 游戏 > 河南省今日头条新闻_做电商运营有前途吗_百度用户服务中心人工电话_百度软件应用中心

河南省今日头条新闻_做电商运营有前途吗_百度用户服务中心人工电话_百度软件应用中心

2025/2/12 8:59:09 来源:https://blog.csdn.net/weixin_46203834/article/details/145528821  浏览:    关键词:河南省今日头条新闻_做电商运营有前途吗_百度用户服务中心人工电话_百度软件应用中心
河南省今日头条新闻_做电商运营有前途吗_百度用户服务中心人工电话_百度软件应用中心

目录

一:Function Calling

二:RAG

三:多模态

四:大模型微调

五:蒸馏模型与非蒸馏模型

六:推理模型和非推理模型


一:Function Calling

定义:

Function Calling 叫做函数调用,是一种让大模型调用外部工具或 API 的能力,使模型能够执行特定任务(如查询天气、执行计算、调用数据库等)。


工作原理

  1. 模型解析用户输入:模型根据用户请求,判断是否需要调用外部工具。

  2. 生成函数调用请求:模型生成结构化请求(如 JSON 格式),指定需要调用的函数及其参数。

  3. 执行函数:外部系统执行函数并返回结果。

  4. 生成最终回答:模型将函数返回的结果整合到自然语言回答中。


工作流程图:

  首先,当我们发送问题给大模型的时候,比如“今天是几号?”,大模型会响应一个结果给我们,这个结果不是问题的答案,而是大模型告诉我们需要执行哪个工具。我们执行工具后,才能得到问题的答案,但这个答案可能不太像人回复的,不太符合自然语言的样子,比如工具结果是“2024-07-13 11:23:00”,此时我们需要把问题,执行工具请求和工具执行结果一起发给大模型,得到最好的答案。


优点

  • 扩展模型能力:通过调用外部工具,模型可以执行超出其本身能力的任务。

  • 实时性和准确性:直接调用外部 API 获取实时数据(如天气、股票价格)。

  • 模块化设计:易于集成现有系统和工具。


缺点

  • 依赖外部工具:需要预先定义和实现可调用的函数。

  • 安全性问题:模型可能生成不安全的函数调用请求,需进行严格验证。

  • 复杂性:需要设计和管理函数调用的逻辑和接口。


应用场景

  • 实时数据查询(如天气、股票、航班信息)。

  • 自动化任务(如发送邮件、操作数据库)。

  • 复杂计算或工具集成(如调用数学库、地图 API)。


二:RAG

概要:

RAG是什么?检索增强生成又是什么意思?大模型的知识仅限于它所训练的数据,如果你问大模型,你们公司的xxx产品有什么作用,大模型肯定会回答不出来。如果你想让大模型拥有你们公司知识库的数据, 此时就可以用到RAG。

        简单的讲,RAG的原理是,根据用户输入的问题,先从你们公司的知识库查询出答案,再把用户输的问题和搜索出来的答案,让大模型根据我们的答案回复用户的问题。

         而根据用户问题,从知识库搜索问题,需要用到上面所说的文本向量化。根据文本的相识度,从知识库中搜索出符合用户问题的答案出来。


定义:

RAG 全称叫检索增强生成,是一种结合检索(Retrieval)和生成(Generation)的技术,通过从外部知识库中检索相关信息来增强模型的生成能力。


工作原理

  1. 检索阶段:根据用户输入,从外部知识库(如文档、数据库或互联网)中检索相关文档或片段。

  2. 生成阶段:将检索到的信息与用户输入一起输入到大模型中,生成更准确、更相关的回答。


RAG的工作流程:

RAG的工作流程可以分为以下几个步骤:

1.接收请求:首先,系统接收到用户的请求(例如提出一个问题)。

2.信息检索(R):系统从一个大型文档库中检索出与查询最相关的文档片段。这一步的目标是找到那些可能包含答案或相关信息的文档。

3.生成增强(A):将检索到的文档片段与原始查询一起输入到大模型(如chatGPT)中,注意使用合适的提示词,比如原始的问题是XXX,检索到的信息是YYY,给大模型的输入应该类似于:请基于YYY回答XXXX。

4.输出生成(G):大模型基于输入的查询和检索到的文档片段生成最终的文本答案,并返回给用户。


优点

  • 知识更新灵活:无需重新训练模型,只需更新知识库即可获取最新信息。

  • 减少幻觉:通过检索真实信息,减少模型生成虚假内容的可能性。

  • 适合开放域问答:能够处理超出模型预训练知识范围的问题。


缺点

  • 依赖外部知识库:检索质量直接影响生成结果。

  • 延迟较高:检索和生成两个阶段增加了响应时间。

  • 知识库维护成本:需要构建和维护高质量的知识库。


应用场景

  • 开放域问答(如 ChatGPT 结合搜索引擎)。

  • 企业知识库问答(如内部文档检索)。

  • 需要实时更新知识的场景(如新闻、科技动态)。


三:多模态

定义:

多模态(Multimodal) 是指结合多种模态(如文本、图像、音频、视频等)进行信息处理和学习的技术。多模态 AI 系统能够同时理解和生成多种类型的数据,从而更全面地理解和解决复杂问题。


什么是模态(Modality)?

模态是指信息的表达形式或类型,常见的模态包括:

  • 文本:自然语言(如文章、对话)。

  • 图像:视觉信息(如照片、图表)。

  • 音频:声音信息(如语音、音乐)。

  • 视频:动态视觉信息(如电影、监控录像)。

  • 传感器数据:其他物理信号(如温度、加速度)。

多模态 AI 的目标是将这些不同模态的信息融合起来,实现更智能的理解和生成。


多模态 AI 的核心任务

多模态 AI 的主要任务包括:

  1. 多模态理解

    • 从多种模态中提取信息并理解其关联。

    • 例如:从图像和文本中理解内容(如图像描述生成)。

  2. 多模态生成

    • 根据多种模态的输入生成新的内容。

    • 例如:根据文本生成图像(如 DALL·E、Stable Diffusion)。

  3. 多模态对齐

    • 将不同模态的信息对齐到同一语义空间。

    • 例如:将图像中的物体与文本描述匹配。

  4. 多模态检索

    • 根据一种模态的输入检索另一种模态的内容。

    • 例如:用文本搜索相关图像,或用图像搜索相关文本。

  5. 多模态推理

    • 结合多种模态的信息进行推理和决策。

    • 例如:结合视觉和语言信息回答复杂问题。


多模态 AI 的应用场景

  1. 图像描述生成

    • 根据图像生成自然语言描述。

    • 例如:为视障人士提供图像描述服务。

  2. 文本生成图像

    • 根据文本生成符合描述的图像。

    • 例如:DALL·E、Stable Diffusion。

  3. 视频理解

    • 结合视频和音频信息理解内容。

    • 例如:视频内容分析、自动生成字幕。

  4. 多模态搜索

    • 用文本搜索图像,或用图像搜索文本。

    • 例如:电商平台的图像搜索功能。

  5. 人机交互

    • 结合语音、视觉和文本实现更自然的交互。

    • 例如:智能助手(如 Siri、Alexa)。

  6. 医疗诊断

    • 结合医学影像和文本报告进行疾病诊断。

    • 例如:AI 辅助诊断系统。

  7. 自动驾驶

    • 结合摄像头、雷达和传感器数据进行环境感知和决策。

    • 例如:特斯拉的自动驾驶系统。


多模态 AI 的代表模型

  1. CLIP(OpenAI)

    • 通过对比学习对齐图像和文本特征,支持跨模态检索和生成。

  2. DALL·E(OpenAI)

    • 根据文本生成高质量图像。

  3. Flamingo(Google DeepMind)

    • 支持多模态对话和推理。

  4. BEiT-3(微软)

    • 多模态预训练模型,支持图像、文本和视频任务。

  5. Stable Diffusion

    • 开源的文本生成图像模型。


四:大模型微调

大模型微调(Fine-tuning)是针对预训练模型在特定任务或领域进行参数调整的技术,旨在提升模型在目标场景中的性能。常见的微调方法可分为以下几类,各有其适用场景和优缺点:


全参数微调(Full Fine-tuning)

  • 原理:更新模型所有参数,使其适应下游任务。

  • 优点:通常效果最佳,能充分利用模型容量。

  • 缺点:计算资源消耗大,易过拟合小数据集。

  • 适用场景:数据量充足且算力充沛时(如企业级场景)。


参数高效微调(Parameter-Efficient Fine-tuning, PEFT)

 

通过调整少量参数达到接近全参数微调的效果,显著降低资源消耗。

  1. Adapter

    • 原理:在Transformer层的FFN后插入小型神经网络模块(Adapter),仅训练这部分参数。

    • 优点:节省显存,模块化设计方便迁移。

    • 缺点:增加推理延迟,可能影响模型效率。

  2. LoRA(Low-Rank Adaptation)

    • 原理:用低秩矩阵分解模拟参数更新(ΔW = A·B),冻结原权重,仅训练低秩矩阵。

    • 优点:几乎无损性能,资源消耗低,适配多种任务。

    • 扩展:QLoRA(量化+LoRA)进一步降低显存,适合低资源场景。

  3. Prefix-tuning / Prompt Tuning

    • 原理:在输入前添加可训练的前缀向量(Prefix)或提示(Prompt),引导模型生成。

    • 优点:仅调整少量参数,适合生成式任务。

    • 变体:P-Tuning v2 将可学习提示扩展到多层,提升效果。

  4. BitFit

    • 原理:仅微调模型中的偏置(Bias)参数。

    • 优点:参数更新量极少,适合极低资源场景。

    • 缺点:性能可能受限。

  5. IA³(Infused Adapter by Inhibiting and Amplifying Inner Activations)

    • 原理:在注意力层的键(Key)、值(Value)和前馈网络(FFN)中引入可学习向量,缩放激活值。

    • 优点:参数更少,适合多任务学习。


混合方法

  1. Freeze

    • 原理:冻结部分层(如底层),仅微调顶层或分类头。

    • 适用场景:任务与预训练数据差异较小时(如文本分类)。

  2. DoRA(Weight-Decomposed Low-Rank Adaptation)

    • 原理:将权重矩阵分解为幅度(Magnitude)和方向(Direction)两部分,用LoRA调整方向。

    • 优点:比LoRA更灵活,在数学任务等场景表现更好。


分布式与量化微调

  1. 分布式训练

    • 技术:ZeRO(Zero Redundancy Optimizer)、数据并行、模型并行等。

    • 作用:解决大模型显存占用问题,支持大规模参数更新。

  2. 量化微调(Quantization)

    • 原理:将模型权重转换为低精度(如4-bit),结合LoRA等减少资源占用。

    • 工具:QLoRA、GPTQ等。


应用场景建议

  • 资源充足:全参数微调或LoRA。

  • 低资源/快速迭代:Adapter、Prompt Tuning、QLoRA。

  • 多任务学习:IA³、P-Tuning v2。

  • 超低参数量需求:BitFit、Freeze。


工具与框架

  • Hugging Face Transformers / PEFT库

  • DeepSpeed(分布式训练)

  • Bitsandbytes(量化)

  • TRL(Transformer Reinforcement Learning)

通过合理选择微调方法,可以在资源限制和模型性能之间取得平衡,高效适配垂直领域任务。


五:蒸馏模型与非蒸馏模型
  • 蒸馏模型:蒸馏模型是通过一种称为知识蒸馏的技术训练得到的。具体来说,它使用由较大规模的预训练模型(教师模型)生成的数据,来训练较小规模的模型(学生模型)。例如,DeepSeek-R1-Distill 模型就是通过在 DeepSeek-R1 和 DeepSeek-V3 生成的 SFT 数据集上,对较小的 Llama 8B、70B 以及 Qwen 2.5 模型(0.5B 到 32B)进行指令微调得到的。蒸馏模型的优势在于更小的模型更高效,运行成本更低,且可以在较低端的硬件上运行,这对于资源受限的场景非常有吸引力。同时,蒸馏模型也能在一定程度上保留教师模型的推理能力,尽管其性能可能弱于教师模型,但相对于未经过蒸馏的同规模模型,其性能通常会更好。

  • 非蒸馏模型:非蒸馏模型则是直接通过传统的训练方法,如纯监督微调(SFT)或强化学习(RL)等,从原始数据集进行训练得到的模型,没有经过蒸馏过程。例如,GPT-3、GPT-4 等模型就是典型的非蒸馏模型,它们通过对大量文本数据的训练,掌握了语言规律并能够生成合适的内容。非蒸馏模型的优势在于其训练过程相对简单,不需要依赖教师模型,且在某些任务上可能表现出更好的性能,尤其是在需要高度发散性思维的任务上。


六:推理模型和非推理模型

非推理模型主要是基于直接的训练,而推理模型则加入了推理机制。

  • 推理模型:推理模型是指那些在训练过程中,通过特定的技术和方法,如强化学习、神经符号推理、元学习等,强化了推理、逻辑分析和决策能力的模型。例如,DeepSeek-R1、GPT-o3 等模型在逻辑推理、数学推理和实时问题解决方面表现突出。推理模型的优势在于能够处理复杂的逻辑推理任务,如数学问题、代码生成和复杂问题的拆解。然而,推理模型在需要高度发散性思维的任务上可能表现较弱,例如诗歌创作或创意写作。
  • 非推理模型:非推理模型一般侧重于语言生成、上下文理解和自然语言处理等任务,而不强调深度推理能力。这类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像推理模型那样复杂的推理和决策能力。例如,GPT-3、GPT-4(OpenAI),BERT(Google)等模型主要用于语言生成、语言理解、文本分类、翻译等任务。非推理模型的优势在于适合处理多样化的语言场景,能够生成流畅、自然的语言文本。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com