河南省今日头条新闻_做电商运营有前途吗_百度用户服务中心人工电话_百度软件应用中心

一：Function Calling

二：RAG

三：多模态

四：大模型微调

五：蒸馏模型与非蒸馏模型

六：推理模型和非推理模型

一：Function Calling

定义：

Function Calling 叫做函数调用，是一种让大模型调用外部工具或 API 的能力，使模型能够执行特定任务（如查询天气、执行计算、调用数据库等）。

工作原理：

模型解析用户输入：模型根据用户请求，判断是否需要调用外部工具。
生成函数调用请求：模型生成结构化请求（如 JSON 格式），指定需要调用的函数及其参数。
执行函数：外部系统执行函数并返回结果。
生成最终回答：模型将函数返回的结果整合到自然语言回答中。

工作流程图：

首先，当我们发送问题给大模型的时候，比如“今天是几号？”，大模型会响应一个结果给我们，这个结果不是问题的答案，而是大模型告诉我们需要执行哪个工具。我们执行工具后，才能得到问题的答案，但这个答案可能不太像人回复的，不太符合自然语言的样子，比如工具结果是“2024-07-13 11:23:00”，此时我们需要把问题，执行工具请求和工具执行结果一起发给大模型，得到最好的答案。

优点：

扩展模型能力：通过调用外部工具，模型可以执行超出其本身能力的任务。
实时性和准确性：直接调用外部 API 获取实时数据（如天气、股票价格）。
模块化设计：易于集成现有系统和工具。

缺点：

依赖外部工具：需要预先定义和实现可调用的函数。
安全性问题：模型可能生成不安全的函数调用请求，需进行严格验证。
复杂性：需要设计和管理函数调用的逻辑和接口。

应用场景：

实时数据查询（如天气、股票、航班信息）。
自动化任务（如发送邮件、操作数据库）。
复杂计算或工具集成（如调用数学库、地图 API）。

二：RAG

概要：

RAG是什么？检索增强生成又是什么意思？大模型的知识仅限于它所训练的数据，如果你问大模型，你们公司的xxx产品有什么作用，大模型肯定会回答不出来。如果你想让大模型拥有你们公司知识库的数据，此时就可以用到RAG。

简单的讲，RAG的原理是，根据用户输入的问题，先从你们公司的知识库查询出答案，再把用户输的问题和搜索出来的答案，让大模型根据我们的答案回复用户的问题。

而根据用户问题，从知识库搜索问题，需要用到上面所说的文本向量化。根据文本的相识度，从知识库中搜索出符合用户问题的答案出来。

定义：

RAG 全称叫检索增强生成，是一种结合检索（Retrieval）和生成（Generation）的技术，通过从外部知识库中检索相关信息来增强模型的生成能力。

工作原理：

检索阶段：根据用户输入，从外部知识库（如文档、数据库或互联网）中检索相关文档或片段。
生成阶段：将检索到的信息与用户输入一起输入到大模型中，生成更准确、更相关的回答。

RAG的工作流程：

RAG的工作流程可以分为以下几个步骤：

1.接收请求：首先，系统接收到用户的请求（例如提出一个问题）。

2.信息检索（R)：系统从一个大型文档库中检索出与查询最相关的文档片段。这一步的目标是找到那些可能包含答案或相关信息的文档。

3.生成增强（A）：将检索到的文档片段与原始查询一起输入到大模型（如chatGPT）中，注意使用合适的提示词，比如原始的问题是XXX，检索到的信息是YYY，给大模型的输入应该类似于：请基于YYY回答XXXX。

4.输出生成（G)：大模型基于输入的查询和检索到的文档片段生成最终的文本答案，并返回给用户。

优点：

知识更新灵活：无需重新训练模型，只需更新知识库即可获取最新信息。
减少幻觉：通过检索真实信息，减少模型生成虚假内容的可能性。
适合开放域问答：能够处理超出模型预训练知识范围的问题。

缺点：

依赖外部知识库：检索质量直接影响生成结果。
延迟较高：检索和生成两个阶段增加了响应时间。
知识库维护成本：需要构建和维护高质量的知识库。

应用场景：

开放域问答（如 ChatGPT 结合搜索引擎）。
企业知识库问答（如内部文档检索）。
需要实时更新知识的场景（如新闻、科技动态）。

三：多模态

定义：

多模态（Multimodal） 是指结合多种模态（如文本、图像、音频、视频等）进行信息处理和学习的技术。多模态 AI 系统能够同时理解和生成多种类型的数据，从而更全面地理解和解决复杂问题。

什么是模态（Modality）？

模态是指信息的表达形式或类型，常见的模态包括：

文本：自然语言（如文章、对话）。
图像：视觉信息（如照片、图表）。
音频：声音信息（如语音、音乐）。
视频：动态视觉信息（如电影、监控录像）。
传感器数据：其他物理信号（如温度、加速度）。

多模态 AI 的目标是将这些不同模态的信息融合起来，实现更智能的理解和生成。

多模态 AI 的核心任务

多模态 AI 的主要任务包括：

多模态理解：
- 从多种模态中提取信息并理解其关联。
- 例如：从图像和文本中理解内容（如图像描述生成）。
多模态生成：
- 根据多种模态的输入生成新的内容。
- 例如：根据文本生成图像（如 DALL·E、Stable Diffusion）。
多模态对齐：
- 将不同模态的信息对齐到同一语义空间。
- 例如：将图像中的物体与文本描述匹配。
多模态检索：
- 根据一种模态的输入检索另一种模态的内容。
- 例如：用文本搜索相关图像，或用图像搜索相关文本。
多模态推理：
- 结合多种模态的信息进行推理和决策。
- 例如：结合视觉和语言信息回答复杂问题。

多模态 AI 的应用场景

图像描述生成：
- 根据图像生成自然语言描述。
- 例如：为视障人士提供图像描述服务。
文本生成图像：
- 根据文本生成符合描述的图像。
- 例如：DALL·E、Stable Diffusion。
视频理解：
- 结合视频和音频信息理解内容。
- 例如：视频内容分析、自动生成字幕。
多模态搜索：
- 用文本搜索图像，或用图像搜索文本。
- 例如：电商平台的图像搜索功能。
人机交互：
- 结合语音、视觉和文本实现更自然的交互。
- 例如：智能助手（如 Siri、Alexa）。
医疗诊断：
- 结合医学影像和文本报告进行疾病诊断。
- 例如：AI 辅助诊断系统。
自动驾驶：
- 结合摄像头、雷达和传感器数据进行环境感知和决策。
- 例如：特斯拉的自动驾驶系统。

多模态 AI 的代表模型

CLIP（OpenAI）：
- 通过对比学习对齐图像和文本特征，支持跨模态检索和生成。
DALL·E（OpenAI）：
- 根据文本生成高质量图像。
Flamingo（Google DeepMind）：
- 支持多模态对话和推理。
BEiT-3（微软）：
- 多模态预训练模型，支持图像、文本和视频任务。
Stable Diffusion：
- 开源的文本生成图像模型。

四：大模型微调

大模型微调（Fine-tuning）是针对预训练模型在特定任务或领域进行参数调整的技术，旨在提升模型在目标场景中的性能。常见的微调方法可分为以下几类，各有其适用场景和优缺点：

全参数微调（Full Fine-tuning）

原理：更新模型所有参数，使其适应下游任务。
优点：通常效果最佳，能充分利用模型容量。
缺点：计算资源消耗大，易过拟合小数据集。
适用场景：数据量充足且算力充沛时（如企业级场景）。

参数高效微调（Parameter-Efficient Fine-tuning, PEFT）

通过调整少量参数达到接近全参数微调的效果，显著降低资源消耗。

Adapter
- 原理：在Transformer层的FFN后插入小型神经网络模块（Adapter），仅训练这部分参数。
- 优点：节省显存，模块化设计方便迁移。
- 缺点：增加推理延迟，可能影响模型效率。
LoRA（Low-Rank Adaptation）
- 原理：用低秩矩阵分解模拟参数更新（ΔW = A·B），冻结原权重，仅训练低秩矩阵。
- 优点：几乎无损性能，资源消耗低，适配多种任务。
- 扩展：QLoRA（量化+LoRA）进一步降低显存，适合低资源场景。
Prefix-tuning / Prompt Tuning
- 原理：在输入前添加可训练的前缀向量（Prefix）或提示（Prompt），引导模型生成。
- 优点：仅调整少量参数，适合生成式任务。
- 变体：P-Tuning v2 将可学习提示扩展到多层，提升效果。
BitFit
- 原理：仅微调模型中的偏置（Bias）参数。
- 优点：参数更新量极少，适合极低资源场景。
- 缺点：性能可能受限。
IA³（Infused Adapter by Inhibiting and Amplifying Inner Activations）
- 原理：在注意力层的键（Key）、值（Value）和前馈网络（FFN）中引入可学习向量，缩放激活值。
- 优点：参数更少，适合多任务学习。

混合方法

Freeze
- 原理：冻结部分层（如底层），仅微调顶层或分类头。
- 适用场景：任务与预训练数据差异较小时（如文本分类）。
DoRA（Weight-Decomposed Low-Rank Adaptation）
- 原理：将权重矩阵分解为幅度（Magnitude）和方向（Direction）两部分，用LoRA调整方向。
- 优点：比LoRA更灵活，在数学任务等场景表现更好。

分布式与量化微调

分布式训练
- 技术：ZeRO（Zero Redundancy Optimizer）、数据并行、模型并行等。
- 作用：解决大模型显存占用问题，支持大规模参数更新。
量化微调（Quantization）
- 原理：将模型权重转换为低精度（如4-bit），结合LoRA等减少资源占用。
- 工具：QLoRA、GPTQ等。

应用场景建议

资源充足：全参数微调或LoRA。
低资源/快速迭代：Adapter、Prompt Tuning、QLoRA。
多任务学习：IA³、P-Tuning v2。
超低参数量需求：BitFit、Freeze。

工具与框架

Hugging Face Transformers / PEFT库
DeepSpeed（分布式训练）
Bitsandbytes（量化）
TRL（Transformer Reinforcement Learning）

通过合理选择微调方法，可以在资源限制和模型性能之间取得平衡，高效适配垂直领域任务。

五：蒸馏模型与非蒸馏模型

蒸馏模型：蒸馏模型是通过一种称为知识蒸馏的技术训练得到的。具体来说，它使用由较大规模的预训练模型（教师模型）生成的数据，来训练较小规模的模型（学生模型）。例如，DeepSeek-R1-Distill 模型就是通过在 DeepSeek-R1 和 DeepSeek-V3 生成的 SFT 数据集上，对较小的 Llama 8B、70B 以及 Qwen 2.5 模型（0.5B 到 32B）进行指令微调得到的。蒸馏模型的优势在于更小的模型更高效，运行成本更低，且可以在较低端的硬件上运行，这对于资源受限的场景非常有吸引力。同时，蒸馏模型也能在一定程度上保留教师模型的推理能力，尽管其性能可能弱于教师模型，但相对于未经过蒸馏的同规模模型，其性能通常会更好。
非蒸馏模型：非蒸馏模型则是直接通过传统的训练方法，如纯监督微调（SFT）或强化学习（RL）等，从原始数据集进行训练得到的模型，没有经过蒸馏过程。例如，GPT-3、GPT-4 等模型就是典型的非蒸馏模型，它们通过对大量文本数据的训练，掌握了语言规律并能够生成合适的内容。非蒸馏模型的优势在于其训练过程相对简单，不需要依赖教师模型，且在某些任务上可能表现出更好的性能，尤其是在需要高度发散性思维的任务上。

六：推理模型和非推理模型

非推理模型主要是基于直接的训练，而推理模型则加入了推理机制。

推理模型：推理模型是指那些在训练过程中，通过特定的技术和方法，如强化学习、神经符号推理、元学习等，强化了推理、逻辑分析和决策能力的模型。例如，DeepSeek-R1、GPT-o3 等模型在逻辑推理、数学推理和实时问题解决方面表现突出。推理模型的优势在于能够处理复杂的逻辑推理任务，如数学问题、代码生成和复杂问题的拆解。然而，推理模型在需要高度发散性思维的任务上可能表现较弱，例如诗歌创作或创意写作。
非推理模型：非推理模型一般侧重于语言生成、上下文理解和自然语言处理等任务，而不强调深度推理能力。这类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。例如，GPT-3、GPT-4（OpenAI），BERT（Google）等模型主要用于语言生成、语言理解、文本分类、翻译等任务。非推理模型的优势在于适合处理多样化的语言场景，能够生成流畅、自然的语言文本。

河南省今日头条新闻_做电商运营有前途吗_百度用户服务中心人工电话_百度软件应用中心

一：Function Calling

二：RAG

三：多模态

四：大模型微调

五：蒸馏模型与非蒸馏模型

六：推理模型和非推理模型

最新新闻

热搜词