网页界面设计公司_山东网站建设企业公司_洗发水营销推广软文800字_班级优化大师的功能

一、前言

离线推理能够在模型训练完成后，特别是在处理大规模数据时，利用预先准备好的输入数据进行批量推理，从而显著提高计算效率和响应速度。通过离线推理，可以在不依赖实时计算的情况下，快速生成预测结果，从而优化决策流程和提升用户体验。此外，离线推理还可以降低云计算成本，允许在资源使用高效的时间段进行计算，进一步提高经济效益。

在本篇中，将学习如何使用CPU将Qwen2.5-7B-Instruct模型与vLLM框架进行有效整合（使用vLLM框架，能为模型推理提供强有力的支持，使得在CPU上执行的模型不仅能保持较高的准确率，还能在资源有限的条件下，实现快速响应，充分释放潜在价值），通过离线推理为实际项目带来更大的价值。

GPU版本：开源模型应用落地-Qwen2.5-7B-Instruct与vllm实现离线推理-降本增效（一）

二、术语

2.1. vLLM

vLLM是一个开源的大模型推理加速框架，通过PagedAttention高效地管理attention中缓存的张量，实现了比HuggingFace Transformers高14-24倍的吞吐量。

2.2. Qwen2.5

Qwen2.5系列模型都在最新的大规模数据集上进行了预训练，该数据集包含多达 18T tokens。相较于 Qwen2，Qwen2.5 获得了显著更多的知识（MMLU：85+），并在编程能力（HumanEval 85+）和数学能力（MATH 80+）方面有了大幅提升。

此外，新模型在指令执行、生成长文本（超过 8K 标记）、理解结构化数据（例如表格）以及生成结构化输出特别是 JSON 方面取得了显著改进。 Qwen2.5 模型总体上对各种system prompt更具适应性，增强了角色扮演实现和聊天机器人的条件设置功能。

与 Qwen2 类似，Qwen2.5 语言模型支持高达 128K tokens，并能生成最多 8K tokens的内容。它们同样保持了对包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等 29 种以上语言的支持。我们在下表中提供了有关模型的基本信息。

专业领域的专家语言模型，即用于编程的 Qwen2.5-Coder 和用于数学的 Qwen2.5-Math，相比其前身 CodeQwen1.5 和 Qwen2-Math 有了实质性的改进。具体来说，Qwen2.5-Coder 在包含 5.5 T tokens 编程相关数据上进行了训练，使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。同时，Qwen2.5-Math 支持中文和英文，并整合了多种推理方法，包括CoT（Chain of Thought）、PoT（Program of Thought）和 TIR（Tool-Integrated Reasoning）。

2.3. Qwen2.5-7B-Instruct

是通义千问团队推出的语言模型，拥有70亿参数，经过指令微调，能更好地理解和遵循指令。作为 Qwen2.5 系列的一部分，它在 18T tokens 数据上预训练，性能显著提升，具有多方面能力，包括语言理解、任务适应性、多语言支持等，同时也具备一定的长文本处理能力，适用于多种自然语言处理任务，为用户提供高质量的语言服务。

2.4. 离线推理

是在模型训练完成后，使用该模型进行推理（即生成预测或输出）的过程，而不需要实时与模型进行交互或进行在线计算。在离线推理中，通常会事先准备好输入数据，并在本地或云端的环境中批量处理这些数据，以获得模型的输出结果。

离线推理的优点包括：

1. 可以批量处理多个输入，充分利用计算资源，提高推理效率。

2. 在云环境中，可以选择在低峰时段进行推理，降低计算成本。

3. 不依赖于实时数据，可以在模型的稳定版本上进行推理，避免了在线推理中的不确定性。

三、前提条件

3.1. 基础环境及前置条件

1）操作系统：centos7

2）Tesla V100-SXM2-32GB CUDA Version: 12.2

3）提前下载好Qwen2.5-7B-Instruct模型

通过以下两个地址进行下载，优先推荐魔搭

huggingface：

https://huggingface.co/Qwen/Qwen2.5-7B-Instruct/tree/main

ModelScope：

git clone https://www.modelscope.cn/qwen/Qwen2.5-7B-Instruct.git

按需选择SDK或者Git方式下载

使用git方式下载示例：

3.2. Anaconda安装

参见“开源模型应用落地-qwen-7b-chat与vllm实现推理加速的正确姿势（一）”

3.3. vllm包的升级

这里需要考虑是否会对原有的环境造成影响

首次安装情况：

conda create --name vllm python=3.10
conda activate vllm
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

二次升级情况：

# 基于原有vllm环境，克隆一个新的环境，后续在新的环境中进行升级
conda create --name vllm2 --clone vllm
conda activate vllm2
pip install --upgrade vllm

ps:vllm版本必须≥0.4.0

四、技术实现

4.1. 离线生成

# -*- coding: utf-8 -*-
from vllm import LLM, SamplingParamsdef generate(model_path,prompts):sampling_params = SamplingParams(temperature=0.45, top_p=0.9, max_tokens=1048)llm = LLM(model=model_path,dtype='float16',swap_space=16,cpu_offload_gb=2)outputs = llm.generate(prompts, sampling_params)return outputsif __name__ == '__main__':model_path = '/data/model/qwen2.5-7b-instruct'prompts = ["广州有什么特色景点？",]outputs = generate(model_path,prompts)for output in outputs:prompt = output.promptgenerated_text = output.outputs[0].textprint(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

调用结果：

(vllm) [root@gpu test]# python -u test.py 
/usr/local/miniconda3/envs/vllm/lib/python3.10/site-packages/vllm/connections.py:8: RuntimeWarning: Failed to read commit hash:
No module named 'vllm._version'from vllm.version import __version__ as VLLM_VERSION
WARNING 10-21 16:28:58 config.py:1674] Casting torch.bfloat16 to torch.float16.
INFO 10-21 16:29:03 llm_engine.py:237] Initializing an LLM engine (vdev) with config: model='/data/model/qwen2.5-7b-instruct', speculative_config=None, tokenizer='/data/model/qwen2.5-7b-instruct', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, override_neuron_config=None, rope_scaling=None, rope_theta=None, tokenizer_revision=None, trust_remote_code=False, dtype=torch.float16, max_seq_len=32768, download_dir=None, load_format=LoadFormat.AUTO, tensor_parallel_size=1, pipeline_parallel_size=1, disable_custom_all_reduce=False, quantization=None, enforce_eager=False, kv_cache_dtype=auto, quantization_param_path=None, device_config=cuda, decoding_config=DecodingConfig(guided_decoding_backend='outlines'), observability_config=ObservabilityConfig(otlp_traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=False), seed=0, served_model_name=/data/model/qwen2.5-7b-instruct, use_v2_block_manager=True, num_scheduler_steps=1, chunked_prefill_enabled=False multi_step_stream_outputs=True, enable_prefix_caching=False, use_async_output_proc=True, use_cached_outputs=False, mm_processor_kwargs=None)
INFO 10-21 16:29:04 selector.py:224] Cannot use FlashAttention-2 backend for Volta and Turing GPUs.
INFO 10-21 16:29:04 selector.py:115] Using XFormers backend.
/usr/local/miniconda3/envs/vllm/lib/python3.10/site-packages/xformers/ops/fmha/flash.py:211: FutureWarning: `torch.library.impl_abstract` was renamed to `torch.library.register_fake`. Please use that instead; we will remove `torch.library.impl_abstract` in a future version of PyTorch.@torch.library.impl_abstract("xformers_flash::flash_fwd")
/usr/local/miniconda3/envs/vllm/lib/python3.10/site-packages/xformers/ops/fmha/flash.py:344: FutureWarning: `torch.library.impl_abstract` was renamed to `torch.library.register_fake`. Please use that instead; we will remove `torch.library.impl_abstract` in a future version of PyTorch.@torch.library.impl_abstract("xformers_flash::flash_bwd")
INFO 10-21 16:29:06 model_runner.py:1060] Starting to load model /data/model/qwen2.5-7b-instruct...
INFO 10-21 16:29:06 selector.py:224] Cannot use FlashAttention-2 backend for Volta and Turing GPUs.
INFO 10-21 16:29:06 selector.py:115] Using XFormers backend.
Loading safetensors checkpoint shards:   0% Completed | 0/4 [00:00<?, ?it/s]
Loading safetensors checkpoint shards:  25% Completed | 1/4 [00:26<01:20, 26.86s/it]
Loading safetensors checkpoint shards:  50% Completed | 2/4 [00:53<00:53, 26.55s/it]
Loading safetensors checkpoint shards:  75% Completed | 3/4 [01:19<00:26, 26.45s/it]
Loading safetensors checkpoint shards: 100% Completed | 4/4 [01:43<00:00, 25.60s/it]
Loading safetensors checkpoint shards: 100% Completed | 4/4 [01:43<00:00, 25.96s/it]INFO 10-21 16:30:51 model_runner.py:1071] Loading model weights took 13.0675 GB
INFO 10-21 16:30:57 gpu_executor.py:122] # GPU blocks: 9932, # CPU blocks: 11702
INFO 10-21 16:30:57 gpu_executor.py:126] Maximum concurrency for 32768 tokens per request: 4.85x
INFO 10-21 16:31:03 model_runner.py:1402] Capturing the model for CUDA graphs. This may lead to unexpected consequences if the model is not static. To run the model in eager mode, set 'enforce_eager=True' or use '--enforce-eager' in the CLI.
INFO 10-21 16:31:03 model_runner.py:1406] CUDA graphs can take additional 1~3 GiB memory per GPU. If you are running out of memory, consider decreasing `gpu_memory_utilization` or enforcing eager mode. You can also reduce the `max_num_seqs` as needed to decrease memory usage.
INFO 10-21 16:31:28 model_runner.py:1530] Graph capturing finished in 24 secs.
Processed prompts: 100%|████████████████████████████████████| 1/1 [00:43<00:00, 43.42s/it, est. speed input: 0.12 toks/s, output: 8.04 toks/s]
Prompt: '广州有什么特色景点？', Generated text: ' 广州是广东省的省会城市，拥有丰富的历史文化底蕴和现代化的城市风貌。以下是一些广州的特色景点：\n\n1. 白云山：白云山是广州的标志性景点之一，被誉为“羊城第一秀”，是广州市民休闲娱乐的好去处。白云山上有许多名胜古迹，如白云观、摩星岭等。\n\n2. 广州塔：广州塔是广州的地标性建筑之一，高600米，是世界上最高的电视塔之一。游客可以乘坐电梯到达观景台，欣赏广州的城市风光。\n\n3. 陈家祠：陈家祠是广州著名的古建筑之一，建于清朝，是一座典型的岭南风格的建筑。陈家祠内有许多精美的雕刻和壁画，展示了广东地区的传统文化。\n\n4. 番禺长隆旅游度假区：番禺长隆旅游度假区是广州著名的旅游景点之一，拥有各种游乐设施和动物表演，是家庭旅游的好去处。\n\n5. 越秀公园：越秀公园是广州著名��公园之一，建于清朝，是广州市民休闲娱乐的好去处。公园内有许多名胜古迹，如五羊石像、越秀山等。\n\n6. 海心沙：海心沙是广州珠江新城的一个重要景点，是一个集休闲、娱乐、文化于一体的大型公园。海心沙上有许多现代化的建筑和设施，如广州大剧院、广州塔等。\n\n以上是一些广州的特色景点，当然广州还有很多其他值得一游的地方，如珠江夜游、广州动物园等。广州是一个充满活力和魅力的城市，游客可以在这里体验到广东地区的传统文化和现代城市风貌。'

4.2. 离线对话

# -*- coding: utf-8 -*-
from vllm import LLM, SamplingParamsdef chat(model_path,conversation):sampling_params = SamplingParams(temperature=0.45, top_p=0.9, max_tokens=1024)llm = LLM(model=model_path, dtype='float16', swap_space=2,cpu_offload_gb=2)outputs = llm.chat(conversation,sampling_params=sampling_params,use_tqdm=False)return outputsif __name__ == '__main__':model_path = '/data/model/qwen2.5-7b-instruct'conversation = [{"role": "system","content": "你是一位专业的导游"},{"role": "user","content": "请介绍一些广州的特色景点",},]outputs = chat(model_path, conversation)for output in outputs:prompt = output.promptgenerated_text = output.outputs[0].textprint(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")