Mistral AI再创新高，Pixtral 12B多模态模型强势来袭

前沿科技速递🚀

近日，Mistral AI 发布了其首款多模态大模型——Pixtral 12B。作为一款具有语言与视觉处理能力的模型，Pixtral 12B 支持高达1024×1024像素的图像，具备强大的文本生成、图像理解与生成能力，能够处理复杂的文本与图像任务，在OCR、图像分类、问答系统等场景表现出色。

来源：传神社区

01 Mistral AI推出Pixtral 12B

Mistral AI是一家专门从事人工智能（AI）产品的法国公司。该公司由Meta Platforms和Google DeepMind的前员工于2023年4月成立，并迅速在人工智能领域确立了自己的地位。该公司专注于生产大型开源语言模型，强调了自由和开源软件的创始重要性，并将自己定位为专有模型的替代品。

最近，Mistral AI刚刚推出了其第一个名为Pixtral 12B的多模态模型，与OpenAI和Anthropic等公司竞争。这个120亿参数模型能够同时处理图像和文本，目前使用其Nemo 12B文本模型。该模型的大小为24 GB，理论上应该能够执行任务，如为图像添加字幕和计算照片上的对象数量。

02 Pixtral 12B的技术亮点

先进的神经网络架构

Pixtral 12B 是基于先进的 Transformer 架构设计的，具备 40 层神经网络、14,336 个隐藏维度以及 32 个注意力头。该设计赋予它强大的计算能力，尤其擅长处理多模态数据，在大规模图像处理和语言生成任务中表现尤为突出。

专业的视觉编码器

Pixtral 12B 配备了一个专门用于图像处理的视觉编码器，能够处理分辨率高达 1024×1024 像素的图像，并包含 24 层隐藏层。这种架构不仅使其能够高效处理复杂的图像任务，还与语言处理模块无缝衔接，使其在 OCR（光学字符识别）、图像分类和图表解析等任务中表现优异。

强大的多模态融合

Pixtral 12B 的多模态能力源自其对文本、图像和 URL 数据的整合处理。通过统一建模，它能够在语言与视觉任务间实现深度融合，擅长复杂的问答系统、图像理解、多图像比较及视频分析等任务，展现出卓越的性能。

出色的语言与图像处理能力

该模型支持长达 131072 个 tokens 的上下文长度，使其在处理长文本和复杂对话时游刃有余。此外，其视觉模块可以处理高分辨率图像，尤其在多帧图像比较和视频总结任务中表现强劲。

技术创新与优化

Pixtral 12B 采用了 GeLU（高斯误差线性单元）激活函数和 2D ROPE（旋转位置嵌入）技术，用以提升视觉编码器的性能。这些技术不仅增强了模型的推理能力，还显著提高了其在高分辨率图像处理中的精度和速度，确保了其在视觉任务中的领先地位。

精细优化与多语言支持

Pixtral 12B 的语言处理模块经过精细调优，特别在语言生成和问答任务中表现出色。通过引入高质量的多语言数据集，模型支持多语言处理，适用于多种语言环境下的任务执行，具备广泛的全球应用前景。

03 模型表现如何？数据告诉你！

根据公开的基准测试结果，Pixtral 12B 在多模态任务中表现突出。相比 Qwen2-VL-7B、LLaVA-OV-7B 和 Phi-3 Vision 等同类模型，Pixtral 12B 在多模态推理、问答系统、图像理解等任务上均表现优异，尤其是在图像生成和高级图像处理任务上处于领先地位。这不仅展示了该模型在视觉处理中的强大效能，也证明了其在语言和图像任务融合方面的领先技术。