您的位置:首页 > 娱乐 > 八卦 > Mistral AI再创新高,Pixtral 12B多模态模型强势来袭

Mistral AI再创新高,Pixtral 12B多模态模型强势来袭

2024/12/23 9:44:48 来源:https://blog.csdn.net/OpenCSG/article/details/142305637  浏览:    关键词:Mistral AI再创新高,Pixtral 12B多模态模型强势来袭

前沿科技速递🚀

近日,Mistral AI 发布了其首款多模态大模型——Pixtral 12B。作为一款具有语言与视觉处理能力的模型,Pixtral 12B 支持高达1024×1024像素的图像,具备强大的文本生成、图像理解与生成能力,能够处理复杂的文本与图像任务,在OCR、图像分类、问答系统等场景表现出色。

来源:传神社区

01 Mistral AI推出Pixtral 12B

Mistral AI是一家专门从事人工智能(AI)产品的法国公司。该公司由Meta Platforms和Google DeepMind的前员工于2023年4月成立,并迅速在人工智能领域确立了自己的地位。该公司专注于生产大型开源语言模型,强调了自由和开源软件的创始重要性,并将自己定位为专有模型的替代品。

最近,Mistral AI刚刚推出了其第一个名为Pixtral 12B的多模态模型,与OpenAI和Anthropic等公司竞争。这个120亿参数模型能够同时处理图像和文本,目前使用其Nemo 12B文本模型。该模型的大小为24 GB,理论上应该能够执行任务,如为图像添加字幕和计算照片上的对象数量。

图片

02 Pixtral 12B的技术亮点

先进的神经网络架构

Pixtral 12B 是基于先进的 Transformer 架构设计的,具备 40 层神经网络、14,336 个隐藏维度以及 32 个注意力头。该设计赋予它强大的计算能力,尤其擅长处理多模态数据,在大规模图像处理和语言生成任务中表现尤为突出。

专业的视觉编码器

Pixtral 12B 配备了一个专门用于图像处理的视觉编码器,能够处理分辨率高达 1024×1024 像素的图像,并包含 24 层隐藏层。这种架构不仅使其能够高效处理复杂的图像任务,还与语言处理模块无缝衔接,使其在 OCR(光学字符识别)、图像分类和图表解析等任务中表现优异。

强大的多模态融合

Pixtral 12B 的多模态能力源自其对文本、图像和 URL 数据的整合处理。通过统一建模,它能够在语言与视觉任务间实现深度融合,擅长复杂的问答系统、图像理解、多图像比较及视频分析等任务,展现出卓越的性能。

出色的语言与图像处理能力

该模型支持长达 131072 个 tokens 的上下文长度,使其在处理长文本和复杂对话时游刃有余。此外,其视觉模块可以处理高分辨率图像,尤其在多帧图像比较和视频总结任务中表现强劲。

技术创新与优化

Pixtral 12B 采用了 GeLU(高斯误差线性单元)激活函数和 2D ROPE(旋转位置嵌入)技术,用以提升视觉编码器的性能。这些技术不仅增强了模型的推理能力,还显著提高了其在高分辨率图像处理中的精度和速度,确保了其在视觉任务中的领先地位。

精细优化与多语言支持

Pixtral 12B 的语言处理模块经过精细调优,特别在语言生成和问答任务中表现出色。通过引入高质量的多语言数据集,模型支持多语言处理,适用于多种语言环境下的任务执行,具备广泛的全球应用前景。

图片

03 模型表现如何?数据告诉你!

根据公开的基准测试结果,Pixtral 12B 在多模态任务中表现突出。相比 Qwen2-VL-7B、LLaVA-OV-7B 和 Phi-3 Vision 等同类模型,Pixtral 12B 在多模态推理、问答系统、图像理解等任务上均表现优异,尤其是在图像生成和高级图像处理任务上处于领先地位。这不仅展示了该模型在视觉处理中的强大效能,也证明了其在语言和图像任务融合方面的领先技术。

图片

Pixtral 也具备非常出色的解释和推理能力。具体指标上,Pixtral 12B 在 MMMU 和 MathVista 上的多模态知识和推理性能均领先其它参与对比的模型(主要是开放模型,并没有 GPT-4o 和 Claude-3.5 Sonnet)。多模态问答性能也表现卓越,处于领先位置。

图片

多模态指令遵从以及文本理解能力都表现不错,在某些指标上仅略逊于 Claude-2 Haiku。

图片

04 应用实例

多模态问答与内容生成

Pixtral 12B 的多模态能力使得其在问答系统、内容生成和用户交互方面有广泛的应用前景。通过结合图像和文本输入,模型可以自动生成复杂的报告、分析文档,甚至可以根据输入的图像生成详细的描述或故事情节。这种能力在电商、医疗、教育等领域将发挥巨大作用。

图片

图像理解与视频分析

借助其强大的视觉处理能力,Pixtral 12B 可以广泛应用于图像识别、视频分析等领域。例如,在安全监控中,该模型可以处理高分辨率视频,并从中提取关键图像信息;在智能文档处理系统中,Pixtral 12B 可以通过 OCR 技术解析扫描文档并生成对应的文本内容。

图片

OCR

在医疗和教育领域,它的OCR和复杂文档解析功能将大大提高处理效率,生成精确的诊断报告或学习材料。即使是面对繁杂的手写草稿或者公式复杂的科学文档,Pixtral 12B 也能快速、准确地完成内容识别和转换。

图片

图片

04 模型下载

传神社区:

https://opencsg.com/models/mistral-community/pixtral-12b-240910

huggingface:

https://huggingface.co/mistral-community/pixtral-12b-240910

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com