近年来,随着人工智能领域在计算机视觉和自然语言处理方面取得了飞速发展。2025年2月17日,微软发布了最新版本的视觉Agent解析框架——OmniParser-v2.0。这一版本不仅提升了模型的交互能力,还将OpenAI、DeepSeek、Qwen、Anthropic等顶尖模型转化为全新设计的“计算机使用智能体”(Computer Use Agent)。相比于之前的纯图片识别自动化检测,我认为是下一代纯视觉UI自动化测试的先驱,接下来看看官网的宣传视频:
OmniParserV2
参考资料–放在最前面方便打开:
- 微软开源OmniParser官方git库
- huggingface方便体验效果
什么是OmniParser-v2?
先看下官方给的定义:
翻译下大致意思是:
OmniParser 是一个通用的屏幕解析工具,它将 UI 屏幕截图解释/转换为结构化格式,以改进现有的LLM基于 UI 代理。训练数据集包括:1) 一个可交互的图标检测数据集,该数据集是从流行的网页中挑选出来的,并自动注释以突出显示可点击和可操作的区域;2) 一个图标描述数据集,旨在将每个 UI 元素与其相应的功能相关联。
使用效果
给的定义说的不够简洁,废话不多说直接上使用效果:
原图
效果图
其实光给出上面的检测效果图可能大家都不觉得稀奇,因为上面检测效果实质就是一个YOLO目标检测算法,但OmniParser基于目标检测结果使用LLM做了图片理解,如图中下半部分Parsed screen elements内容。
仔细看下OmniParser理解出的图片内容会输出icon编号、icon类型(text or icon)、icon坐标、是否可交互、大模型对icon的理解。从这里可看出借助大语言模型,允许我大胆推测随着AGI时代的到来,互联网自主开发、测试也必然要实现。虽然经过测试当前的OmniParser效果其实没有很令我惊艳,但正如我标题所述OmniParser是下一代纯视觉UI自动化测试先驱。那么下面介绍下如何安装使用工具:
安装与使用
以下是OmniParser-v2的安装与使用步骤:
1. 安装OmniParser-v2
拉代码:
git clone https://github.com/microsoft/OmniParser.git
创建虚拟环境,下载依赖库。
cd OmniParser
conda create -n "omni" python==3.12 #创建单独conda环境
conda activate omni
pip install -r requirements.txt
下载模型参数文件。
# download the model checkpoints to local directory OmniParser/weights/for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; donemv weights/icon_caption weights/icon_caption_florence
可在CPU机器上运行,但运行速度慢
结语
OmniParser-v2通过视觉解析统一化、数据结构标准化、动态适配智能化三大技术支柱,实现了“一次训练,全平台适用”的突破。后续继续介绍下OmniParser实现技术细节和使用模型(OCR、YOLO、Florence-2-base),敬请期待!
最后再放一个OmniParser-v2中OmniTool的宣传视频,实现效果可以说是相当炸裂,当然这只是一个Demo!
merged_add_music_720p