《Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms》
精通跨平台的通用用户界面理解
简介
构建一个通用的用户界面(UI)理解模型具有挑战性,原因包括平台多样性、分辨率差异和数据限制。在这篇论文中,我们介绍了Ferret-UI 2,这是一个跨多个平台(包括iPhone、Android、iPad、Webpage和AppleTV)设计的多模态大型语言模型(MLLM),旨在实现普遍的UI理解。
Ferret-UI 2基于Ferret-UI的基础,引入了三个关键创新:支持多种平台类型、通过自适应缩放实现高分辨率感知,以及利用GPT4o和标记集视觉提示生成高级任务训练数据。
这些进步使Ferret-UI 2能够执行复杂的、以用户为中心的交互,使其在不断扩大的平台生态系统多样性中具有高度的多功能性和适应性。
广泛的实证实验,包括涉及参照、定位、以用户为中心的高级任务(包括9个子任务×5个平台)、GUIDE下一行动作预测数据集和GUI-World多平台基准测试,表明Ferret-UI 2显著优于Ferret-UI,并且显示出强大的跨平台迁移能力。
五个平台:iPhone, Android, iPad, Webpage, and AppleTV
任务
1、基础任务(2类、6个)
-
Referring
- OCR
- Widget classification
- Tappability prediction
-
Grounding
- Widget listing
- Find text
- Find widget
2、高级任务(3类、9个)
-
Comprehensive Description
- Summarize overall functionality 请对截图所示UI页面的整体功能进行一句话描述
- Divide screen to sub-areas and describe their local functionality 将其细分为几个区域/组,并解释每个区域/组的功能
-
Multi-round Perception QA
- Caption-based grounding & Grounded content description & Widget status 根据控件描述解析引用的控件内容,根据控件描述定位控件的位置,并描述每个控件的功能和状态(启用、禁用、选中、悬停)。
- context awareness 了解UI小部件呈现的上下文,包括不同UI组件之间的关系,以及它们如何对整体用户体验做出贡献。
- Layout and hierarchy recognition 了解小部件如何在UI布局中分组和嵌套。
-
Multi-round Interaction QA
- User-centered interaction 例如,“请帮我确认提交”而不是“请点击[Box0]按钮”
- Interactivity understanding 识别并交互于按钮、链接、图标、滚动条和切换开关,并能识别不可交互的组件,如静态文本和背景图片。 识别并交互于输入字段、下拉菜单、复选框和单选按钮,以及它们在特定交互任务中的当前状态(如,选中、未选中、已填充、空)
- Task-oriented next step prediction 根据当前可见的部件(如标签、菜单和面包屑控件)预测潜在的导航路径。
3、公开数据集(3个)
GroundUI-18k(Zheng等人,2024b),一个关于网页截图的简单用户中心交互数据集,
GUIDE(Chawla等人,2024),一个基于网页截图的下一步操作预测数据集,
以及Spotlight(Li & Li,2023),一个Android用户界面理解和交互数据集。
4、训练数据分布
高级数据的生成方法
我们使用给定屏幕截图的边界框注释 提示GPT-4o,并要求GPT-4o生成与屏幕截图中的UI组件相关的问题解答任务。
与FerretUI主要关注空间描述(由于使用文本提示进行边界框注释时缺乏图像信息,即屏幕截图的限制)不同,Ferret-UI 2利用GPT-4o生成涵盖UI理解多个方面的高级任务数据。
这成为可能是因为GPT-4o在接收到屏幕截图作为输入时,展示出了更好的能力来理解UI组件之间的空间关系。
高级任务示例
1、Comprehensive Description
2、Multi-Round Perception QA
3、Multi-Round Interaction QA
模型结构
Image encoder: CLIP ViT-L/14
LLM backone: Vicuna-13B + Gemma-2B + Llama3-8B
消融实验
结论:Training data的优化和模型结构的优化都起到了效果提升的作用。
这里面有一点值得注意的是 在 iPhone v2 训练出来的 Ferret-UI 2模型 在iPhone v1测试集上的效果 比 在iPhone v1训练出来的效果差
评估和其他内容
详见论文