GELab-Zero - 移动设备GUI智能体

开放基准测试

我们在多个开源基准测试上对GELab-Zero-4B-preview模型进行了全面评估，涵盖GUI理解、定位和交互等多个维度。以下是与其他开源模型的对比结果。

Android World

62.10

Seed-VL-1.5

64.20

UI-TARS-1.5

66.40

GUI-Owl-7B

69.70

Gemini-2.5

73.30

Mobile-Agent-v3

                                        75.86
                                    
GELab-Zero-4B-preview

ScreenSpot-V2

90.50

MiMo-VL-7B-RL

91.60

UI-TARS-7B

92.40

GTA1-7B

92.70

ScaleCUA-7B

92.80

GUI-Owl-7B

                                        93.00
                                    
GELab-Zero-4B-preview

OSWorld-G

54.10

Jedi-7B

55.70

ScaleCUA-3B

55.90

GUI-Owl-7B

57.10

UI-TARS-72B

58.00

GUI-Owl-32B

                                        68.04
                                    
GELab-Zero-4B-preview

ScreenSpot-Pro

47.90

ScaleCUA-7B

49.60

UI-TARS-1.5-7B

52.90

GroundNext-7B

54.90

GUI-Owl-7B

58.00

GUI-Owl-32B

                                        60.53
                                    
GELab-Zero-4B-preview

MMBench-GUI-L2

73.70

ScaleCUA-3B

74.25

UI-TARS-72B

80.40

GroundNext-7B

82.97

GUI-Owl-32B

84.45

SeedVL-1.5

                                        85.81
                                    
GELab-Zero-4B-preview

应对GUI智能体基础设施挑战

随着AI体验越来越多地渗透到消费级移动终端，移动智能体研究正处于从"概念验证"到"大规模应用"转型的关键时刻。基于GUI的方法已成为现阶段的最佳解决方案，因为它们与所有应用程序具有通用兼容性，无需应用供应商适配即可实现零成本集成，使其成为应对复杂移动生态系统并实现可扩展智能体能力的理想选择。

然而，由于移动应用生态系统高度碎片化，在不同品牌和设备型号上实现功能性GUI智能体往往会遇到众多工程挑战：多设备ADB连接、依赖安装、权限配置、推理服务部署以及具有回放能力的任务编排。这要求智能体开发者和MCP用户在基础设施工作上投入大量精力，从而分散了战略创新的注意力。

为了应对这些挑战，我们开源了GELab-Zero，以加速GUI智能体的创新和应用部署。它包含两个主要组件：

即插即用的完整推理基础设施 - 处理所有繁重工作
预训练的本地GUI智能体模型 - 可立即部署

它提供类似于开源GUI智能体MCP的一键部署体验，完全本地部署并完全控制推理流程。主要功能包括：

轻量级本地推理

支持4B规模的模型在本地计算机上运行，平衡低延迟与隐私保护

一键任务启动

提供统一的部署流程，自动处理环境依赖和设备管理

多设备任务分发

在多个设备间分配任务，记录交互轨迹以实现可观测和可复现

多种Agent模式

包括ReAct模式、Multi-Agent模式、定时任务等多种工作模式

这些功能使GELab-Zero能够灵活处理实际场景中的复杂任务流，并为后续扩展提供坚实基础。对于智能体开发者，这个基础设施能够快速测试新想法和交互验证策略。对于企业用户，可以直接重用此基础设施，快速将MCP能力集成到产品业务运营中。

展示案例

体验GELab-Zero GUI智能体的强大功能

个性化推荐 - 科幻电影

任务：帮我找一些最近好看的科幻电影

智能体自主解释主观标准（"好看"）并浏览电影应用以识别相关科幻内容

个性化推荐 - 出游地点

任务：帮我找一个周末可以带孩子去的地方

智能体自主分析适合家庭的活动并提供个性化推荐

实用任务 - 领取餐券

任务：在企业福利平台领取餐券

智能体在企业福利平台上执行多步骤复杂任务，准确识别屏幕信息，在APP中找到餐券兑换入口并完成餐券申请

实用任务 - 线路查询

任务：查一下地铁1号线是不是在正常运行，然后导航到离我最近的1号线地铁站入口

智能体需要查询地铁运行状态判断当前情况

复杂任务 - 多商品购物

任务：去饿了么最近的盒马鲜生购买：红色草莓300克、秘鲁白兰卡蓝莓125克（18毫米直径）、应季新鲜黄土豆500克、甜贝贝南瓜750克、盒马大粒虾滑、盒马纯豆浆300毫升2瓶、小王子夏威夷果可可脆120克、盒马菠菜面、盒马五香牛肉、好欢螺柳州螺蛳粉（特辣特臭）400克5袋、m&m's牛奶巧克力豆100克

成功完成跨品类多个特定商品的综合购物任务

复杂任务 - 信息检索

任务：在知乎上搜索"如何学习理财"，查看第一个超过1w赞的回答

智能体自主浏览知识分享平台，基于限定指标筛选高质量内容

复杂任务 - 条件搜索

任务：在淘宝上找一款白色的帆布鞋，37码的，价格不要超过100块，然后把符合条件的第一个商品收藏起来

智能体展示复杂筛选能力，识别符合多个特定条件的商品并执行收藏操作

复杂任务 - 在线答题

任务：去百词斩帮我完成背单词的任务

智能体自主操作教育应用，完成交互式答题

代码与基础设施

使用我们的轻量级基础设施在本地部署和运行GUI智能体推理

4B模型部署

在您的机器上本地部署我们优化的40亿参数模型

低资源消耗
快速推理速度
简单设置

移动设备连接

无缝连接到您的移动设备进行实时GUI控制

跨平台支持
低延迟
安全连接

推理引擎

强大的推理基础设施，用于GUI理解和动作生成

实时处理
多模态理解
自适应推理

资源链接

GitHub仓库

访问完整的源代码和文档

HuggingFace模型

下载预训练模型和数据集

快速开始

# 克隆仓库
git clone https://github.com/stepfun-ai/gelab-zero
cd gelab-zero

# 安装依赖
pip install -r requirements.txt

# 推理单个任务
python examples/run_single_task.py

AndroidDaily：真实世界日常生活基准测试

主流基准测试主要关注生产力应用（如电子邮件），而用户日常高频使用集中在生活服务应用（如外卖、打车、社交媒体、支付）。这些场景更好地反映了当代GUI智能体的实际价值。

我们推出AndroidDaily：面向真实世界场景的多维动态基准测试。我们专注于现代生活六个核心维度（食品、交通、购物、住房、信息消费、娱乐）的实证分析，优先考虑主导这些类别的热门应用。这确保了基准测试任务具有真实世界的交互结果（如交易支付、服务预订），具有紧密的线上线下集成特征。

3146

总操作数

逐步

截图

动作预测

类型和值

静态测试方法

包含3146个操作。提供任务描述和逐步截图，要求智能体预测每一步的动作类型和值（如点击坐标、输入文本）。主要评估数值准确性。这种方法不需要复杂的工程基础设施，能够快速、经济高效地进行大规模模型迭代和测试。

静态测试中的动作类型分布（总计3146个操作）

点击 1354 (43.0%)

唤醒 528 (16.8%)

完成 410 (13.0%)

输入 371 (11.8%)

信息 305 (9.7%)

滑动 93 (3.0%)

等待 85 (2.7%)

AndroidDaily静态基准测试结果

AndroidDaily静态基准测试中模型准确率的对比。GELab-Zero-4B-preview表现出色，准确率达到73.4%，显著优于其他最先进的模型。

GELab-Zero-4B-preview 73.4%

0.734

UI-TARS-1.5 47.0%

0.470

Gemini-2.5-pro-thinking 36.6%

0.366

GPT-4o 19.6%

0.196

比UI-TARS-1.5提升+26.4%

比GPT-4o好3.7倍

AndroidDaily静态基准测试第一名

235

总任务数

真实设备

完整环境

端到端基准测试方法

在功能完整的测试环境（如真实设备或模拟器）中进行，智能体必须自主从头到尾执行任务，以整体任务成功率作为评估指标。这种设置提供了最高的生态有效性，真实地反映了智能体在复杂环境中的综合能力。

端到端基准测试中的场景分布

交通出行

78个任务 (33.19%)

打车、导航、公共交通等

购物与支付

61个任务 (25.96%)

电商购物、支付、订单管理等

社交通讯

43个任务 (18.3%)

消息发送、社交互动等

内容消费

37个任务 (15.74%)

新闻阅读、视频观看、内容收藏等

本地服务

16个任务 (6.81%)

外卖、到店服务等

本地可部署的GELab-Zero-4B精通Android应用

开放基准测试

Android World

ScreenSpot-V2

OSWorld-G

ScreenSpot-Pro

MMBench-GUI-L2

应对GUI智能体基础设施挑战

轻量级本地推理

一键任务启动

多设备任务分发

多种Agent模式

展示案例

个性化推荐 - 科幻电影

个性化推荐 - 出游地点

实用任务 - 领取餐券

实用任务 - 线路查询

复杂任务 - 多商品购物

复杂任务 - 信息检索

复杂任务 - 条件搜索

复杂任务 - 在线答题

代码与基础设施

4B模型部署

移动设备连接

推理引擎

资源链接

GitHub仓库

HuggingFace模型

快速开始

AndroidDaily：真实世界日常生活基准测试

3146

逐步

动作预测

静态测试方法

静态测试中的动作类型分布（总计3146个操作）

AndroidDaily静态基准测试结果

235

真实设备

端到端基准测试方法

端到端基准测试中的场景分布

交通出行

购物与支付

社交通讯

内容消费

本地服务