首个由阶跃星辰提供的完全开源GUI智能体,包含模型+基础设施。即插即用的工程设置——无需云端依赖,完全隐私控制
我们在多个开源基准测试上对GELab-Zero-4B-preview模型进行了全面评估,涵盖GUI理解、定位和交互等多个维度。以下是与其他开源模型的对比结果。
随着AI体验越来越多地渗透到消费级移动终端,移动智能体研究正处于从"概念验证"到"大规模应用"转型的关键时刻。 基于GUI的方法已成为现阶段的最佳解决方案,因为它们与所有应用程序具有通用兼容性,无需应用供应商适配即可实现零成本集成, 使其成为应对复杂移动生态系统并实现可扩展智能体能力的理想选择。
然而,由于移动应用生态系统高度碎片化,在不同品牌和设备型号上实现功能性GUI智能体往往会遇到众多工程挑战: 多设备ADB连接、依赖安装、权限配置、推理服务部署以及具有回放能力的任务编排。这要求智能体开发者和MCP用户在基础设施工作上 投入大量精力,从而分散了战略创新的注意力。
为了应对这些挑战,我们开源了GELab-Zero,以加速GUI智能体的创新和应用部署。它包含两个主要组件:
它提供类似于开源GUI智能体MCP的一键部署体验,完全本地部署并完全控制推理流程。主要功能包括:
支持4B规模的模型在本地计算机上运行,平衡低延迟与隐私保护
提供统一的部署流程,自动处理环境依赖和设备管理
在多个设备间分配任务,记录交互轨迹以实现可观测和可复现
包括ReAct模式、Multi-Agent模式、定时任务等多种工作模式
这些功能使GELab-Zero能够灵活处理实际场景中的复杂任务流,并为后续扩展提供坚实基础。对于智能体开发者, 这个基础设施能够快速测试新想法和交互验证策略。对于企业用户,可以直接重用此基础设施,快速将MCP能力集成到产品业务运营中。
体验GELab-Zero GUI智能体的强大功能
任务:帮我找一些最近好看的科幻电影
智能体自主解释主观标准("好看")并浏览电影应用以识别相关科幻内容
任务:帮我找一个周末可以带孩子去的地方
智能体自主分析适合家庭的活动并提供个性化推荐
任务:在企业福利平台领取餐券
智能体在企业福利平台上执行多步骤复杂任务,准确识别屏幕信息,在APP中找到餐券兑换入口并完成餐券申请
任务:查一下地铁1号线是不是在正常运行,然后导航到离我最近的1号线地铁站入口
智能体需要查询地铁运行状态判断当前情况
任务:去饿了么最近的盒马鲜生购买:红色草莓300克、秘鲁白兰卡蓝莓125克(18毫米直径)、应季新鲜黄土豆500克、甜贝贝南瓜750克、盒马大粒虾滑、盒马纯豆浆300毫升2瓶、小王子夏威夷果可可脆120克、盒马菠菜面、盒马五香牛肉、好欢螺柳州螺蛳粉(特辣特臭)400克5袋、m&m's牛奶巧克力豆100克
成功完成跨品类多个特定商品的综合购物任务
任务:在知乎上搜索"如何学习理财",查看第一个超过1w赞的回答
智能体自主浏览知识分享平台,基于限定指标筛选高质量内容
任务:在淘宝上找一款白色的帆布鞋,37码的,价格不要超过100块,然后把符合条件的第一个商品收藏起来
智能体展示复杂筛选能力,识别符合多个特定条件的商品并执行收藏操作
任务:去百词斩帮我完成背单词的任务
智能体自主操作教育应用,完成交互式答题
使用我们的轻量级基础设施在本地部署和运行GUI智能体推理
在您的机器上本地部署我们优化的40亿参数模型
无缝连接到您的移动设备进行实时GUI控制
强大的推理基础设施,用于GUI理解和动作生成
# 克隆仓库
git clone https://github.com/stepfun-ai/gelab-zero
cd gelab-zero
# 安装依赖
pip install -r requirements.txt
# 推理单个任务
python examples/run_single_task.py
主流基准测试主要关注生产力应用(如电子邮件),而用户日常高频使用集中在生活服务应用(如外卖、打车、社交媒体、支付)。 这些场景更好地反映了当代GUI智能体的实际价值。
我们推出AndroidDaily:面向真实世界场景的多维动态基准测试。 我们专注于现代生活六个核心维度(食品、交通、购物、住房、信息消费、娱乐)的实证分析, 优先考虑主导这些类别的热门应用。这确保了基准测试任务具有真实世界的交互结果(如交易支付、服务预订), 具有紧密的线上线下集成特征。
总操作数
截图
类型和值
包含3146个操作。提供任务描述和逐步截图,要求智能体预测每一步的动作类型和值 (如点击坐标、输入文本)。主要评估数值准确性。这种方法不需要复杂的工程基础设施, 能够快速、经济高效地进行大规模模型迭代和测试。
AndroidDaily静态基准测试中模型准确率的对比。GELab-Zero-4B-preview表现出色,准确率达到73.4%,显著优于其他最先进的模型。
比UI-TARS-1.5提升+26.4%
比GPT-4o好3.7倍
AndroidDaily静态基准测试第一名
总任务数
完整环境
在功能完整的测试环境(如真实设备或模拟器)中进行,智能体必须自主从头到尾执行任务, 以整体任务成功率作为评估指标。这种设置提供了最高的生态有效性,真实地反映了智能体在复杂环境中的综合能力。
78个任务 (33.19%)
打车、导航、公共交通等
61个任务 (25.96%)
电商购物、支付、订单管理等
43个任务 (18.3%)
消息发送、社交互动等
37个任务 (15.74%)
新闻阅读、视频观看、内容收藏等
16个任务 (6.81%)
外卖、到店服务等