成功率76.7%，阿里MAI-UI正在重新定义手机操作。

qimuai 发布于 2025-12-31 18:02 阅读：68 AI新闻

最新AI落地实操，点击了解：https://qimuai.cn/

（开头：场景切入+悬念）

每天早上，手机闹钟把你吵醒。你眯着眼，关掉闹钟，顺手点开微信，刷一下朋友圈，再切到抖音看两条推送，然后打开淘宝看看物流——这一系列动作行云流水，但你想过没有，如果能动动嘴，就有人替你“跑腿”完成所有这些操作？

这听起来像科幻，但有人正在把它变成现实。而且，这个“影子助理”，比你想象的更聪明、更懂你。

（引入主角）

最近，阿里巴巴通义实验室悄悄放出一个“大货”：MAI-UI。它不是APP，也不是新系统，而是一整个GUI智能代理家族。简单说，它就是那个能“看懂”你手机屏幕，并帮你操作手机里各种应用的AI大脑。

（核心痛点：为什么需要它？）

现在的手机AI助手，能干吗？定闹钟、放音乐、查天气。一旦遇到复杂点的任务，比如“帮我把昨天拍的那张有猫的照片发给我妈微信”，它就傻了。要么听不懂，要么点错地方。

这正是MAI-UI要解决的核心问题：让AI真正学会“用”手机，像人一样自然地交互，而不是个只会执行固定命令的“人工智障”。

（核心揭秘：它凭什么这么强？）

MAI-UI的厉害，藏在三把“刷子”里：

第一把刷子：它会“自我进化”。
它的训练数据不是一成不变的。它能在真实的手机操作中，自动采集你的点击、滑动、输入等行为，并结合强大的多模态大模型，自己“琢磨”出更好的操作路径。数据越用越活，AI越用越聪明。

第二把刷子：它懂“公私分明”。
你的隐私和速度，它都想要。所以它采用设备-云协同架构。简单的、敏感的操作，在你自己手机端就能快速完成（速度能提升约三分之一）。碰到复杂任务，再悄无声息地调用云端更强大的模型。既快，又安全。

第三把刷子：它在“实战”中练兵。
它在一个容器化的“虚拟手机世界”里进行高强度训练，能同时操作超过35个主流应用。研究人员把训练规模扩大了16倍，它的任务成功率就提升了5.2个百分点。这是实打实在复杂环境里练出来的“肌肉记忆”。

（交互亮点：它有多“人性化”？）

最让我觉得有意思的，是它的“沟通情商”。
如果你只说“订一张机票”，它不会像个呆子一样直接打开订票APP然后卡住。它会反问你：“请问出发城市、目的地和出发日期是？”
这种主动询问、补全信息的能力，才是智能体迈向“自然协作”的关键一步。它支持混合操作——能直接点击屏幕，能用自然语言回复你，也能通过API进行深层操作。

（性能实锤：数据不说谎）

光说不练假把式。在业内公认的AndroidWorld和MobileWorld两大基准测试中，MAI-UI交出了硬核成绩单：

在AndroidWorld测试中，其最大模型变体达到76.7%的成功率，超越了Gemini 2.5 Pro、Seed1.8等一众国际主流模型。
在更复杂的MobileWorld测试中，取得了41.7%的整体成功率，比之前最强的端到端GUI基线，直接高出20.8个百分点。

这意味着，在让AI实际操作手机完成复杂任务这个赛道上，它已经跑在了前面。

（展望与结尾）

从能“听懂”到能“上手”，AI与人类交互的界面正在发生根本性的迁移。MAI-UI让我们看到，那个动动嘴皮子就能让AI打理好一切生活琐事的未来，或许已经不远了。

当AI不仅能生成内容，还能精准操控工具、执行复杂流程时，会发生什么？每一个需要与屏幕交互的行业——电商、游戏、办公、政务——都将被重新定义。

所有领域都值得用AI重做一遍。本文作者承接各种AI智能体和AI全域营销自动化软件、工作流开发，了解加微信：qimugood(读者也可此微信一起交流）。

AI每日进展

文章目录

📚 推荐阅读

扫描二维码，在手机上阅读