首页 > 商业 > 正文

AI手机长出“上帝之手”

2025-03-18 05:00:00 21世纪经济报道 肖潇,王俊

“2025年会是AI智能体元年。”开年的短暂时间里,关于智能体的押注再次如潮水涌现。

在通用人工智能(AGI)的宏大版图中,AI Agent(智能体)被视为关键一步。它不仅能聊天,还要做出实际行动,实现“从说到做”的进化。

事实上,AI智能体早已在手机里展现潜力。一句话点2000杯咖啡、群发微信红包、自动抢演唱会门票……过去一年里,几乎所有手机厂商都在为AI智能体秣马厉兵,试图打造科幻电影里知无不言的“贾维斯”。

技术狂飙的背后,隐忧悄然浮现。尽管AI还未实现“全自动驾驶”手机的理想形态,但南财合规科技研究院、21世纪经济报道实测发现,多款手机智能体在后台打开了手机的无障碍权限,部分未事先通知用户。这一功能原本是为残障人士设计的“特殊通道”,可以看到屏幕上所有隐私内容,乃至执行任何操作,属于高敏感权限。

这场由手机智能体引发的技术跃迁,也在为隐私保护、App变革带来新课题。南财合规科技研究院为此测评6款AI手机,整理出七个需要了解的关键问题,绘制一张认知地图。

手机智能体能“代劳”到哪一步了?

手机助手的概念并不新鲜。2011年,Siri以“智能语音助手”的身份亮相苹果发布会后,几乎每一台移动设备里,都能找到一个像Siri、小爱同学一样的智能助手。它们靠语音交互就能完成一些简单操作,但离真正的“智能”还差得远。

生成式AI的加入带来了让人兴奋的变化。2024年9月,荣耀率先宣布用大模型“全面升级”手机助手。随后华为、vivo、OPPO、小米等厂商都升级了自家的手机助手,摇身变成AI智能体。

不同于早期的手机助手,智能体的目标是深入手机操作流程,成为全能管家。开发者们宣称,只需要一句话,用户无需逐个打开App,手机智能体就能像真人一样在多个App之间操作,完成订票、点餐、取消续费等复杂任务。

但实际体验到底如何?

以最高频的宣传场景为例,我们在语音球里唤醒出AI智能体,提出要求:帮我点一杯咖啡。这时小米、OPPO会跳转到美团App的“咖啡”外卖搜索页,但无法继续操作,任务终止。

荣耀的YOYO智能体可以更进一步。它会先弹出一张有三种咖啡选择的外卖卡片,再跳转进美团App的“咖啡”搜索页,由YOYO一步步抵达最终下单页面。不过整个过程仍然需要多轮确认,并不比自己动手快多少。

整体来看,手机智能体更多还是“宣传上的巨人”。成功率低、响应不稳定、耗时长,是普遍存在的问题。

这背后的一道难关是,手机智能体需要突破App之间的藩篱。西湖大学AGI实验室负责人张驰告诉我们,早一代的手机助手主要调用的是系统自带应用,本质是调用预设好的命令块,比如Siri能查苹果天气。而手机智能体面对的是跨第三方App操作和复杂多变的用户指令——美团、饿了么、携程、同程、飞猪……“现在技术理念基本定型了,但要真正落地为一个产品,还得面对大量工程问题。”

张驰曾带队某头部大厂的智能体研究团队,他们在2023年12月的论文中提出了一种名为App Agent的手机代理框架,并测试了十款App里修图、购物、订机票等任务的成功率。当时,App Agent的成功率约为73%,学习示例后可提升至84%,而真人手动操作的成绩在95%左右。

“与12个月甚至6个月前相比,这已经是巨大进步了,毕竟那时的智能体往往在短短几秒钟后就会‘跑偏’。”张驰表示,现在手机智能体每执行一个操作前,都要“思考”下一步该做什么。提升性能和效率,是接下来的关键方向。

如何实现“代劳”?

手机智能体不能只是“聊天”,还需要“眼睛”和“手”进一步操作手机,背后的关键技术是什么?

多位业内人士告诉我们,现在有两种主流方法。

第一种方法的行业术语叫“意图框架”,本质是App和手机智能体的合作方案。经过App授权后,手机智能体通过应用编程接口(API)或者开发套件(SDK)调用App的特定功能。

“能用API的地方,当然会优先使用API。”张驰说,调用API的好处是能直接完成任务,兼具稳定和安全。他接触过的大多厂商都倾心这种方案,它们会提前列举一系列高频场景——外卖、购物、订票——再让手机智能体调用相应场景的API完成任务。“系统始终在这1000个既定任务内运行,不会超出边界,更可控安全。如果只有几种固定场景,效率确实会更高。”

目前,苹果、华为、vivo、OPPO都已推出各自的意图框架,小红书、同程旅行、百度云、58同城、支付宝等App出现在“智能体生态合作名单”中。

但我们也从接触过谈判的业内人士了解到,合作进展不算顺利,App大厂对于加入意图框架的态度谨慎。

原因不难想象。如果手机智能体能直接调用App功能,用户可能不再主动打开App,影响流量和广告曝光量,甚至削弱用户数据积累。而即便有互联互通的口号,要让一个个App孤岛接受手机智能体的调用、统一指挥和分配,仍然是一个艰巨任务。

这种情况下,另一种基于“视觉路线”的方案(GUI Agent;图形界面智能体)正受到越来越多关注。

简单来说,视觉路线等于用“读屏+模拟操作”来调用App。此时手机智能体的工作思路与普通人无差别:

1.感知——先阅读屏幕信息和界面元素;

2.推理——思考下一步要做什么;

3.操作——点击,滑动,打字,直到任务完成。

这种方案的最大优势是能绕过一个个App授权,从前台直接操作。但难题在于一旦界面变化,手机智能体可能难以适应,并且存在一定安全风险。

多位技术人士向我们解释时提到,要让手机智能体直接操作屏幕,就必须用到一项敏感权限“无障碍服务(Accessibility Service)”。其拥有系统级别的最高权限,可以看到屏幕上银行卡密码、聊天记录等所有信息,继而替用户点击、长按、滑动屏幕,相当于手机里的一双“上帝之手”。

“(视觉路线)虽然潜力巨大,代表着未来的发展方向,但也伴随着诸多问题和风险。”张驰坦言。

哪些手机智能体会用到“高敏感权限”?

资料图

对很多人来说,“无障碍功能”还是个陌生概念。“无障碍功能”也叫“辅助功能”,原先是为残障人士设计的,例如“屏幕朗读”功能可以读出屏幕上所有文本、按钮、标签,让视障用户用听觉了解手机里发生的事情。

“读屏”可以隐秘获得屏幕前台的所有内容、“模拟点击”可以执行操作,无障碍功能的能力之大让风险陡增,因此安卓等系统将其明确列为“高敏感权限”。

从我们的测试来看,除了华为,几乎所有手机智能体都涉及这一“高敏感权限”。

手机智能体通常会在《隐私政策》中交代相关情况,但面对动辄几十页的《隐私政策》,普通人很难查找相关内容。要想快速确认智能体是否使用了无障碍功能,最直接的方法是进入“手机系统设置—无障碍功能”,查看统一的“已下载应用列表”。

通过这一方法,我们发现,荣耀、小米、三星的手机智能体,在实际使用中确实用到了无障碍功能。

当荣耀的YOYO在美团App下单咖啡时,系统会显示其正在接管手机,同时“无障碍应用列表”里YOYO的开关开启,任务结束后又自动关闭。

小米的超级小爱在打车、调出滴滴App时也会开启无障碍功能。

三星的Bixby使用更为频繁,无论是否跳转App,只要对智能体Bixby说话,Bixby的无障碍权限便会自动打开。

还有两种特殊情况值得一提。vivo系统输入法中嵌入了小v写作功能,据称为了让AI“识别页面聊天记录,并根据上下文语义理解高输出回复结果”。在拿到一部新手机后,只要用到vivo输入法,同意授权后,便会全程打开无障碍功能。

而OPPO尽管在小布智能体的《隐私政策》中提到了会用到无障碍权限,但小布没有出现在“无障碍应用列表”中,因此我们无从核查是否使用。

用了“高敏感权限”一定在作恶吗?

技术往往具有双刃剑的复杂特性,无障碍功能也一样。

一方面,这些年滥用无障碍服务的黑灰产业不少。此前流行的“跳开屏广告”神器李跳跳、自动抢红包和外卖单的“超级雷神”外挂、手游里的打怪外挂等等,都涉嫌滥用无障碍服务。今年315晚会曝光的数据黑灰产,窃取20亿条个人信息背后,亦与“无障碍权限”密切相关。

另一方面,无障碍服务是残障人士融入数字生活的必需品。我国无障碍环境建设法于去年9月1日起施行,要求各大互联网平台符合无障碍网站设计标准和国家信息无障碍标准。315信息安全技术实验室技术专家彭根提到,无障碍功能的合法使用场景还包括表单填写、自动化软件测试,从而提高工作效率。

“大模型本身就也在享受无障碍功能的红利。”同济大学法学院助理教授、上海市人工智能社会治理协同创新中心研究员朱悦补充说,许多早期的多模态大模型训练数据,正来自无障碍服务为海量视频和图像提供的文本标注。多模态大模型与无障碍的“互助”,可以说是技术往前走的必要。

因此,核心问题不在于手机智能体是否使用无障碍功能,而在于合理使用的边界。这条边界目前有两条清晰的规则要求:第一,在使用无障碍前有没有明确通知用户,获得同意?第二,有没有提供权限开关,让用户能监测和控制?

沿着这两条规则往下走,我们发现手机智能体的局面较为混乱。

荣耀和三星的智能体在使用过程中,会默默打开相关功能的无障碍权限,使用结束后再默默关闭,没有单独的通知同意。OPPO在小布《隐私政策》的权限列表里明确提到,开启无障碍服务前不会询问。

与之对比的是小米的超级小爱。它会先弹出通知界面,明确说明“模拟点击”和“屏幕内容获取”权限的用途,用户同意后再启用无障碍功能。

而vivo的情况较为特殊,尽管输入法的无障碍权限全程开启,但在回微信、写小红书文案时首次用到小v写作的话,系统会跳出一条“一键识屏”的授权提示,告知该功能会控制屏幕、读取所有内容。

在控制开关上,各家做法也不尽相同。只有小米、荣耀、三星在系统“无障碍应用列表”中为AI智能体提供了开关,用户可以随时手动关闭。此外,小米、vivo在智能体的单独页面中提供了针对“一键识屏”等功能的单独开关,相当于另设了一道防线。

观韬中茂(上海)律师事务所合伙人吴丹君告诉我们,无障碍功能会获取到存款、消费记录、网页浏览记录等敏感个人信息,按照个人信息保护法的要求,处理敏感个人信息必须取得单独同意。因此,如果手机智能体“默默”开启了无障碍权限,涉嫌违反个人信息保护法中“单独同意”的规定。如果在任务结束后仍保持开启,并且收集了超出必要范围的数据,还可能构成“超范围收集个人信息”。

针对隐私合规问题,我们向荣耀、vivo、OPPO、小米发出问询。OPPO此前回复:“出于便利性等客观原因,调用无障碍服务可以无需授权。无障碍服务的使用前提是需要遵循用户隐私规范,其仅会被用于帮助使用有困难的用户更好地使用智能设备。”vivo则表示,“公司对智能体行为有严格的管控策略,全方位保障智能体的安全可控。相关权限均在隐私政策中声明,并获取用户同意,用户可自主关闭。”

截至发稿,其余手机厂商未有回复。

现在有哪些安全防护?

安卓官方规定,无障碍权限必须由用户在应用管理中手动确认开启。公开报道显示,2017年,谷歌曾向所有安卓开发者发送邮件,要求调用无障碍功能的App必须明确描述用途,否则将无法上架谷歌的应用商店。

国内手机厂商在安卓系统之上构建自己的生态,小米、荣耀、vivo、OPPO继承了安卓的安全机制。从实际情况来看,六款AI手机为用户提供了不同程度的安全防护。在系统设置中,都有统一的无障碍应用列表和控制开关——如果用户要手动为某个App敞开无障碍大门,系统会弹出强提示,包括强制阅读、“高敏感权限”的风险提示,以及无障碍功能的具体介绍。

但业界仍然有担忧的声音。手机智能体是手机厂商的原生产品,而安全规则又由手机厂商自行制定,有没有可能提供特殊待遇?

实测过程中,这种双重标准的疑问确有迹可循。虽然五款手机智能体均提到会调用无障碍功能,但vivo和OPPO的智能体并未出现在前述“无障碍应用列表”中。在实际使用时,也没有一款手机智能体会引导用户进入该管理页面。

当然,手机智能体也有专门的安全机制,关键在于明确操作场景。张驰表示,需要一套监督模式,监控手机智能体不会执行超出安全范围的操作,“但目前这方面的研究是不够的。”

OpenAI在Operator中已设立了一系列安全护栏。例如,涉及输入密码的敏感操作时,Operator会进入用户手动接管模式,这意味着不会存储密码信息;允许用户一键删除浏览数据和历史对话,并注销所有网站。

目前测试的六款国产手机智能体在输密码、下单支付等敏感场景需要用户手动操作。三星的Bixby提供了“本地化处理数据的选项”,减少数据上云带来的泄露风险。

我们就更多安全机制问题,向vivo、小米、OPPO、荣耀发出询问。截至发稿,vivo简略回应称,其智能体设有多重安全防护措施,包括指令管理、权限管理、行为管理等。其余厂商未有回复。

还有哪些未解担忧?

“视觉路线的智能体,本质上是在扮演用户角色。”张驰指出,这意味着理论上,用户能看到的所有内容AI也能读取,用户能执行的所有操作AI也能完成。由于无障碍权限的特殊性,这一过程往往很难被第三方技术监测。

除了前文提到的隐私风险,更深一层的隐患是网络安全。“代理劫持”等新型攻击方式已被中美多个研究机构关注,彭根指出,这种攻击可能利用智能体的权限给其他人发钓鱼邮件、打电话诈骗、盗刷资金。甚至手机可能被恶意程序劫持,成为僵尸网络的节点,为黑客执行大规模攻击。

第二重风险则是决策层面的。手机智能体的野心不仅是“助手”,更希望成为用户的“代理人”,在比价、规划、社交沟通等更复杂的场景发挥作用。但如果做出了错误决策或者面临道德困境,谁能为结果担责?

在行业中,关于手机智能体的制度性讨论已经在进行。一位监管侧人士提到,今年1月1日生效施行的《网络数据安全管理条例》对自动化工具作出了特殊规定。比如《网络数据安全管理条例》第二十四条明确,通过自动化采集技术处理个人信息,必须删除或者匿名化处理其中的个人信息。这些约束对手机智能体也适用。

不过,“绝大多数用户缺乏与‘个人助理’互动的经验,无法准确形成在这一场景中有关个人信息使用的合理预期。”在这种不对等的关系下,多位法律业内人士指出,手机智能体需要明确授权,并且要用可视化的界面向用户清楚解释数据流向。

下一步会怎么发展?

市场调研机构Canalys预测,2024年具备生成式AI能力的手机出货量将占全球智能手机市场的16%,到2028年,这一比例将提升至54%。

市场已经热了起来,但技术路线的选择依然存在分歧。从数据安全的立场出发,不少业内人士认为,视觉路线只是过渡方案,最优解仍然还是推动API合作,构建统一的意图框架,让智能体兼具安全与灵活性。

但除了技术发展与隐私安全的拉锯,手机智能体还面临另一重挑战:商业利益的博弈。

在国内,智谱AI、DeepSeek等AI初创公司,已经频繁出现在各大手机厂商的合作通稿中。手机厂商的智能体策略正从完全自研转向“自研+合作”双轨并行。

另一边,擅长打造产品的互联网巨头也在加紧布局智能体。对互联网公司来说,手机智能体的发展可能触及生存核心。手机智能体能自动点外卖、网购、发微信消息,也意味着能收集用户散落在各个App中的行为数据。随着这些壁垒被打通,智能体的用户画像将更加精准。而用户数据,正是各大App的护城河。

智能体领域的新玩家不断涌入,利益选择变得前所未有的复杂。AI公司将智能体视为迈向AGI的关键钥匙,手机厂商希望用它拉动疲软的硬件市场,互联网巨头则不愿放弃流量入口和数据城池。在三大市场阵营下,各方有多大动力推动合作、共享数据?还是一个悬而未决的问题。

前述业内人士因此认为,意图框架和“视觉路线”并非二选一,而是应该并行发展。“毕竟系统开发者有适配成本,也有大厂为了自己的闭环生态,是不会加入合作的。从互联互通和市场竞争的角度,需要仔细思考(实现方式)。”

前述监管侧人士则提醒,接下来尤其需要关注手机智能体对互联网市场秩序带来的冲击。随着终端厂商、App开发者等围绕用户权限的争夺日益激烈,未来势必会涉及权限的定义、掌控及优先级划分等问题。

曾经由爬虫和自动化采集技术引发的不正当竞争大战,似乎已为手机智能体埋下一处伏笔。各方在隐私安全、数据流动及商业竞争中如何找到平衡,会是接下来一大看点。

万字详解智能体:AI手机走“盲道”

21财经客户端下载