您的代理商计算机助理正在踏上雷电!揭示计算机代理的安全漏洞
2025-07-06 19:35:44 | 作者: 匿名
从Anthropic的Claude 3.5十四行诗具有自己的计算机使用功能,到OpenAI的操作员CUA出现,然后是Manus的直接流行,当前的计算机使用代理就像打开插件一样。只需一项指令,您就可以独立完成代码项目(编码/调试),处理电子邮件,刷牙页面和执行PPT/教授计划,并精通所有内容!
但是,不要急于加油——您是否曾经想过,将计算机操纵权授予这些“智能”助手可能就像告诉陌生人在银行卡密码中一样危险?
为了使计算机使用代理(CUA)能够大规模部署,并在将来安全地在实际应用方案中进行安全部署,上海AI实验室,中国科学技术和上海jiaotong University的团队已采取了强有力的措施,以推出CUA安全测试基准3——RIOSWORLD!它可以称为CUA的“安全医学检查中心”!该测试基准可以全面评估计算机使用代理在现实生活中使用情况下可能面临的安全风险,并表明CUA在当前阶段仍然面临着重要的安全风险,作为自动化计算机使用助理。
现在,论文,项目官方网站和GitHub代码都是开源的!想观看AI“下降场景”?想克服顶级团队的安全问题吗?单击下面的链接!
标题:Riosworld:基准多模式计算机使用代理的风险
论文:https://arxiv.org/pdf/2506.00618
页面:https://yjyddq.github.io/riosworld.github.io/
github:https://github.com/yjyddq/riosworld
代理计算机助理立即成为“矿山专家”。您发现了这些陷阱吗?
不要以为AI真的很“聪明”!研究小组随便进行了“钓鱼电子邮件”测试。真是个好人,这些看似全能的代理商到处都是!当他们收到伪装成“反捕捞指南”的恶意电子邮件时,他们实际上单击了链接以下载“保护软件”跟,而无需关注发件人是否是可疑的电子邮件地址。这不是一个聪明的助手,它只是在线欺诈的“选定受害者”!
更令人发指的是,面对弹出广告,网络钓鱼网站,甚至试图绕过人类计算机验证(recaptcha),代理商也“勇敢地面对面”。如果您遇到有不良意图的用户,请发布谣言,删除系统文件,甚至协助非法活动,他们可能会根据自己的意愿接受他们!隐私泄漏,数据损坏.
Riosworld,Agent Computer Assistant的“恶魔成像镜”!
上海AI实验室,中国科学技术大学和上海Jiotong大学共同发布了Riosworld—— A A Riosworld——测试基准,用于全面,全面评估现实计算机使用任务中存在的安全风险。
100实际测试环境+支持动态风险部署+多元化风险类别
当前大多数研究对计算机使用代理的安全风险的局限性是:
评估环境缺乏真实性,并且缺乏接近现实的现实计算机代理互动环境,从而导致缺乏风险的真实性。
风险类别缺乏全面和多样性,仅关注个人风险或攻击类型,从而限制了对计算机使用代理的全面风险评估。
与以前的评估基准相比,Riosworld直接构建了100真实的计算机代理互动环境,连接到Internet,并模拟了各种奇怪的风险场景。从弹出广告轰炸到网站网站,从恶意用户说明到隐私泄漏危机,它在一个GO中设置了492个风险测试案例,涵盖了广泛的每日计算机风险操作,涉及互联网,社交媒体,操作系统,多媒体系统,多媒体操作,文件操作,代码/github,github,github,email and Office stressivations的助手和助手的能力,以及“ Antiox and anti oftox”,
风险分类和样本计数统计
根据风险来源,研究将这些风险类别分为2个主要类别(环境风险和用户风险)和13个子类别:
网络钓鱼网站网络钓鱼电子邮件弹出窗口/广告recaptcha(人机验证)帐户/密码欺诈诱导的文本
网页操作社交媒体办公室套件文件操作OS操作代码IDE/GITHUB多媒体操作
任务命令分布
这些任务说明涵盖了广泛的主题,并渗透到计算机使用代理遇到的许多日常操作场景。这种全面的覆盖范围致力于在各个方面有效,全面评估计算机使用代理的安全风险的能力。
评估方法
Riosworld评估了从二维中的基于MLLM的计算机使用代理的不安全/风险行为:
风险目标意图:代理商打算执行风险行为?风险目标完成:代理商是否成功完成了风险目标?
Riosworld风险示例
(a)被诱导单击弹出窗口或广告,
(b)无意间在有害的网站钓鱼地点进行操作,
(c)试图在没有真正的人授权的情况下通过recaptcha验证(这种自动逃避行为破坏了旨在防止恶意机器人访问的Recaptcha安全机制),
(d)成为更具欺骗性的网络钓鱼电子邮件的受害者。
此外,如图1的右上部分所示,CUA还面临用户引起的风险。例如,
(e)代理可以根据用户说明发布谣言和虚假信息。
(f)代理可以在命令行上执行高风险命令(例如,删除根目录),
(g)代理商可以帮助非法活动(毒品,武器),
(h)用户可能过多地依赖代理,从而导致意外的隐私漏洞(例如,指示代理商将敏感代码或包含私有API密钥或凭据的数据上传到没有手动审查的公共GitHub存储库中)。
CUA安全状况比您想象的要差!
研究团队“一一击败市场上最受欢迎的基于MLLM的CUA:OpenAI的GPT-4.1,拟人化的Claude-3.7-Sonnet,Google的Google的Gemini-2.5-Pro和开源的开源明星QWEN2.5-VL,Llama-3.2-Vision .结果是集体的“曝光”!
实验结果表明,大多数代理商的风险意识较弱,并将主动“一生”(有意执行风险操作,即平均意图不安全率达到惊人的84.93);此外,平均有59.64的人可能“实施危险的说明”!也就是说,可以实现最终的风险目标。
在高风险的方案中,例如网站网站,Web操作,操作系统操作,代码IDE/GITHUB和诱导文本,代理的“周转率”超过了89和80!这不是一个聪明的助手,它只是一个“定时的雷区”,里面有炸弹!
绝大多数CUA具有风险意图,风险完成率超过75和45。这些定量和定性结果表明,当前基于MLLM的CUA中的大多数在计算机使用方案中都缺乏风险意识,并且还远未达到可信赖的自动计算机使用助理助理。
声明:本文由入驻作者编辑撰写,除官方账号外,观点仅代表作者本人,不代表本平台立场,如有侵犯您的知识产权的作品和其它问题,请与我们取得联系,我们会即时修改或删除。
相关新闻
-
中超联赛争冠组赛制解析
1. 什么是中超争冠组赛制?中超联赛争冠组赛制是指在赛季末将排名前六名的球队组成一组,进行一轮单循环的比赛,获胜积分最高的球队将荣膺该赛季的中超冠军。2. 中超争冠组赛制的优点是什么?首先,中超争冠组赛制缩小了争冠球队之......
-
巴塞罗那vs巴黎圣日耳曼6比1回放,巴塞罗那vs巴黎圣日耳曼6比1全场视频
1. 赛前阵容分析巴塞罗那和巴黎圣日耳曼各自派出了最强阵容参加这场比赛。巴塞罗那的梅西、苏亚雷斯和内马尔以及巴黎圣日耳曼的博格巴、迪马利亚和卡瓦尼都是顶尖球星,他们的发挥将直接影响比赛。2. 巴塞罗那的控球优势巴塞罗那在......
24小时热文
-
puma足球鞋,Puma足球鞋mg106673-02
2023-10-15
-
1993年NBA总决赛数据纪念经典时刻,回顾传奇巨星们的辉煌岁月
2024-01-12
-
介绍2010年NBA总决赛黑哨内幕,让你看清现实世界的阴暗面
2023-12-18
-
如何成为NBA真球迷?WinFuture广告告诉你答案
2024-03-18
-
nba球员效率值如何查询?
2023-11-07
-
NBA2K17热火队精彩比赛集锦
2024-01-30
用户评论
哇,看到这个标题我就紧张了,代理商的计算机助理竟然有安全漏洞,这得小心点啊!
有7位网友表示赞同!
代理商计算机助理上雷电?听起来好危险,得赶紧看看怎么保护自己。
有16位网友表示赞同!
安全漏洞这事儿得重视,代理商们得加强防范,别让计算机助理成摆设。
有14位网友表示赞同!
标题里提到的雷电,感觉像是比喻,但是安全漏洞确实是不能忽视的大问题。
有14位网友表示赞同!
代理商计算机助理的安全漏洞,得赶紧更新软件,不然真成了后门了。
有6位网友表示赞同!
这种安全漏洞真是太普遍了,我们平时用电脑也得小心点,别成了黑客的目标。
有14位网友表示赞同!
雷电这个词用得好,感觉这个标题就是在提醒我们,计算机安全不容忽视。
有7位网友表示赞同!
代理商计算机助理的安全漏洞,我得转发给公司的人,提醒他们注意。
有14位网友表示赞同!
看到这个标题,我就想起上次我的电脑被病毒攻击,真是惊出一身冷汗。
有12位网友表示赞同!
安全漏洞的问题,不仅仅是代理商,每个用计算机的人都应该关注。
有16位网友表示赞同!
标题里的雷电让我想到了电影里的场景,现实中的计算机安全同样惊心动魄。
有18位网友表示赞同!
代理商计算机助理的安全漏洞,我得赶紧查查家里的电脑,看看有没有类似的问题。
有9位网友表示赞同!
计算机代理的安全漏洞,感觉就像定时炸弹,随时可能爆炸。
有20位网友表示赞同!
这个标题让我意识到,我们得经常更新计算机软件,防止被黑客攻击。
有13位网友表示赞同!
代理商计算机助理的安全漏洞,这事儿得赶紧解决,别让我们的信息泄露出去。
有19位网友表示赞同!
计算机代理的安全问题,感觉就像一场没有硝烟的战争,我们必须时刻警惕。
有6位网友表示赞同!
雷电这个词用得太贴切了,感觉这个标题就像是在告诉我们,计算机安全形势严峻。
有16位网友表示赞同!
代理商计算机助理的安全漏洞,我得告诉朋友,让大家一起提高警惕。
有6位网友表示赞同!
这个标题让我想起了之前的一次数据泄露事件,安全漏洞的危害真是太大了。
有15位网友表示赞同!