伟德注册行业动态E世博app平台社会新闻大众网




【新智元导读】OmniParser V2可将屏幕截图转换为结构化元素,帮助LLM理解和操作GUI;在检测小图标和推理速度上显著提升,延迟降低60%,与多种LLM结合后表现优异。
然而,使用通用大型语言模型(LLM)作为GUI智能体仍然存在难点:1)如何可靠地识别用户界面中的可交互图标,以及 2)理解截图中各种元素的语义,并准确地将预期的操作与屏幕上的相应区域关联起来。
OmniParser通过将UI截图从像素空间「token化」为LLM可解释的结构化元素,弥合了这一差距,使得LLM能够在一组已解析的可交互元素基础上进行基于检索的下一步动作预测。
从UI屏幕中识别可交互区域是推理用户任务应执行何种操作的关键步骤。与其直接让GPT-4o预测屏幕上应操作的xy坐标,研究人员采用Set-of-Marks,在UI截图上叠加可交互图标的边界框,并让GPT-4V生成要操作的边界框ID。
具体而言,研究人员构建了一个独特UI截图的可交互图标检测数据集,每张图片都标注了从DOM tree提取的可交互图标的边界框。
数据采集时,首先从Bing Index热门网址中随机抽取100,000个URL,并从其DOM中提取网页的可交互区域边界框。部分网页及其可交互区域示例如图2所示。
研究人员发现,仅输入带有边界框和对应ID的UI截图,往往会导致GPT-4o产生误导性预测,这一局限性可能源于GPT-4o在同时执行两个任务时的能力受限:一是识别每个图标的语义信息,二是预测特定图标的下一步操作。伟德下载
为了解决这一问题,研究人员在提示(prompt)中加入功能的局部语义信息。
具体而言,对于可交互区域检测模型识别出的每个图标,使用一个微调模型生成该图标的功能描述。
通过构建专门的图标描述数据集,研究人员发现该模型在常见应用图标的描述上更加可靠;在UI截图的视觉提示基础上,加入局部边界框的语义信息(以文本提示的形式)能够显著提升GPT-4o的理解效果。
可交互图标检测数据集:该数据集来源于Bing Index热门网页,并经过自动化标注以突出可点击和可操作区域。
所有巨兽都被惊住了,它们发自本能的颤栗,像是在面对一头万兽王,不敢冒犯,迅速止步,从旁边绕道而行。
对面十人变色,他们出自雨族,见多识广,自然看出了小不点手中那面晶莹骨镜的不凡,绝对是一件强大的宝具!
“锵”的一声大响,铁矛巨力惊人,极速飞来后撞在青鳞鹰的头上,如两块金属铁板摩擦般,火星四射,发出的声音刺耳之极。
,mg游戏大厅,炸金花真金,爱博线日,外交部:不管谁当选下一届美国总统,都希望美方能同中方相向而行,
时事4:网上赌场手机网站03月06日,暧暧远人村 苏州陆巷古村:太湖之畔的状元故里,岁月深处的古韵今风,
去冬今春,伟德下载我镇完成了村居两委的换届选举工作,产生了新的一届村居两委班子。新一届村居班子在年龄、文化、知识结构上较上届都有了较大改善。为了进一步加强基层干部队伍建设,全面提高新一届村居两委干部的思想政治素质、伟德下载廉洁奉公意识和领导水平,增强村居干部驾驭复杂局面、解决现实问题的能力,镇党委、政府决定举办这次村居干部培训班。下面我讲三个问题:
dz新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证