登录
加入联盟
找回密码
航空人生
新一代连飞客户端下载
空管人生
中国航空运动协会推荐
WEFLY
模拟飞行玩家聊天工具
门户
文章
商城
二手市场
外包服务
模飞软件
硬件设备
飞行体验
学院
云课堂
问答
资料下载
论坛
模拟飞行
低空飞行
太空探索
航圈
资源
素材
下载
企业
无人机论坛
»
论坛
›
航模DIY专区
›
小工具等
›
苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工 ...
返回列表
发新帖
查看:
1170
|
回复:
0
苹果大模型新成果:GPT-4o扮演用户,在场景中考察大模型工具调用,网友:Siri也要努力 | 开源
[复制链接]
kevin1002
kevin1002
当前离线
积分
1615
窥视卡
雷达卡
35
主题
824
帖子
1615
积分
金牌飞友
金牌飞友, 积分 1615, 距离下一级还需 1385 积分
金牌飞友, 积分 1615, 距离下一级还需 1385 积分
积分
1615
飞币
789
注册时间
2017-9-8
发消息
发表于 2024-8-22 20:04:59
|
显示全部楼层
|
阅读模式
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
苹果团队,又发布了新的开源成果——一套关于大模型工具调用能力的Benchmark。
这套Benchmark创新性地采用了场景化测评方法,可以更好体现模型在真实环境中的水平。
而且还引入了对话交互、状态依赖等传统标准中没有关注到的重要场景。
这套测试基准名叫ToolSandbox,苹果基础模型团队负责人庞若鸣也参与了研究工作。
ToolSandbox弥补了现有测试标准缺乏场景化评估的不足,缩小了测试条件与实际应用之间的差距。
而且在交互上,作者让GPT-4o扮演用户和被测模型进行对话,从而模拟真实世界中的场景。
比如告诉GPT-4o你不再是一个助理,而是要扮演正在和用户B对话的用户A,然后提出一系列具体要求。
另外,作者也利用ToolSandbox对一些主流模型进行了测试,结果整体上看闭源比开源模型分数更高,其中最强的是GPT-4o。
iOS应用开发者Nick Dobos表示,苹果的这套标准简洁明了。
同时他指出,现在ChatGPT面对三个工具就已经有些捉襟见肘,Siri要想管理好手机中几十上百个应用,也需要提高工具调用能力。
言外之意,ToolSandbox的研究,或许是为了给Siri之后的研发探明方向。
在场景中测试模型
如前文所述,ToolSandbox采用了场景化、交互式的测试方法。
具体来说,ToolSandbox中一共包括了单/多工具调用、单/多轮对话、状态依赖、标准化和信息不足等七种类型的近2000个场景。
前面的相对比较好理解,这里针对后面的三种场景类型这里做一下解释:
状态依赖:工具的执行依赖于某些全局状态,需要先通过其他工具对该状态进行修改;
规范化:将自然语言表达转换为工具需要的标准形式,过程中可能需要借助其他工具;
信息不足:故意缺失完成任务所需的关键工具,考察模型能否识别无法完成的情况。
在这些场景下,ToolSandbox会关注模型的三个指标:
整体表现,即各类场景下的与预设答案的平均相似度
鲁棒性,用多种方式对工具进行魔改、干扰,观察模型在这种环境下的表现
效率,也就是平均任务完成轮次
工具方面,作者选用了34个可组合的Python函数作为工具,与真实场景的复杂性相当。
其中既有原生Python工具,也集成了部分RapidAPI工具,功能覆盖搜索、对话、导航、天气、图像处理等多个常见领域。
流程上,首先是准备测试场景,研究人员会定义初始世界状态并存储,同时使用经过校准的GPT-4o模型生成初始用户消息。
然后进入交互式执行阶段,系统首先初始化Message Bus作为角色间的通信渠道,并配置好扮演用户的模型以及被测模型。
对话循环开始后,模拟用户的模型发送初始消息,被测模型接收这条消息并决定下一步行动——直接回复用户,或调用工具与环境交互。
如果模型选择调用工具,它会以JSON格式提供必要的参数,执行环境随后解释并执行这个调用,可能会更新世界状态,并处理潜在的并行调用条件。
执行结果返回给被测模型后,被测模型再次决定下一步行动,这个过程持续进行,直到用户模拟器认为任务完成(或无法完成),此时它会调用end_conversation工具结束对话。
在整个交互过程中,系统记录所有的消息和状态变化,形成一个完整的“对话轨迹”,这个“轨迹”随后进入评估阶段。
评估则使用预定义的“里程碑”和“雷区”来衡量代理模型的表现。
里程碑定义了完成任务的关键事件,形成一个有向无环图来反映时间依赖关系。
系统会寻找轨迹中事件与里程碑之间的最佳匹配,同时保持里程碑的拓扑顺序。
雷区则定义了禁止发生的事件,主要用于检测模型是否在信息不足的情况下产生幻觉。
举个例子,下图展示了“不充分信息”场景下一个地雷场(Minefield)评估的例子。
在这个任务中,由于当前时间戳不可用,模型不应该调用timestamp_diff工具,但模型错误地猜测了当前时间戳并调用了工具,导致这一轮得分为0。
最终,系统计算出一个综合得分,这个得分是平均里程碑匹配分数与雷区惩罚的乘积。
此外,系统还会统计完成任务所需的平均轮次,作为评估模型效率的补充指标。
复杂交互场景仍然是挑战
从整体上看,闭源模型在工具调用上的表现要好于开源模型。
平均分最高的是GPT-4o,成绩是73.0,唯一一个超过了70,且在作者设置的七个场景中的四个里都取得了最高成绩。
而且GPT-4o鲁棒性也极强,作者用了8种方法对工具进行魔改,GPT-4o对其中的其中都有最高的鲁棒性评分。
紧随其后的是Claude 3-Opus,平均分为69.2,在信息不足 的场景当中表现还超过了GPT-4o,再然后就是GPT和Claude的一些其他版本。
谷歌的Gemini则相对落后,1.5 Pro的成绩为60.4,刚刚及格,还不如GPT-3.5,不过在信息不足这个单项上表现不错。
开源模型的最高平均分就只有31.4了,其中比较有名的Mistral-7B得分是29.8,但在信息不足这个单项上取得了76.8的最好成绩。
甚至其中的Gorilla、Command-R等部分开源模型根本无法处理工具响应,或者只能勉强完成单轮工具调用。
进一步分析表明,开源模型在识别何时该调用工具方面表现不佳,更倾向于将问题当作纯文本生成任务。
从任务维度上看,大模型在单/多工具调用和单轮用户请求上表现优异,但在多轮对话和状态依赖任务上优势减弱。
在GPT、Claude、Gemini等家族中,更大的模型在多工具调用和多轮对话任务上的优势更明显;但在状态依赖任务上,中小模型(如GPT-3.5、Claude-3-Sonnet)反而比大模型(GPT-4、Claude-3-Opus)表现更好。
另外,规范化是所有模型的一大挑战,尤其是需要借助工具进行规范化的场景,以及时间相关参数的规范化也十分困难。
针对鲁棒性的研究表明,模型对工具描述、参数信息等变化的敏感程度差异较大,没有发现明显的规律。
效率上,更强的模型通常更高效,但也有例外,比如Claude系列模型的效率普遍优于GPT。
总之,大模型在工具使用方面,应对现实世界的复杂交互场景时仍面临诸多挑战。
作者简介
ToolSandbox团队成员来自苹果公司的机器学习、数据科学、基础大模型等多个团队。
第一作者是华人机器学习工程师Jiarui Lu,本科毕业于清华大学,就读期间还在朱军教授实验室中担任研究助理。
随后,Lu在卡内基梅隆大学取得了机器学习硕士学位,毕业后于2020年加入苹果公司。
包括Lu在内,署名的12位作者当中有10位都是华人,而且都有名校背景。
其中也包括基础大模型团队负责人庞若鸣(Ruoming Pang)。
另外,在苹果工作了8年的工程主管Bernhard Aumayer也参与了这一项目。
论文地址:
https://arxiv.org/abs/2408.04682
— 完 —
量子位年度AI主题策划正在征集中!
欢迎投稿专题 一千零一个AI应用,365行AI落地方案
或与我们分享你在寻找的AI产品,或发现的AI新动向
点这里
Siri
,
大模型
,
苹果
,
工具
,
努力
相关帖子
•
基于讯飞星火大模型的电池数据提取器
•
实现儿时的梦想:自制MR眼镜 !战斗力探测、AR无人机联动 尽管不如Apple Vision Pro但我会继续努力,坚持开源
•
国内为啥没有这种航模比赛,世界最大运输机安225超大模型起飞,气势有那味儿了(可惜真机刚被毁)
•
【模型工具】利用多源数据进行城市雨洪预报的时空深度学习方法
•
【模型工具】使用基于边的图神经网络的给水系统可迁移元模型研究
•
【模型工具】一种用于合流制排水系统的数据驱动和动态建模自动化工具
•
【学术争鸣】李泓 等:基于大型语言模型的工具对电池研究的机遇与挑战
•
【模型工具】一种基于过程和数据混合驱动的改进实时洪水预报模型
•
【模型工具】自然灾害下基础设施故障级联风险的通用建模框架
•
AI 大模型工具实用指南:写作、编程、音频转文字,你需要的都在这!
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
加入联盟
本版积分规则
发表回复
回帖后跳转到最后一页
快速回复
返回顶部
返回列表