2025-04-09 08:42:32 互联网
本站 4 月 7 日消息,Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型,并在 LM Arena 测试中取得了第二名的成绩。然而,这一成绩的含金量却引发了诸多质疑。据多位 AI 研究人员在社交平台 X 上指出,Meta 在 LM Arena 上部署的 Maverick 版本与广泛提供给开发者的版本并不一致。
Meta 在其公告中明确提到,参与 LM Arena 测试的 Maverick 是一个“实验性聊天版本”。而根据官方 Llama 网站上公布的信息,Meta 在 LM Arena 的测试中所使用的实际上是“针对对话性优化的 Llama 4 Maverick”。这表明,该版本经过了专门的优化调整,以适应 LM Arena 的测试环境和评分标准。
然而,LM Arena 作为一项测试工具,其可靠性本身就存在一定的争议。尽管如此,以往 AI 公司通常不会对模型进行专门的定制或微调,以在 LM Arena 上获得更高的分数,至少没有公开承认过这种做法。而 Meta 此次的行为。
这种对模型进行针对性优化,然后只发布一个“普通版”的行为,给开发者带来了诸多困扰。因为这使得开发者难以准确预测该模型在特定场景下的实际表现。此外,这种行为也具有一定的误导性。理想情况下,尽管现有的基准测试存在诸多不足,但它们至少能够为人们提供一个关于单一模型在多种任务中优缺点的概览。
事实上,研究人员在 X 上已经观察到了公开可下载的 Maverick 版本与 LM Arena 上托管的模型之间存在显著的行为差异。例如,LM Arena 版本似乎更倾向于使用大量的表情符号,并且给出的答案往往冗长且拖沓。
截至本站发稿,Meta 公司以及负责维护 LM Arena 的 Chatbot Arena 组织暂未对此做出回应。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之
新品榜
热门
2025-04-09 03:55:37
梦幻模拟战手游,英雄攻略,你的胜利指南
04-09卫龙辣条背后的香料传奇
04-09女生折磨戏攻略,解锁游戏中的小恶魔模式
04-09王者荣耀貂蝉墨子组合怎么玩厉害 貂蝉墨子最强组合玩法攻略!
04-09天天飞车与QQ飞车,究竟是不是同一辆车?
04-09奇迹暖暖冰风战歌怎么得 新套装冰风战歌获得方法!
04-09王者荣耀2018删除好友方法 王者荣耀删除好友后如何恢复添加!
04-09羞羞色漫-: 如何在生活中找到勇气与自信
04-09Moonfall攻略,征服星辰大海的秘密武器
04-09