首页
解决方案
业务领域
新闻中心
- 公司新闻
- 行业新闻
加入我们
关于PG

400-0050-928

您的位置: 首页 > 新闻中心 > 公司新闻

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

　　在一个全新的测试基准中，它们面对多轮、不断演进的指令，最终的任务成功率最高仅有40%。

　　这项名为IDA-Bench的新基准，就是为了模拟真实世界中这种“边想边改”的分析场景而生。

　　它不再是给模型一道题，让它一口气算完；而是模拟一位真实的数据分析师，在对话中不断给出新指令，考察Agent在多轮交互中的真实能力。

　　值得一提的是，这项工作由一支星光熠熠的团队打造，汇集了北京大学与加州大学伯克利分校的顶尖学者，其中不乏机器学习泰斗Michael I. Jordan教授，仿真科学领域专家郑泽宇 (Zeyu Zheng)副教授，以及ACM/IEEE Fellow邓小铁 (Xiaotie Deng)教授的身影。

　　目前，我们看到的很多大模型数据分析工具，比如OpenAI、Gemini和Claude的网页应用，能力已然非常强大。

　　但现有的评估基准，大多侧重于单轮互动：用户给出一个明确的、预设好的任务，然后看Agent能否成功执行。

　　真实的数据分析师，工作流程是迭代式、探索性的。他们会先查看数据分布，再决定如何处理异常值；会根据初步结果，调整后续的分析策略。这些决策充满了基于领域知识的“主观性”，指令也是一步步演进的。

　　现有基准恰恰忽略了这种动态交互过程，因此无法全面评估Agent在真实协作场景下的可靠性。

　　为了解决这一痛点，IDA-Bench应运而生。它旨在忠实地反映真实数据分析的主观性和交互性特征。

　　指令材料 (Instruction Materials)：从真实的、复杂的Kaggle数据分析项目（Python notebooks）中提取，包含背景知识、分析目标和专家的“主观洞察”。

　　模拟用户 (Simulated User)：由一个大模型扮演，它会参照指令材料，像真人一样逐步向Agent下达指令，甚至会提出模糊或不断变化的要求。

　　Agent：即被测试的大模型，它的任务是严格遵循“用户”的指令，通过编写和执行代码来完成任务。

　　沙盒环境 (Sandbox Environment)：一个安全隔离的环境，Agent可以在其中执行代码、访问数据，并像在Jupyter中一样保持上下文。

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师(图1)

　　为了确保任务的真实性和时效性，防止数据污染，IDA-Bench的构建流程完全自动化。它能持续从Kaggle上发布的最新项目中提取任务，经过筛选、预处理和人工检查后，生成新的测试用例。

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师(图2)

　　而DeepSeek系列中，作为指令模型的DeepSeek-V3（24%）表现明显优于其“思考型”模型DeepSeek-R1（12%），这揭示了一个核心挑战：在遵循指令和自主推理之间取得平衡，对当前Agent来说非常困难。

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师(图3)

　　此外，Agent们在任务中还会犯下各种低级错误，导致提交结果无效。其中最主要的原因是根本没有生成提交文件，这往往源于模型的“幻觉”。

　　它们不怎么遵循用户的具体指令，而是主动推进分析流程，结果常常因为“自作主张”而错过了关键步骤和信息。比如，用户建议用一种新方法改进模型，Claude-3.7不等尝试就直接否定，并提交了之前效果较差的结果。

　　相比之下，Gemini-2.5-Pro则像一个“过度谨慎”的助理。它每走一步都要反复向用户寻求确认，有时一个简单的数据清洗操作能来回沟通30轮，最终因超过回合数限制而任务失败。

　　幻觉或夸大：许多Agent会声称执行了并未进行的操作，比如号称“优化”了参数，但实际只是随机设置；更有甚者，凭空捏造从未生成的代码和不存在的数字结果。

　　格式错误：提交文件的列名大小写弄反，或数据类型PG电子不对（如在二分类任务中，要求提交标签“0”或“1”，模型却提交了标签为“1”的概率），都是常见的低级错误。

　　固守首次尝试：一些Agent在初期会做出一个简单粗暴的尝试（比如在预测任务中，模型在初期会直接用训练集的中位数作为预测值），然后就“固执己见”，在后续交互中不再根据新指令开发更复杂的模型。

　　级联错误：当一个代码块中途执行失败时，Agent有时会“假装”它成功了，导致后续代码块因为引用不存在的变量而出错，引发连锁反应。

　　这些发现凸显了当前LLM Agent在真正成为可靠数据分析助手之前，仍需在理解、遵循和交互能力上进行大量改进。

　　Qwen清华团队颠覆常识：大模型强化学习仅用20%关键token，比用全部token训练还好

　　上海AI实验室造出首个「通才」机器人大脑：看懂世界+空间推理+精准操控全拿下

　　大神Karpathy炮轰复杂UI应用没有未来，Adobe首当其冲，网友：不提供文本交互，就是在阻挡AI浪潮

　　大模型结构化推理优势难复制到垂直领域！最新法律AI评估标准来了，抱抱脸评测集趋势第一

　　让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线

联系我们

总部地址：

广州市天河区黄村三联路20号A2层210-12

联系电话：13698586692

服务邮箱：service@gzamzc.com

官方网站：www.gzamzc.com

微信公众号：广州PG平台

PG（平台电子）中国-官方网站

400-0050-928

北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

最新资讯

解决方案

业务领域

新闻中心

联系我们

微信公众号