最新研究:嵌入大模型的AI掃地機器人多項任務翻車,成功率僅40%
2025-11-03 00:37   
來源: 云財經   
影響力評估指數:19.43  
云財經訊,AI實驗室Andon Labs最近進行的一項評估顯示,搭載頂級大模型的掃地機器人在簡單家務任務中表現糟糕,成功率遠低于人類。實驗要求機器人執行“把黃油遞給人”的多步驟指令,包括跨房間定位、區分包裝、尋找移動位置的人類、完成交付并返回充電。結果顯示,Gemini 2.5 Pro 的成功率僅 40%,Claude Opus 4.1 為 37%,GPT-5 為 30%,明顯落后于人類的表現。 研究指出,大模型在空間推理、環境理解、長期任務規劃等方面依然存在明顯短板。 研究團隊強調,娛樂之外也有嚴肅隱患:某些機器人可被誘導泄露機密文件,部分機型無法識別樓梯風險而從高處跌落,暴露當前大型語言模型(LLM)與機器結合的安全漏洞。
云財經智能匹配相關概念
| 新聞標題 | 時間 | 消息來源 | 新聞熱度 |
|---|---|---|---|
| 美國聯邦政府“停擺”危機逼近“臨界點” | 11-02 19:02 | 云財經 |
|
| 法國總理勒科爾尼呼吁通過對話達成預算妥協 | 11-02 06:55 | 云財經 |
|
| 俄稱在紅軍城圍困烏軍 烏否認被包圍 | 11-02 01:17 | 云財經 |
|
| 段永平捐贈市值1500萬茅臺股票 | 11-01 15:57 | 云財經 |
|
| 陽光電源:整體判斷公司明年電芯供應保持穩定狀態 | 10-29 12:24 | 云財經 |
|
| OpenAI被訴商標侵權,涉及Sora新功能“Cameo” | 10-29 08:39 | 云財經 |
|