Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2504.04608

帮助 | 高级搜索

计算机科学 > 人工智能

arXiv:2504.04608 (cs)
[提交于 2025年4月6日 ]

标题: 桶中智能体:代理沙盒化与可解释性高效世界建模的基本限制

标题: AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability

Authors:Fernando Rosas, Alexander Boyd, Manuel Baltieri
摘要: 近期的研究提出利用世界模型生成可控的虚拟环境,在将人工智能代理部署之前对其进行测试,以确保其可靠性和安全性。然而,准确的世界模型通常具有较高的计算需求,这可能会严重限制此类评估的范围和深度。受到经典的“缸中之脑”思想实验的启发,我们在此研究简化世界模型的方法,这些方法对正在评估的人工智能代理保持无偏性。通过遵循计算力学的原则,我们的方法揭示了世界模型构建过程中效率与可解释性之间的基本权衡,表明没有任何单一的世界模型能够优化所有期望的特性。基于这一权衡,我们确定了构建世界模型的程序,这些模型要么最小化内存需求,要么划定可学习内容的边界,或者允许追踪不良结果的原因。通过这样做,这项工作确立了世界建模的基本限制,并提出了指导有效代理评估的核心设计选择的可行指南。
摘要: Recent work proposes using world models to generate controlled virtual environments in which AI agents can be tested before deployment to ensure their reliability and safety. However, accurate world models often have high computational demands that can severely restrict the scope and depth of such assessments. Inspired by the classic `brain in a vat' thought experiment, here we investigate ways of simplifying world models that remain agnostic to the AI agent under evaluation. By following principles from computational mechanics, our approach reveals a fundamental trade-off in world model construction between efficiency and interpretability, demonstrating that no single world model can optimise all desirable characteristics. Building on this trade-off, we identify procedures to build world models that either minimise memory requirements, delineate the boundaries of what is learnable, or allow tracking causes of undesirable outcomes. In doing so, this work establishes fundamental limits in world modelling, leading to actionable guidelines that inform core design choices related to effective agent evaluation.
评论: 38页,5幅图
主题: 人工智能 (cs.AI) ; 系统与控制 (eess.SY)
引用方式: arXiv:2504.04608 [cs.AI]
  (或者 arXiv:2504.04608v1 [cs.AI] 对于此版本)
  https://doi.org/10.48550/arXiv.2504.04608
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Fernando Rosas [查看电子邮件]
[v1] 星期日, 2025 年 4 月 6 日 20:35:44 UTC (251 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-04
切换浏览方式为:
cs.AI
cs.SY
eess
eess.SY

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号