计算机科学 > 人工智能
[提交于 2025年7月31日
(v1)
,最后修订 2025年8月4日 (此版本, v2)]
标题: 基于模型的长期人类功率的合适度量的软最大化
标题: Model-Based Soft Maximization of Suitable Metrics of Long-Term Human Power
摘要: 权力是人工智能安全中的一个关键概念:追求权力作为工具性目标,人类突然或逐渐失去权力,人机交互中权力平衡以及国际人工智能治理中的权力平衡。 同时,权力作为追求多样化目标的能力,对福祉至关重要。 本文探讨了通过明确强制人工智能代理增强人类权力,并以理想的方式管理人类与人工智能代理之间的权力平衡,从而促进安全和福祉的想法。 我们采用一种有原则的、部分公理化的方法,设计了一个可参数化和可分解的目标函数,该函数代表了人类权力的不平等和风险厌恶的长期总和。 它考虑到人类的有限理性和社会规范,并且最关键的是,考虑了各种可能的人类目标。 我们通过向后归纳法计算该度量标准,或者通过从给定的世界模型中进行多智能体强化学习的一种形式来近似它。 我们在各种典型的场景中举例说明(软性)最大化此度量标准的后果,并描述它可能会产生的工具性子目标。 我们谨慎评估认为,软性最大化人类权力的适当总和度量可能构成一种有益于代理型人工智能系统的客观目标,比直接基于效用的目标更安全。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.