Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:2509.19490v3

帮助 | 高级搜索

统计学 > 方法论

arXiv:2509.19490v3 (stat)
[提交于 2025年9月23日 (v1) ,最后修订 2025年10月29日 (此版本, v3)]

标题: 凿刻:通过交互式机器学习进行强大且有效的子组选择

标题: Chiseling: Powerful and Valid Subgroup Selection via Interactive Machine Learning

Authors:Nathan Cheng, Asher Spector, Lucas Janson
摘要: 在回归和因果推断中,受控子群选择旨在以推断保证的方式,识别一个子群(定义为协变量空间的一个子集),该子群上的平均响应或处理效应高于给定阈值。 例如,在临床试验中,可能需要找到一个具有正平均处理效应的子群。 然而,现有方法要么缺乏推断保证,要么对子群的搜索施加了严格的限制,或者通过简单的数据分割牺牲了效率。 我们提出了一种称为“chiseling”的新框架,允许分析人员通过迭代缩小子群来交互式地精炼和测试候选子群。 唯一的要求是,收缩方向仅依赖于当前子群之外的点,但除此之外,分析人员可以利用任何先验信息或机器学习算法。 尽管具有这种灵活性,chiseling 在最小假设下控制发现的子群为零(例如,具有非正平均处理效应)的概率:例如,在随机实验中,这种推断有效性保证仅在有限矩条件下成立。 当应用于各种模拟数据集和一个实际调查实验时,chiseling 识别出的子群明显优于现有具有推断保证的方法。
摘要: In regression and causal inference, controlled subgroup selection aims to identify, with inferential guarantees, a subgroup (defined as a subset of the covariate space) on which the average response or treatment effect is above a given threshold. E.g., in a clinical trial, it may be of interest to find a subgroup with a positive average treatment effect. However, existing methods either lack inferential guarantees, heavily restrict the search for the subgroup, or sacrifice efficiency by naive data splitting. We propose a novel framework called chiseling that allows the analyst to interactively refine and test a candidate subgroup by iteratively shrinking it. The sole restriction is that the shrinkage direction only depends on the points outside the current subgroup, but otherwise the analyst may leverage any prior information or machine learning algorithm. Despite this flexibility, chiseling controls the probability that the discovered subgroup is null (e.g., has a non-positive average treatment effect) under minimal assumptions: for example, in randomized experiments, this inferential validity guarantee holds under only bounded moment conditions. When applied to a variety of simulated datasets and a real survey experiment, chiseling identifies substantially better subgroups than existing methods with inferential guarantees.
评论: 26+7+97页(正文、参考文献、附录),6+15图(正文、附录);修正了一些参考文献;添加了可重复代码仓库的链接
主题: 方法论 (stat.ME) ; 机器学习 (stat.ML)
引用方式: arXiv:2509.19490 [stat.ME]
  (或者 arXiv:2509.19490v3 [stat.ME] 对于此版本)
  https://doi.org/10.48550/arXiv.2509.19490
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Nathan Cheng [查看电子邮件]
[v1] 星期二, 2025 年 9 月 23 日 18:52:05 UTC (325 KB)
[v2] 星期四, 2025 年 9 月 25 日 21:19:31 UTC (325 KB)
[v3] 星期三, 2025 年 10 月 29 日 21:17:22 UTC (325 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
stat.ME
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-09
切换浏览方式为:
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号