Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > stat > arXiv:2510.05545v1

帮助 | 高级搜索

统计学 > 方法论

arXiv:2510.05545v1 (stat)
[提交于 2025年10月7日 ]

标题: 语言模型能否在没有统计偏差的情况下增强随机实验的功效?

标题: Can language models boost the power of randomized experiments without statistical bias?

Authors:Xinrui Ruan, Xinwei Ma, Yingfei Wang, Waverly Wei, Jingshen Wang
摘要: 随机实验或随机对照试验(RCTs)是因果推断的黄金标准,但成本和样本量限制了其效力。同时,现代RCTs通常收集丰富且非结构化的数据,这些数据对结果具有高度预测性,但在因果分析中很少被使用。我们引入了CALM(Causal Analysis leveraging Language Models),这是一种统计框架,将大型语言模型(LLMs)的预测与已建立的因果估计器相结合,以提高精度同时保持统计有效性。CALM将LLM输出视为辅助预后信息,并通过异质校准步骤纠正其潜在偏差,该步骤对预测进行残差化并最优加权。我们证明,即使LLM预测存在偏差,CALM仍然是一致的,并且在各种因果效应上比增强逆概率加权估计器具有效率优势。特别是,CALM开发了一个少样本变体,该变体聚合来自随机采样的演示集的预测。所产生的U统计量类似预测器恢复了独立同分布结构,并且也减轻了提示选择的变异性。实证研究表明,在校准到移动应用抑郁症RCT的模拟中,CALM相对于其他基准方法具有更低的方差,在零样本和少样本设置中有效,并且在不同提示设计下保持稳定。通过有原则地利用LLMs来利用非结构化数据和预训练期间学到的外部知识,CALM为RCT中的更精确因果分析提供了一条实用路径。
摘要: Randomized experiments or randomized controlled trials (RCTs) are gold standards for causal inference, yet cost and sample-size constraints limit power. Meanwhile, modern RCTs routinely collect rich, unstructured data that are highly prognostic of outcomes but rarely used in causal analyses. We introduce CALM (Causal Analysis leveraging Language Models), a statistical framework that integrates large language models (LLMs) predictions with established causal estimators to increase precision while preserving statistical validity. CALM treats LLM outputs as auxiliary prognostic information and corrects their potential bias via a heterogeneous calibration step that residualizes and optimally reweights predictions. We prove that CALM remains consistent even when LLM predictions are biased and achieves efficiency gains over augmented inverse probability weighting estimators for various causal effects. In particular, CALM develops a few-shot variant that aggregates predictions across randomly sampled demonstration sets. The resulting U-statistic-like predictor restores i.i.d. structure and also mitigates prompt-selection variability. Empirically, in simulations calibrated to a mobile-app depression RCT, CALM delivers lower variance relative to other benchmarking methods, is effective in zero- and few-shot settings, and remains stable across prompt designs. By principled use of LLMs to harness unstructured data and external knowledge learned during pretraining, CALM provides a practical path to more precise causal analyses in RCTs.
主题: 方法论 (stat.ME) ; 计量经济学 (econ.EM)
引用方式: arXiv:2510.05545 [stat.ME]
  (或者 arXiv:2510.05545v1 [stat.ME] 对于此版本)
  https://doi.org/10.48550/arXiv.2510.05545
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Xinwei Ma [查看电子邮件]
[v1] 星期二, 2025 年 10 月 7 日 03:14:33 UTC (6,779 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
查看许可
当前浏览上下文:
stat.ME
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-10
切换浏览方式为:
econ
econ.EM
stat

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号