Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > physics > arXiv:2505.01555

帮助 | 高级搜索

物理学 > 大气与海洋物理

arXiv:2505.01555 (physics)
[提交于 2025年5月2日 (v1) ,最后修订 2025年10月7日 (此版本, v5)]

标题: 美国报告的云播种活动的结构化数据集(2000-2025),使用大语言模型

标题: Structured dataset of reported cloud seeding activities in the United States (2000-2025) using an LLM

Authors:Jared Joseph Donohue, Kara D. Lamb
摘要: 云种,一种用于增加降水的天气修改技术,自20世纪40年代以来一直在美国西部使用。 然而,目前尚无全面的数据集可用于分析这些努力。 为解决这一差距,我们提出了一个结构化的数据集,记录了2000年至2025年期间美国报告的云种活动,包括项目名称、年份、季节、州、操作员、播种剂、用于部署的设备、声明的目的、目标区域、对照区域、开始日期和结束日期。 结合我们的多阶段PDF到文本提取流程与OpenAI的o3大语言模型(LLM),我们处理了来自美国国家海洋和大气管理局(NOAA)的832份历史报告。 该数据集基于对200个随机抽样记录的手动审查,估计准确率为98.38%,并且可在Zenodo上公开获取。 这个数据集弥补了云种数据的空白,并展示了LLM从历史环境文件中提取结构化信息的潜力。 更广泛地说,这项工作提供了一个可扩展的框架,用于从扫描文档中解锁不同科学领域的历史数据。
摘要: Cloud seeding, a weather modification technique used to increase precipitation, has been practiced in the western United States since the 1940s. However, comprehensive datasets are not currently available to analyze these efforts. To address this gap, we present a structured dataset of reported cloud seeding activities in the U.S. from 2000-2025, including the project name, year, season, state, operator, seeding agent, apparatus used for deployment, stated purpose, target area, control area, start date, and end date. Combining our multi-stage PDF-to-text extraction pipeline with OpenAI's o3 large language model (LLM), we processed 832 historical reports from the National Oceanic and Atmospheric Administration (NOAA). The resulting dataset demonstrates 98.38% estimated accuracy, based on manual review of 200 randomly sampled records, and is publicly available on Zenodo. This dataset addresses the gap in cloud seeding data and demonstrates the potential for LLMs to extract structured information from historical environmental documents. More broadly, this work provides a scalable framework for unlocking historical data from scanned documents across scientific domains.
主题: 大气与海洋物理 (physics.ao-ph)
引用方式: arXiv:2505.01555 [physics.ao-ph]
  (或者 arXiv:2505.01555v5 [physics.ao-ph] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.01555
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Jared Donohue [查看电子邮件]
[v1] 星期五, 2025 年 5 月 2 日 19:47:30 UTC (1,167 KB)
[v2] 星期六, 2025 年 5 月 10 日 23:55:19 UTC (1,210 KB)
[v3] 星期二, 2025 年 5 月 13 日 16:15:43 UTC (1,209 KB)
[v4] 星期四, 2025 年 8 月 7 日 00:04:47 UTC (640 KB)
[v5] 星期二, 2025 年 10 月 7 日 21:49:06 UTC (2,314 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
physics.ao-ph
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
physics

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号