Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > physics > arXiv:2505.01555v2

帮助 | 高级搜索

物理学 > 大气与海洋物理

arXiv:2505.01555v2 (physics)
[提交于 2025年5月2日 (v1) ,修订后的 2025年5月10日 (此版本, v2) , 最新版本 2025年10月7日 (v5) ]

标题: 2000年至2025年美国报告的云播种活动的结构化数据集,使用大型语言模型

标题: Structured dataset of reported cloud seeding activities in the United States (2000 to 2025) using a large language model

Authors:Jared Joseph Donohue, Kara D. Lamb
摘要: 云催化是一种旨在局部增强降水的天气修改技术,自20世纪40年代以来一直在美国西部使用。 然而,目前尚无可用于大规模分析云催化工作的数据集。 为解决这一差距,我们提出了一个结构化的数据集,记录了2000年至2025年美国报告的云催化活动,包括年份、季节、州、催化剂、用于部署的设备和目的。 我们使用OpenAI的o4-mini大型语言模型(LLM),结合多阶段的PDF转文本转换和响应解析代码,处理了来自国家海洋和大气管理局(NOAA)的836份历史报告以提取数据。 该数据集在所有字段中的人工验证准确率达到94.72%,并且可在Zenodo上公开获取。 我们的结果解决了美国可访问的云催化数据的缺口,并展示了大型语言模型从历史文件中提取结构化环境数据的潜力。 更广泛地说,这项工作提供了一个可扩展的框架,用于从扫描文档中解锁跨科学领域的历史数据。
摘要: Cloud seeding, a weather modification technique aimed at locally enhancing precipitation, has been used in the Western United States since the 1940's. However, datasets to facilitate large-scale analysis of cloud seeding efforts are not currently available. To address this gap, we present a structured dataset of reported cloud seeding activities in the U.S. from 2000 to 2025, including the year, season, state, seeding agent, apparatus used for deployment, and purpose. Using OpenAI's o4-mini large language model (LLM), combined with multi-stage PDF-to-text conversion and response-parsing code, we processed 836 historical reports from the National Oceanic and Atmospheric Administration (NOAA) to extract the data. The resulting dataset achieved 94.72% human-verified accuracy across all fields and is publicly available on Zenodo. Our results address the gap in accessible cloud seeding data in the United States, and demonstrate the potential for LLMs to extract structured environmental data from historical documents. More broadly, this work provides a scalable framework for unlocking historical data from scanned documents across scientific domains.
主题: 大气与海洋物理 (physics.ao-ph)
引用方式: arXiv:2505.01555 [physics.ao-ph]
  (或者 arXiv:2505.01555v2 [physics.ao-ph] 对于此版本)
  https://doi.org/10.48550/arXiv.2505.01555
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Jared Donohue [查看电子邮件]
[v1] 星期五, 2025 年 5 月 2 日 19:47:30 UTC (1,167 KB)
[v2] 星期六, 2025 年 5 月 10 日 23:55:19 UTC (1,210 KB)
[v3] 星期二, 2025 年 5 月 13 日 16:15:43 UTC (1,209 KB)
[v4] 星期四, 2025 年 8 月 7 日 00:04:47 UTC (640 KB)
[v5] 星期二, 2025 年 10 月 7 日 21:49:06 UTC (2,314 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
physics.ao-ph
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-05
切换浏览方式为:
physics

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号