Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > astro-ph > arXiv:2410.00271

帮助 | 高级搜索

天体物理学 > 宇宙学与非星系天体物理学

arXiv:2410.00271 (astro-ph)
[提交于 2024年9月30日 ]

标题: 星系ML:一个用于机器学习的星系图像、光度、红移和结构参数的数据集

标题: GalaxiesML: a dataset of galaxy images, photometry, redshifts, and structural parameters for machine learning

Authors:Tuan Do (1), Bernie Boscoe (2), Evan Jones (1), Yun Qi Li (1,3), Kevin Alfaro (1) ((1) UCLA, (2) Southern Oregon University, (3) University of Washington)
摘要: 我们提出了一个用于机器学习应用的数据集,其中包括星系的测光数据、图像、光谱红移和结构属性。 该数据集由来自 Hyper-Suprime-Cam 调查 PDR2 的五个成像滤波器($g,r,i,z,y$)中的 286,401 幅星系图像和测光数据组成,具有光谱确认的红移作为真实值。由于其统一性、一致性以及最小的异常值但仍包含现实范围内的信噪比,此数据集对于机器学习应用非常重要。我们将此数据集公开,以促进下一代调查方法(如 Euclid 和 LSST)中机器学习方法的发展。 GalaxiesML 的目标是提供一个可靠的、不仅可用于天体物理学还可用于机器学习的数据集,在该数据集中图像属性无法通过人眼验证,而是由物理定律所支配。 我们描述了从公开可用档案中构建数据集时遇到的挑战,包括异常值剔除、去重、建立真实值和样本选择。 这是同类数据集中最大的公开机器学习就绪训练集之一,红移范围从 0.01 到 4。此样本的红移分布峰值位于红移 1.5,并在红移超过 2.5 后迅速下降。 我们还展示了此数据集的一个红移估计示例应用,证明使用图像进行红移估计比单独使用测光数据获得的结果更准确。例如,在红移 0.1 到 1.25 范围内,使用图像的红移估计偏差比单独使用测光数据低一个数量级。此类数据集的结果将帮助我们了解如何最好地利用下一代星系巡天的数据。
摘要: We present a dataset built for machine learning applications consisting of galaxy photometry, images, spectroscopic redshifts, and structural properties. This dataset comprises 286,401 galaxy images and photometry from the Hyper-Suprime-Cam Survey PDR2 in five imaging filters ($g,r,i,z,y$) with spectroscopically confirmed redshifts as ground truth. Such a dataset is important for machine learning applications because it is uniform, consistent, and has minimal outliers but still contains a realistic range of signal-to-noise ratios. We make this dataset public to help spur development of machine learning methods for the next generation of surveys such as Euclid and LSST. The aim of GalaxiesML is to provide a robust dataset that can be used not only for astrophysics but also for machine learning, where image properties cannot be validated by the human eye and are instead governed by physical laws. We describe the challenges associated with putting together a dataset from publicly available archives, including outlier rejection, duplication, establishing ground truths, and sample selection. This is one of the largest public machine learning-ready training sets of its kind with redshifts ranging from 0.01 to 4. The redshift distribution of this sample peaks at redshift of 1.5 and falls off rapidly beyond redshift 2.5. We also include an example application of this dataset for redshift estimation, demonstrating that using images for redshift estimation produces more accurate results compared to using photometry alone. For example, the bias in redshift estimate is a factor of 10 lower when using images between redshift of 0.1 to 1.25 compared to photometry alone. Results from dataset such as this will help inform us on how to best make use of data from the next generation of galaxy surveys.
评论: 19页,6个图表,数据可在https://doi.org/10.5281/zenodo.11117528获取,使用示例代码可在https://github.com/astrodatalab/galaxiesml_examples获取
主题: 宇宙学与非星系天体物理学 (astro-ph.CO) ; 天体物理学的仪器与方法 (astro-ph.IM); 机器学习 (cs.LG)
引用方式: arXiv:2410.00271 [astro-ph.CO]
  (或者 arXiv:2410.00271v1 [astro-ph.CO] 对于此版本)
  https://doi.org/10.48550/arXiv.2410.00271
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Tuan Do [查看电子邮件]
[v1] 星期一, 2024 年 9 月 30 日 22:46:44 UTC (7,379 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
astro-ph.CO
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-10
切换浏览方式为:
astro-ph
astro-ph.IM
cs
cs.LG

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号