天体物理学 > 天体物理学的仪器与方法
[提交于 2024年7月19日
]
标题: 天文学来源序列化的评估
标题: Evaluation of Provenance Serialisations for Astronomical Provenance
摘要: 天文数据处理流水线中的来源数据对于建立数据处理和产品中的信任和可重复性至关重要。此外,天文学家可以查询他们的来源数据以回答与异常检测、推荐和预测等领域相关的问题。下一代天文巡天望远镜(如Vera Rubin天文台或平方公里阵列)能够生成从拍字节到艾字节规模的数据,从而放大了来源存储或查询效率即使是很小的改进的重要性。为了确定天文学家应如何存储和查询其来源数据,本文报告了对turtle和JSON来源序列化的比较。分别选择了三元组存储Apache Jena Fuseki和图数据库系统Neo4j作为代表性的数据库管理系统(DBMS),用于turtle和JSON。模拟的来源数据被上传到每个DBMS并进行查询,用于比较的指标是查询的准确性和时间以及数据上传时间。结果发现这两种序列化都适合此用途,并且两者具有相似的查询准确性。发现turtle来源在存储和上传数据方面更高效。关于查询,对于小型数据集($<$5MB)和简单的信息检索查询,也发现turtle序列化更高效。然而,发现JSON序列化来源对于涉及跨DBMS匹配模式的更复杂查询更高效,这种效果随着查询来源的大小而扩展。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.