Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2407.00036

帮助 | 高级搜索

计算机科学 > 数据库

arXiv:2407.00036 (cs)
[提交于 2024年5月27日 ]

标题: LiveData -- 用于分层数据的全球数据网格

标题: LiveData -- A Worldwide Data Mesh for Stratified Data

Authors:Simone Bocca, Amarsanaa Ganbold, Tsolmon Zundui
摘要: 数据重用对于减少构建支持新应用的数据所需的数据集成工作至关重要,特别是在数据稀缺的环境中。 然而,数据重用需要处理数据异构性,这种异构性在来自不同来源的数据中始终存在。 这种异构性出现在不同的层次上,例如数据使用的语言、它所表示的信息结构,以及数据集采用的数据类型和格式。 尽管通过跨情境重用数据获得了有价值的见解,但处理数据异构性仍然是一个高昂的代价。 此外,由于缺乏支持质量数据和互操作数据的生产与分发的数据分布基础设施,数据重用受到阻碍。 考虑到跨国数据重用时,地理和文化差异更加明显,这些影响数据重用的问题被放大了。 在本文中,我们提出了LiveData,一种处理高质量和多样性感知数据的跨国数据分发网络。 LiveData由具有提供生成和分发新型数据组件的架构的不同节点组成,其中异构性被转化为信息多样性,并被视为一种特征,明确定义并用于满足数据用户的需求。 本文通过定义其架构和节点处理的数据类型,提出了LiveData网络的规范。 该规范目前正在用于实现一个具体的使用案例,以在意大利特伦托大学和蒙古国家大学之间进行数据重用和集成。
摘要: Data reuse is fundamental for reducing the data integration effort required to build data supporting new applications, especially in data scarcity contexts. However, data reuse requires to deal with data heterogeneity, which is always present in data coming from different sources. Such heterogeneity appears at different levels, like the language used by the data, the structure of the information it represents, and the data types and formats adopted by the datasets. Despite the valuable insights gained by reusing data across contexts, dealing with data heterogeneity is still a high price to pay. Additionally, data reuse is hampered by the lack of data distribution infrastructures supporting the production and distribution of quality and interoperable data. These issues affecting data reuse are amplified considering cross-country data reuse, where geographical and cultural differences are more pronounced. In this paper, we propose LiveData, a cross-country data distribution network handling high quality and diversity-aware data. LiveData is composed by different nodes having an architecture providing components for the generation and distribution of a new type of data, where heterogeneity is transformed into information diversity and considered as a feature, explicitly defined and used to satisfy the data users purposes. This paper presents the specification of the LiveData network, by defining the architecture and the type of data handled by its nodes. This specification is currently being used to implement a concrete use case for data reuse and integration between the University of Trento (Italy) and the National University of Mongolia.
评论: 被蒙古会议和ICTfocus期刊接受(https://ictfocus.org/)
主题: 数据库 (cs.DB) ; 分布式、并行与集群计算 (cs.DC)
引用方式: arXiv:2407.00036 [cs.DB]
  (或者 arXiv:2407.00036v1 [cs.DB] 对于此版本)
  https://doi.org/10.48550/arXiv.2407.00036
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Simone Bocca [查看电子邮件]
[v1] 星期一, 2024 年 5 月 27 日 09:29:54 UTC (973 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
许可图标 查看许可
当前浏览上下文:
cs.DB
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-07
切换浏览方式为:
cs
cs.DC

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号