计算机科学 > 机器学习
[提交于 2024年12月18日
(v1)
,最后修订 2024年12月25日 (此版本, v2)]
标题: 基于机器学习的高缺失率空气质量数据集插补技术对比分析
标题: Comparative Analysis of Machine Learning-Based Imputation Techniques for Air Quality Datasets with High Missing Data Rates
摘要: 城市污染对健康构成严重风险,特别是与交通相关的空气污染,这在许多城市仍然是一个主要问题。 机动车排放导致呼吸系统和心血管问题,尤其是对行人和骑自行车等易受伤害且暴露的路用户。 因此,具有高空间分辨率的准确空气质量监测对于良好的城市环境管理至关重要。 本研究旨在为处理缺失率高的时空数据集提供见解。 在这项研究中,高缺失数据率的挑战源于可用数据有限以及需要精确分类PM2.5水平所需的精细粒度。 用于分析和填补的数据来自Dynamic Parcel Distribution、环境保护局和Google在爱尔兰都柏林收集的移动传感器和固定站点。 缺失数据率为约82.42%,使得准确预测颗粒物2.5(PM2.5)水平变得尤为困难。 评估并比较了多种填补和预测方法,包括集成方法、深度学习模型和扩散模型。 外部特征如交通流量、天气条件以及最近站点的数据被纳入以增强模型性能。 结果显示,带有外部特征的扩散方法获得了最高的F1分数,达到0.9486(准确率:94.26%,精确率:94.42%,召回率:94.82%),集成模型达到了最高的准确率94.82%,表明即使在高缺失数据率的情况下也可以获得良好的性能。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.