Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2501.07600

帮助 | 高级搜索

计算机科学 > 机器学习

arXiv:2501.07600 (cs)
[提交于 2025年1月10日 ]

标题: 数据广度和深度对孪生神经网络模型性能的影响:三个键盘动态数据集的实验

标题: Impact of Data Breadth and Depth on Performance of Siamese Neural Network Model: Experiments with Three Keystroke Dynamic Datasets

Authors:Ahmed Anu Wahab, Daqing Hou, Nadia Cheng, Parker Huntley, Charles Devlen
摘要: 深度学习模型,如孪生神经网络(SNN),在捕捉行为数据中的复杂模式方面显示出巨大的潜力。 然而,数据集的广度(即受试者数量)和深度(例如每个受试者的训练样本数量)对这些模型性能的影响通常被非正式地假设,并且仍缺乏深入研究。 为此,我们使用“特征空间”和“密度”的概念进行了广泛的实验,以指导并更深入地理解数据集广度和深度对三个公开可用的击键数据集(Aalto、CMU 和 Clarkson II)的影响。 通过改变训练受试者数量、每个受试者的样本数量、每个样本中的数据量以及训练中使用的三元组数量,我们发现,当可行时,增加数据集的广度有助于训练出一个能够有效捕捉更多受试者间差异的模型。 相反,我们发现数据集深度的影响程度取决于数据集的性质。 自由文本数据集受到所有三个深度因素的影响;每个受试者的样本不足、序列长度、训练三元组和画廊样本大小,所有这些都可能导致模型训练不足。 固定文本数据集受这些因素的影响较小,因此更容易创建一个训练良好的模型。 这些发现揭示了在训练用于行为生物识别的深度学习模型时数据集广度和深度的重要性,并为设计更有效的认证系统提供了有价值的见解。
摘要: Deep learning models, such as the Siamese Neural Networks (SNN), have shown great potential in capturing the intricate patterns in behavioral data. However, the impacts of dataset breadth (i.e., the number of subjects) and depth (e.g., the amount of training samples per subject) on the performance of these models is often informally assumed, and remains under-explored. To this end, we have conducted extensive experiments using the concepts of "feature space" and "density" to guide and gain deeper understanding on the impact of dataset breadth and depth on three publicly available keystroke datasets (Aalto, CMU and Clarkson II). Through varying the number of training subjects, number of samples per subject, amount of data in each sample, and number of triplets used in training, we found that when feasible, increasing dataset breadth enables the training of a well-trained model that effectively captures more inter-subject variability. In contrast, we find that the extent of depth's impact from a dataset depends on the nature of the dataset. Free-text datasets are influenced by all three depth-wise factors; inadequate samples per subject, sequence length, training triplets and gallery sample size, which may all lead to an under-trained model. Fixed-text datasets are less affected by these factors, and as such make it easier to create a well-trained model. These findings shed light on the importance of dataset breadth and depth in training deep learning models for behavioral biometrics and provide valuable insights for designing more effective authentication systems.
评论: 19页,4图
主题: 机器学习 (cs.LG) ; 计算机视觉与模式识别 (cs.CV); 机器学习 (stat.ML)
引用方式: arXiv:2501.07600 [cs.LG]
  (或者 arXiv:2501.07600v1 [cs.LG] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.07600
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Charles Devlen [查看电子邮件]
[v1] 星期五, 2025 年 1 月 10 日 17:06:46 UTC (1,033 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
cs
cs.CV
stat
stat.ML

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号