计算机科学 > 形式语言与自动机理论
[提交于 2025年8月5日
]
标题: 随机语言的恒等测试
标题: Identity Testing for Stochastic Languages
摘要: 确定未知分布是否与已知参考分布匹配是分布分析中的一个基础问题。 虽然经典结果在有限域上的分布情况下建立了严格的框架,但计算语言学、生物信息学和程序分析中的实际应用需要在无限组合结构上进行测试,特别是字符串。 在本文中,我们开始了对随机语言身份测试的理论研究,将形式语言理论与现代分布属性测试相结合。 我们首先提出了一种多项式时间算法来验证有限状态机是否表示一个随机语言,然后证明有理随机语言可以近似任意概率分布。 基于这些表示,我们开发了一种基于截断的身份测试算法,其样本复杂度为$\widetilde{\Theta}\left( \frac{\sqrt{n}}{\varepsilon^2} + \frac{n}{\log n} \right)$,其中$n$是截断支持的大小。 我们的方法利用了有理随机语言中固有的指数衰减来限制截断误差,然后将经典有限域测试器应用于受限问题。 这项工作为无限离散分布建立了第一个身份测试框架,为概率形式方法和结构化数据的统计分析开辟了新的方向。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.