Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > q-bio > arXiv:2501.04941

帮助 | 高级搜索

定量生物学 > 种群与进化

arXiv:2501.04941 (q-bio)
[提交于 2025年1月9日 ]

标题: MyESL:分子进化和系统发育分析中的稀疏学习

标题: MyESL: Sparse learning in molecular evolution and phylogenetic analysis

Authors:Maxwell Sanderford, Sudip Sharma, Glen Stecher, Jun Liu, Jieping Ye, Sudhir Kumar
摘要: 进化稀疏学习(ESL)使用监督机器学习方法,最小绝对收缩和选择算子(LASSO),来构建解释假设与序列比对中基因组特征(例如,位点)变化之间关系的模型。 ESL通过使用稀疏组LASSO,在基因组特征(例如,基因组位点)之间和内部引入稀疏性。 尽管有一些软件包可用于执行稀疏组LASSO,但我们发现它们不太适合处理和分析包含数百万个特征(如碱基)的基因组规模数据。 MyESL软件填补了用于进行ESL分析的开源软件的空白,提供了预处理输入假设和大型比对、使LASSO灵活且计算高效以及后处理输出模型以生成在功能或进化基因组学中有用的不同指标的功能。 MyESL可以将系统发育树和序列比对作为输入,并分别将其转换为数值响应和特征。 模型输出被处理成用户友好的文本和图形文件。 MyESL的计算核心用C++编写,这提供了具有或不具有组稀疏性的模型构建,而输入和模型输出的预处理和后处理则使用用Python编写的自定义函数完成。 它在系统发生基因组学中的一个应用展示了MyESL的实用性。 我们对经验基因组规模数据集的分析表明,MyESL可以在个人台式机上快速高效地构建进化模型,而其他计算包由于计算资源和时间的高昂要求而无法做到这一点。 MyESL适用于Linux上的Python环境,并作为独立应用程序分发给Windows和macOS。 它可以从https://github.com/kumarlabgit/MyESL获取。
摘要: Evolutionary sparse learning (ESL) uses a supervised machine learning approach, Least Absolute Shrinkage and Selection Operator (LASSO), to build models explaining the relationship between a hypothesis and the variation across genomic features (e.g., sites) in sequence alignments. ESL employs sparsity between and within the groups of genomic features (e.g., genomic loci) by using sparse-group LASSO. Although some software packages are available for performing sparse group LASSO, we found them less well-suited for processing and analyzing genome-scale data containing millions of features, such as bases. MyESL software fills the need for open-source software for conducting ESL analyses with facilities to pre-process the input hypotheses and large alignments, make LASSO flexible and computationally efficient, and post-process the output model to produce different metrics useful in functional or evolutionary genomics. MyESL can take phylogenetic trees and sequence alignments as input and transform them into numeric responses and features, respecetively. The model outputs are processed into user-friendly text and graphical files. The computational core of MyESL is written in C++, which offers model building with or without group sparsity, while the pre- and post-processing of inputs and model outputs is performed using customized functions written in Python. One of its applications in phylogenomics showcases the utility of MyESL. Our analysis of empirical genome-scale datasets shows that MyESL can build evolutionary models quickly and efficiently on a personal desktop, while other computational packages were unable due to their prohibitive requirements of computational resources and time. MyESL is available for Python environments on Linux and distributed as a standalone application for Windows and macOS. It is available from https://github.com/kumarlabgit/MyESL.
主题: 种群与进化 (q-bio.PE)
引用方式: arXiv:2501.04941 [q-bio.PE]
  (或者 arXiv:2501.04941v1 [q-bio.PE] 对于此版本)
  https://doi.org/10.48550/arXiv.2501.04941
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Sudhir Kumar [查看电子邮件]
[v1] 星期四, 2025 年 1 月 9 日 03:16:16 UTC (177 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
q-bio.PE
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-01
切换浏览方式为:
q-bio

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号