Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2411.00252

帮助 | 高级搜索

计算机科学 > 计算机视觉与模式识别

arXiv:2411.00252 (cs)
[提交于 2024年10月31日 ]

标题: IO Transformer:评估基于SwinV2的奖励模型在计算机视觉中的应用

标题: IO Transformer: Evaluating SwinV2-Based Reward Models for Computer Vision

Authors:Maxwell Meyer, Jack Spruyt
摘要: 变压器及其衍生模型在文本、视觉和语音识别任务中取得了最先进的性能。 然而,很少有努力致力于训练能够评估其他模型输出质量的变压器。 本文研究了基于SwinV2的奖励模型,称为输入输出变压器(IO变压器)和输出变压器。 这些奖励模型可用于推理质量评估、数据分类和策略优化等任务。 我们的实验表明,在输出完全依赖于输入的领域中,模型输出质量评估非常准确,IO变压器在Change Dataset 25(CD25)上实现了完美的评估准确性。 我们还探索了修改后的Swin V2架构。 最终,Swin V2在IO分割数据集上的得分为95.41%,在输出不完全依赖于输入的情况下,其表现优于IO变压器。 我们的工作扩展了变压器架构在计算机视觉中的奖励建模应用,并为优化这些模型以适应各种任务提供了关键见解。
摘要: Transformers and their derivatives have achieved state-of-the-art performance across text, vision, and speech recognition tasks. However, minimal effort has been made to train transformers capable of evaluating the output quality of other models. This paper examines SwinV2-based reward models, called the Input-Output Transformer (IO Transformer) and the Output Transformer. These reward models can be leveraged for tasks such as inference quality evaluation, data categorization, and policy optimization. Our experiments demonstrate highly accurate model output quality assessment across domains where the output is entirely dependent on the input, with the IO Transformer achieving perfect evaluation accuracy on the Change Dataset 25 (CD25). We also explore modified Swin V2 architectures. Ultimately Swin V2 remains on top with a score of 95.41 % on the IO Segmentation Dataset, outperforming the IO Transformer in scenarios where the output is not entirely dependent on the input. Our work expands the application of transformer architectures to reward modeling in computer vision and provides critical insights into optimizing these models for various tasks.
评论: 15页,3图,2表
主题: 计算机视觉与模式识别 (cs.CV) ; 机器学习 (cs.LG)
引用方式: arXiv:2411.00252 [cs.CV]
  (或者 arXiv:2411.00252v1 [cs.CV] 对于此版本)
  https://doi.org/10.48550/arXiv.2411.00252
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Maxwell Meyer J [查看电子邮件]
[v1] 星期四, 2024 年 10 月 31 日 23:16:09 UTC (199 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs.LG
< 上一篇   |   下一篇 >
新的 | 最近的 | 2024-11
切换浏览方式为:
cs
cs.CV

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号