Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2311.00408

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2311.00408 (cs)
[提交于 2023年11月1日 ]

标题: AdaSent:用于少样本分类的高效领域自适应句嵌入

标题: AdaSent: Efficient Domain-Adapted Sentence Embeddings for Few-Shot Classification

Authors:Yongxin Huang, Kexin Wang, Sourav Dutta, Raj Nath Patel, Goran Glavaš, Iryna Gurevych
摘要: 最近的研究发现,基于预训练句子编码器(SEs)的少样本句子分类是高效、稳健和有效的。 在本工作中,我们研究了在基于SEs的少样本句子分类背景下领域专业化策略。 我们首先确定,对基础预训练语言模型(PLM)(即不是SE)进行无监督领域自适应预训练(DAPT),可使少样本句子分类的准确率提高多达8.4个百分点。 然而,将DAPT应用于SEs一方面会干扰其(通用领域)句子嵌入预训练(SEPT)的效果。 另一方面,在经过DAPT的通用领域SEPT基础上进行领域自适应的PLM(即DAPT后)是有效的,但效率低下,因为计算成本高昂的SEPT需要在每个领域的DAPT后的PLM上执行。 作为解决方案,我们提出了AdaSent,它通过在基础PLM上训练一个SEPT适配器,将SEPT与DAPT解耦。 该适配器可以插入任何领域的DAPT后的PLM中。 我们在17个不同的少样本句子分类数据集上进行了广泛的实验,证明了AdaSent的有效性。 AdaSent在DAPT后的PLM上的性能可以达到或超过完整的SEPT,同时大幅降低了训练成本。 AdaSent的代码已公开。
摘要: Recent work has found that few-shot sentence classification based on pre-trained Sentence Encoders (SEs) is efficient, robust, and effective. In this work, we investigate strategies for domain-specialization in the context of few-shot sentence classification with SEs. We first establish that unsupervised Domain-Adaptive Pre-Training (DAPT) of a base Pre-trained Language Model (PLM) (i.e., not an SE) substantially improves the accuracy of few-shot sentence classification by up to 8.4 points. However, applying DAPT on SEs, on the one hand, disrupts the effects of their (general-domain) Sentence Embedding Pre-Training (SEPT). On the other hand, applying general-domain SEPT on top of a domain-adapted base PLM (i.e., after DAPT) is effective but inefficient, since the computationally expensive SEPT needs to be executed on top of a DAPT-ed PLM of each domain. As a solution, we propose AdaSent, which decouples SEPT from DAPT by training a SEPT adapter on the base PLM. The adapter can be inserted into DAPT-ed PLMs from any domain. We demonstrate AdaSent's effectiveness in extensive experiments on 17 different few-shot sentence classification datasets. AdaSent matches or surpasses the performance of full SEPT on DAPT-ed PLM, while substantially reducing the training costs. The code for AdaSent is available.
评论: 被EMNLP 2023主会议接收
主题: 计算与语言 (cs.CL)
引用方式: arXiv:2311.00408 [cs.CL]
  (或者 arXiv:2311.00408v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2311.00408
通过 DataCite 发表的 arXiv DOI

提交历史

来自: Yongxin Huang [查看电子邮件]
[v1] 星期三, 2023 年 11 月 1 日 10:00:15 UTC (200 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • TeX 源代码
  • 其他格式
许可图标 查看许可
当前浏览上下文:
cs
< 上一篇   |   下一篇 >
新的 | 最近的 | 2023-11
切换浏览方式为:
cs.CL

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号