Skip to main content
CenXiv.org
此网站处于试运行阶段,支持我们!
我们衷心感谢所有贡献者的支持。
贡献
赞助
cenxiv logo > cs > arXiv:2507.20491

帮助 | 高级搜索

计算机科学 > 计算与语言

arXiv:2507.20491 (cs)
[提交于 2025年7月28日 ]

标题: 用语言表达,用逻辑思考:问答系统中的双进程框架

标题: Speaking in Words, Thinking in Logic: A Dual-Process Framework in QA Systems

Authors:Tuan Bui, Trong Le, Phat Thai, Sang Nguyen, Minh Hua, Ngan Pham, Thang Bui, Tho Quan
摘要: 近年来,大型语言模型(LLMs)的进展显著提升了问答(QA)能力,特别是在开放领域的情境中。 然而,在教育、医疗和法律等封闭领域场景中,用户不仅需要准确的答案,还需要透明的推理过程和可解释的决策机制。 虽然神经符号(NeSy)框架已被视为一种有前景的解决方案,结合了LLMs的自然语言理解和符号系统的形式推理,但现有方法通常依赖于大规模模型,并在将自然语言转化为形式逻辑表示方面表现出效率低下。 为了解决这些限制,我们引入了Text-JEPA(基于文本的联合嵌入预测架构),这是一种轻量且有效的框架,用于将自然语言转化为一阶逻辑(NL2FOL)。 受双系统认知理论的启发,Text-JEPA通过高效生成逻辑表示来模拟系统1,而Z3求解器则作为系统2,实现强大的逻辑推理。 为了严格评估NL2FOL到推理的流程,我们提出了一种综合评估框架,包括三个自定义指标:转换分数、推理分数和Spearman rho分数,它们共同捕捉逻辑翻译的质量及其对推理准确性下游影响。 在特定领域的数据集上的实证结果表明,与更大的LLM系统相比,Text-JEPA实现了具有竞争力的性能,同时计算开销显著降低。 我们的研究结果突显了结构化、可解释的推理框架在构建专用领域高效且可解释的QA系统方面的潜力。
摘要: Recent advances in large language models (LLMs) have significantly enhanced question-answering (QA) capabilities, particularly in open-domain contexts. However, in closed-domain scenarios such as education, healthcare, and law, users demand not only accurate answers but also transparent reasoning and explainable decision-making processes. While neural-symbolic (NeSy) frameworks have emerged as a promising solution, leveraging LLMs for natural language understanding and symbolic systems for formal reasoning, existing approaches often rely on large-scale models and exhibit inefficiencies in translating natural language into formal logic representations. To address these limitations, we introduce Text-JEPA (Text-based Joint-Embedding Predictive Architecture), a lightweight yet effective framework for converting natural language into first-order logic (NL2FOL). Drawing inspiration from dual-system cognitive theory, Text-JEPA emulates System 1 by efficiently generating logic representations, while the Z3 solver operates as System 2, enabling robust logical inference. To rigorously evaluate the NL2FOL-to-reasoning pipeline, we propose a comprehensive evaluation framework comprising three custom metrics: conversion score, reasoning score, and Spearman rho score, which collectively capture the quality of logical translation and its downstream impact on reasoning accuracy. Empirical results on domain-specific datasets demonstrate that Text-JEPA achieves competitive performance with significantly lower computational overhead compared to larger LLM-based systems. Our findings highlight the potential of structured, interpretable reasoning frameworks for building efficient and explainable QA systems in specialized domains.
评论: 8页,3图。被国际联合神经网络会议(IJCNN)2025年神经符号人工智能可信性与可靠性研讨会接收。https://2025.ijcnn.org
主题: 计算与语言 (cs.CL) ; 人工智能 (cs.AI); 符号计算 (cs.SC)
引用方式: arXiv:2507.20491 [cs.CL]
  (或者 arXiv:2507.20491v1 [cs.CL] 对于此版本)
  https://doi.org/10.48550/arXiv.2507.20491
通过 DataCite 发表的 arXiv DOI(待注册)

提交历史

来自: Tuan Bui [查看电子邮件]
[v1] 星期一, 2025 年 7 月 28 日 03:00:35 UTC (370 KB)
全文链接:

获取论文:

    查看标题为《》的 PDF
  • 查看中文 PDF
  • 查看 PDF
  • HTML(实验性)
  • TeX 源代码
  • 其他格式
查看许可
当前浏览上下文:
cs.CL
< 上一篇   |   下一篇 >
新的 | 最近的 | 2025-07
切换浏览方式为:
cs
cs.AI
cs.SC

参考文献与引用

  • NASA ADS
  • 谷歌学术搜索
  • 语义学者
a 导出 BibTeX 引用 加载中...

BibTeX 格式的引用

×
数据由提供:

收藏

BibSonomy logo Reddit logo

文献和引用工具

文献资源探索 (什么是资源探索?)
连接的论文 (什么是连接的论文?)
Litmaps (什么是 Litmaps?)
scite 智能引用 (什么是智能引用?)

与本文相关的代码,数据和媒体

alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)

演示

复制 (什么是复制?)
Hugging Face Spaces (什么是 Spaces?)
TXYZ.AI (什么是 TXYZ.AI?)

推荐器和搜索工具

影响之花 (什么是影响之花?)
核心推荐器 (什么是核心?)
IArxiv 推荐器 (什么是 IArxiv?)
  • 作者
  • 地点
  • 机构
  • 主题

arXivLabs:与社区合作伙伴的实验项目

arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。

与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。

有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.

这篇论文的哪些作者是支持者? | 禁用 MathJax (什么是 MathJax?)
  • 关于
  • 帮助
  • contact arXivClick here to contact arXiv 联系
  • 订阅 arXiv 邮件列表点击这里订阅 订阅
  • 版权
  • 隐私政策
  • 网络无障碍帮助
  • arXiv 运营状态
    通过...获取状态通知 email 或者 slack

京ICP备2025123034号