计算机科学 > 计算与语言
[提交于 2025年1月3日
]
标题: (WhyPHI) 为多项选择题回答微调PHI-3:方法、结果和挑战
标题: (WhyPHI) Fine-Tuning PHI-3 for Multiple-Choice Question Answering: Methodology, Results, and Challenges
摘要: 大型语言模型(LLMs)由于其在理解和生成类人文本方面的出色能力,已成为各个领域的重要工具。准确回答选择题(MCQs)的能力在教育领域具有重要意义,特别是在自动辅导系统和评估平台中。然而,由于幻觉和模糊的提示,使LLMs有效处理MCQ任务仍然具有挑战性。这项工作探讨了微软的PHI-3\cite{Abdin2024}这种紧凑而高效的LLM在回答选择题方面的潜力。我们的贡献包括在TruthfulQA数据集上微调模型,设计优化的提示以提高模型性能,并使用困惑度和传统指标如准确率和F1分数进行评估。结果表明,微调后PHI-3.5在处理选择题方面有显著改进,困惑度从4.68降至2.27,准确率从62%升至90.8%。这项研究强调了高效模型在自适应学习系统和教育评估中的重要性,为更广泛地融入课堂铺平了道路,特别是在考试准备、学生反馈和个性化学习等领域。
文献和引用工具
与本文相关的代码,数据和媒体
alphaXiv (什么是 alphaXiv?)
CatalyzeX 代码查找器 (什么是 CatalyzeX?)
DagsHub (什么是 DagsHub?)
Gotit.pub (什么是 GotitPub?)
Hugging Face (什么是 Huggingface?)
带有代码的论文 (什么是带有代码的论文?)
ScienceCast (什么是 ScienceCast?)
演示
推荐器和搜索工具
arXivLabs:与社区合作伙伴的实验项目
arXivLabs 是一个框架,允许合作伙伴直接在我们的网站上开发和分享新的 arXiv 特性。
与 arXivLabs 合作的个人和组织都接受了我们的价值观,即开放、社区、卓越和用户数据隐私。arXiv 承诺这些价值观,并且只与遵守这些价值观的合作伙伴合作。
有一个为 arXiv 社区增加价值的项目想法吗? 了解更多关于 arXivLabs 的信息.