基于BERT和TF-IDF的问答社区问句自动标引研究——以金投网问答社区为例
Automatic Indexing of Questions in Q&A Community Based on BERT and TF-IDF——Taking the CNGOLD Q&A Community as an Example作者机构:武汉大学信息管理学院湖北武汉430072 武汉大学信息资源研究中心湖北武汉430072
出 版 物:《情报科学》 (Information Science)
年 卷 期:2021年第39卷第3期
页 面:3-10页
核心收录:
学科分类:1205[管理学-图书情报与档案管理] 12[管理学] 120501[管理学-图书馆学] 120502[管理学-情报学]
基 金:国家自然科学基金项目“基于文本和Web语义分析的智能咨询服务研究”(71673209)
主 题:自动标引 问答社区 BERT TF-IDF 多标签分类
摘 要:【目的/意义】问答社区问句的自动标引可以为网站的信息组织和信息服务提供有效帮助。目前关于自动标引的研究大部分集中于抽词标引,并不适用于问答社区问句的自动标引。【方法/过程】本文以金投网问答社区为例,融合了赋词标引和抽词标引方法,提出了一种基于预训练语言模型BERT和TF-IDF的问答社区问句自动标引模型。该模型使用基于BERT的多标签分类算法对问句进行赋词标引,将问句划分为短问句和长问句,使用TF-IDF算法对长问句进行抽词标引,补充长问句标引标签。【结果/结论】实验结果表明,本文提出的自动标引模型可以有效对问答社区问句进行自动标引,对提高用户信息检索效果具有重要的意义。【创新/局限】利用问句内外部特征构建了基于BERT和TF-IDF的问答社区问句自动标引模型,并提出了一种基于BERT的多标签分类算法。