基于动态语料的分级词表动态生成
Dynamic generation of graded word list based on dynamic corpus作者机构:北京师范大学人工智能学院北京100875 淮北师范大学数学科学学院安徽淮北235000
出 版 物:《吉林大学学报(工学版)》 (Journal of Jilin University:Engineering and Technology Edition)
年 卷 期:2020年第50卷第6期
页 面:2212-2220页
核心收录:
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
基 金:国家自然科学基金项目(61877004) 国家社科基金重大项目(18ZDA295) 安徽省高等学校自然科学研究重点项目(KJ2019A0592,KJ2020A0023)
主 题:中文信息处理 国际汉语教学 动态语料 分级词表 词汇综合覆盖贡献度 动态生成
摘 要:在对词汇属性进行分析的基础上,结合所构建的词汇构词知识库,以及词汇的“减字类推、“组合类推类推机制,基于所给定的特定语料,给出了词汇对相应语料的综合覆盖贡献度评价方案。该方案对词汇相对于语料的重要程度进行了量化表示,为词汇的分级奠定了基础。为了使词汇的学习者最先学习到“更有用的词汇,词表制定过程中最先收录对于语料综合覆盖贡献度最高的词汇。为了使分级词表的动态生成能够在有限时间内得到求解,使用贪心算法处理词表动态生成过程中的词语收录选择。与已有相关研究相比,本研究具有较强的可解释性和可移植性,可以通过对相关参数的修改对最终生成的词汇及其对应等级进行调整;可以根据需要,适当地加入专家知识进行人工干预,并且实现了词汇等级词表生成的程序化、自动化,为分级词表的生成提供了一种全新的方法,为今后各类词汇大纲的制定及完善提供思路和方法上的参考。