咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >探索中文预训练模型的混合粒度编码和IDF遮蔽 收藏

探索中文预训练模型的混合粒度编码和IDF遮蔽

Exploring Chinese Pre-Training with Mixed-Grained Encoding and IDF-Masking

作     者:邵云帆 孙天祥 邱锡鹏 SHAO Yunfan;SUN Tianxiang;QIU Xipeng

作者机构:复旦大学计算机科学技术学院上海200433 

出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)

年 卷 期:2024年第38卷第1期

页      面:57-64页

核心收录:

学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)] 

基  金:国家自然科学基金(62022027) 

主  题:中文预训练 混合粒度编码 IDF遮蔽 

摘      要:目前大多数中文预训练语言模型采用字级别编码,因为字符级编码序列长而产生大量计算开销。词级别编码尽管能够缓解这一问题,但也会带来其他问题,如词典外词、数据稀疏等。针对中文不同粒度的编码,该文提出使用混合粒度编码的中文预训练模型。这一编码所用的词表在大规模预训练语料上得到,因此缓解了词典外词和数据稀疏问题。为了更进一步增强模型性能,该文提出了一种选择性的遮蔽语言建模训练策略——IDF遮蔽。这一策略基于词在大规模预训练语料上统计的逆文档频率。实验表明,与之前的中文预训练语言模型相比,该文所提出方法预训练的模型在多个中文自然语言数据集上取得了更好或相当的性能,并且能更高效地编码文本。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分