从全文检索到语言计量和语言智能——语料库研究应用的三个层次及资源
From Full-Text Retrieval to Quantitative Linguistics and Language Intelligence:Three Levels of Corpus Research,Application and Resources作者机构:南京师范大学文学院江苏南京210097
出 版 物:《外语研究》 (Foreign Languages Research)
年 卷 期:2024年第41卷第1期
页 面:20-27,45页
学科分类:0303[法学-社会学] 03[法学] 030303[法学-人类学]
基 金:国家社科基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(编号:21&ZD331) 国家社科基金一般项目“基于深加工语料库实践的汉语史分词规范研究”(编号:22BYY108) 国家语委项目“面向古文读写能力的古汉语分级字表研究”(编号:YB145-41)的阶段性成果。
摘 要:20世纪中后期,随着计算机软硬件技术的快速发展,语料库在规模、深度甚至模态上都有了长足进步,实现了由全文检索到语言智能的巨大飞跃。语料库的分类一般从收录语言材料的地域、时代、语种、语体、语域等层面,或语音、词法、句法、语义、篇章等标注层级,或面向具体的研究问题等角度来划分。但更基本的、却较少关注的问题是语料库的构建和应用是面向学者的语言研究需要,还是面向计算机的语言计算建模需要。本文从语料库研究和应用的角度出发,将语料库研究划分为面向全文检索、语言计量和语言智能等三个层次,着重介绍了与后两者相关的期刊、会议和成果资源,助力研究者确定研究范式,构建和使用相匹配的标注语料库,实现多学科的交叉融合和应用。