面向手语信息处理的维吾尔文本语料库构建技术的研究
作者单位:新疆大学
学位级别:硕士
导师姓名:阿里甫·库尔班
授予年度:2018年
学科分类:081203[工学-计算机应用技术] 08[工学] 0835[工学-软件工程] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:聋哑人(听障人)是一个特殊的“少数民族。手语是聋哑人(听障人)学习、生活及融入主流社会的一种特殊的交际工具。21世纪以来,我国手语语言文字资源建设逐步向专用型的文本语料库方向发展。中国手语研究是在自然语言处理、深度学习、文本挖掘、机器学习等领域中也需要深入研究和分析。随着中国手语的不断发展,我国少数民族手语研究也同步迈下了新的研究步伐。针对我国少数民族手语中的维吾尔自然手语信息处理研究而言,在中国手语的基础上,将维吾尔文本信息转换成手语信息序列研究是维吾尔自然手语文本语料库建立研究的重点研究对象。因此在自然科学理论的基础上提出关于面向手语信息处理的维吾尔文本语料库构建技术是对于我国少数民族自然手语研究、手语合成研究以及手语文本处理研究方面起到客观性作用。从学术的角度看,手语文本语料库的构建是深入研究文本处理技术,进一步提高聋哑人的手语研究效果的重要环节。因此,本文以少数民族手语教学的规范化研究提供数据资源、促进国家通用语言教学的普遍性、为聋哑人提供学习国语平台、为聋哑人提供更好的学习新知识的环境与接触外世界的平台、为聋哑人语言教育提供教学资源、教学设计规划、课堂教学方案与学习评估,为将维吾尔文本信息转换为基于中国手语的维吾尔手语信息序列提供可靠的科学依据、为基于维吾尔文本的手语合成研究提供必要的数据和技术支持为主要研究目标的学术性研究课题。针对建立文本语料库而言,采集训练文本语料是作为建立语料库研究的首要重点工作之一,手语文本语料的采集研究是需要大量的数据来源、文本资源、人力、精力以及时间的过程。本文为了保证采集文本语料研究的正规性及可靠性,更重视选取文本数据的来源并通过对聋哑学校的课本材料进行采集、整理、统计研究。此外,为了解决在文本转换研究过程中如何表示“手势语词典之外的词汇信息的问题,通过新增训练词元库来实现一对多信息搜索与匹配,初步解决原有训练文本在语料库中在使用过程中产生的弊端问题,并通过此词元库来扩大文本语料数据的范围。在维吾尔文本中,词汇的弱化现象和拼写错误现象是比较常见的语法问题之一。因此在研究的过程中,对这些词汇信息进行整理与统计是有必要的。本文的研究重点是对于训练文本语料进行词干切分研究及文本转换。通过采用基于有限状态自动机算法的词干切分方法初步地实现了维吾尔语词干提取。此外,本文在词干切分、手语文本信息转换研究以及指导思想的基础上,初步提出了面向中国手语信息处理的维吾尔文本语料库的构建技术及方法,并最后对此所提出的技术和方法进行实验和测试达到了预期研究目标。