发散思维测验人工评分与机器评分比较
作者单位:北京师范大学心理学部 中国工商银行远程银行中心 北京智鼎优源管理咨询有限公司
会议名称:《第二十二届全国心理学学术会议》
会议日期:2019年
学科分类:0402[教育学-心理学(可授教育学、理学学位)] 040203[教育学-应用心理学] 04[教育学]
关 键 词:发散思维 续写故事结尾测验 补全图形测验 人工评分 机器评分
摘 要:发散思维是创造力的核心,对其结果评分一直是创造力研究的重点。本研究采用文字和图形两类发散思维测验形式,旨在研究发散思维测试结果的人工和和计算机评分方法。研究一选取216名高中生参加自编的续写故事结尾发散思维测试。要求被试读完故事后,从不同角度思考,尽可能多的写出故事可能的结尾,结尾越多越新颖越好。最终收集有效应答693条,对这些应答内容进行人工编码,依照流畅性、变通性、新颖性人工评定被试的发散思维能力。其次,通过LTP语言技术平台对相同的文字应答内容进行分词,采用隐含狄利克雷分配模型(LDA)、K-means聚类分析以及四分模型等学习训练集数据,形成机器评分模型,实现发散思维测验机器评分。最后,选取103份有效数据,采用评分者创造力同感评估方法、被试想象力以及大五人格数据,检验机器、人工两种评分方式效度。研究二选取参加全国某中学生创新素质大赛的800名高一、高二学生,施测自编的补全图形测验,要求受测者在给定的既有图形上进行创作。有效应答数据4854个,根据评分标准指标,依照流畅性、真实性、新颖性、独特性、精致度、开放性6个维度对补全图形测验进行人工评分。其次,选取144名高中生,现场施测托兰斯图形创造性思维分测验、威廉斯创造性倾向量表、图形补全测验,检验人工评分的有效性。最后,采用卷积神经网络模型,利用Python语言设计图形类发散思维测验机器评分程序,对144份问卷数据中有效输出的853个图像进行数据训练完成机器评分,再通过训练结果的输出对结果进行检验。研究发现,改进的人工评分,开发的机器评分对文字、图形两类发散思维测验均具有较好的效度,实现两类测验的自动评分是可行的,但仍有改善空间。这为研究发散思维评分提供了新思路,也为发散思维测验在线机器自动评分提供了技术支持。