基于改进高斯混合变分自编码器的半监督情感音乐生成
作者机构:南京邮电大学计算机学院软件学院网络空间安全学院 江苏大数据安全与智能处理重点实验室
出 版 物:《计算机科学》 (Computer Science)
年 卷 期:2023年
学科分类:13[艺术学] 1302[艺术学-音乐与舞蹈学] 08[工学] 081104[工学-模式识别与智能系统] 0811[工学-控制科学与工程]
基 金:江苏省高校自然科学基金面上项目(21KJB520017)
主 题:情感音乐生成 半监督生成模型 解纠缠表示学习 高斯混合变分自编码器 Transformer-XL
摘 要:音乐可以通过序列化的声音信息传递声音内容和情感。情感是音乐所表达语义中的重要组成部分。因此音乐生成技术不仅要考虑音乐的结构信息,还应融入情感元素。现有的情感音乐生成技术大多采用基于情感标注的完全监督方法。但音乐领域缺乏大量标准的情感标注数据集,且情感标签不足以表达音乐的情感特征。针对上述问题,提出了基于改进的高斯混合变分自编码器(Gaussian Mixture Variational Autoencoders,GMVAE)的半监督情感音乐生成方法(Semg-GMVAE),将音乐的节奏特征和调式特征与情感建立联系,同时向GMVAE中引入一种特征解纠缠机制分别学习这两种特征的潜在变量表示,并对其进行半监督聚类推断。最后通过操纵音乐的特征表示,实现了针对快乐、紧张、悲伤、平静情感的音乐生成与情感转换。同时,针对GMVAE难以区分不同情感类别数据的问题,通过实验指出其关键原因是GMVAE证据下界中的方差正则项与互信息抑制项使得各类别的高斯分量分散性不足,从而影响学习表示的性能和生成的质量。因此,Semg-GMVAE对这两项因子分别进行了惩罚和增强,并使用了Transformer-XL作为编码器和解码器以提升在长序列音乐上的建模能力。基于真实数据集的实验结果表明,相比现有方法, Semg-GMVAE能够将不同情感的音乐在潜在空间中更好地分离,增强了音乐与情感的关联程度,并且能够有效对不同音乐特征进行解纠缠分离,最后通过改变特征表示更好地实现情感音乐生成或情感切换。