利用外周血相对端粒长度构建法医个体年龄推断模型
作者单位:河北医科大学
学位级别:硕士
导师姓名:丛斌
授予年度:2022年
学科分类:1001[医学-基础医学(可授医学、理学学位)] 08[工学] 0838[工学-公安技术] 100105[医学-法医学] 10[医学]
主 题:年龄推断 相对端粒长度 法医遗传学 qPCR 机器学习
摘 要:目的:年龄推断是法医遗传学研究的重要内容之一。传统的法医个体年龄推断主要依据如骨骼、牙齿等的形态学指标,易受主观因素影响,且适用的检材种类有限。对于血液、唾液、精液等体液,以及脱落细胞、组织块等常见法医生物检材,传统方法无法应用。近年来,有报道利用DNA甲基化、非编码RNA等分子标志物进行血液等生物检材的年龄推断,进展迅速,但年龄推断模型的精度还有待进一步提高。实际上衰老是一个复杂的生理过程,单一的分子标志物无法满足法医实践精确鉴定的要求,因此应探寻其他随年龄变化的生物标志物,构建年龄推断的综合体系,以实现准确可靠的年龄推断。利用端粒(Telomere,Tel)长度进行法医年龄推断,早在2002年就有日本学者提出。但随着研究的深入,端粒长度除与年龄相关外,还与社会、环境等因素相关,因此进展缓慢。近年来一些纵向追踪端粒长度的人群研究发现年龄对于端粒长度的影响大于环境因素,此外,随着对端粒功能和变化研究的深入,研究人员发现端粒的长度随年龄变化的趋势并不呈简单的一元线性关系。而以往研究中大多建立的线性回归模型,势必影响年龄推断的精准度。因此本研究将以外周血为研究对象,通过q PCR方法检测相对端粒长度(Relative telomere length,RTL),探索端粒长度随年龄变化的规律,以机器学习的方法构建血液样本的年龄推断模型,为法医个体年龄推断提供新的理论依据和技术方案。方法:1.q PCR方法检测外周血相对端粒长度:采集130名21-70岁健康无关个体外周血各2ml,提取DNA后,通过q PCR方法,检测各样本端粒基因及内参基因的丰度,以2[ΔΔCT=(样本端粒基因CT-样本内参基因CT)-(对照组端粒基因CT-对照组内参基因CT)]值表示样本相对端粒长度。2.相对端粒长度的统计学及变化趋势分析:采用SPSS V26.0统计、比较不同年龄组、不同性别端粒长度分布;绘制相对端粒长度在各年龄组内分布的箱式图以及随年龄的变化趋势折线图。3.构建外周血相对端粒长度年龄推断模型:分别通过线性和非线性回归以及随机森林回归(Random forest regression,RFR)、XGBoost法四种方法构建端粒长度与年龄推断的数学模型。在机器学习算法中,采用机器随机分组的方法将80%样本作为训练集(training set),另外20%的样本作为验证集(testing set)。通过五折交叉验证法(5-fold cross validation)对算法中的重要参数进行逐一调整,以确定模型达到最优效果。最后拟合度R以及平均绝对误差(mean absolute error MAE)来评价模型的效能。结果:1.成功提取123例样本DNA用于后续的q PCR实验,其中女性52例,男性71例。DNA完整性好,纯度均介于1.7-2.0之间;q PCR实验中目的基因Tel、内参基因36B4的熔解曲线均呈单一的高尖峰,扩增产物的琼脂糖凝胶电泳均显示单一条带,提示引物特异性好;二者扩增效率均介于90%~110%。2.123例样本RTL的平均值为1.261,男性为1.260,女性为1.261,男性与女性样本RTL间无显著差异(P=0.189)。以10岁为组距分组,不同年龄段人群RTL有统计学差异(P0.000)。女性RTL随年龄上升呈下降趋势;男性RTL在41~50年龄段有所升高,其余呈下降趋势。3.采用一元线性回归、非线性回归、随机森林以及XGBoost四种方法构建个体年龄推断模型,拟合度R值分别为0.35、0.41、0.58和0.6,一元线性回归和非线性回归模型的标准误分别为10.90岁,10.30岁。而随机森林和XGBoost模型的MAE分别为7.68岁和7.30岁。选择模型性能较好的两个集成算法(RFR、XGBoost)进行分性别建模,女性R分别为0.81,0.72,MAE分别为5.71岁、5.79岁;男性R分别为0.22、0.40,MAE分别为10.90岁、9.77岁。结果表明,采用机器学习方法建立的年龄模型无论是模型拟合度还是预测误差均要优于线性和非线性回归的结果。结论:本研究通过q PCR的方法检测外周血相对端粒长度,构建其与年龄之间的数学模型。XGBoost法预测准确性更高,平均绝对误差为7.3岁,模型拟合度更高,R为0.6;针对女性样本单独建模,两种算法平均绝对误差MAE为5.7岁左右,R为0.8左右,表明集成算法更适合分析相对端粒长度与年龄之间的关系,为分子标志物推断法医学年龄提供了理论依据和新的技术路线。