eDNA监测测序数据分析注释中参考数据库选择、指标阈值选择、目标数据准备的影响——以长江中游鱼类为监测目标
作者机构:中国水产科学研究院长江水产研究所农业农村部淡水生物多样性保护重点实验室 南京农业大学无锡渔业学院
出 版 物:《湖泊科学》 (Journal of Lake Sciences)
年 卷 期:2024年
核心收录:
学科分类:090803[农学-渔业资源] 0908[农学-水产] 09[农学]
基 金:中央级公益性科研院所基本科研业务费专项(YFI202201) 农业财政专项“长江禁捕后常态化监测专项”(CJJC-2023-01)联合资助
主 题:环境DNA 鱼类 宏条形码 参考数据库 OTU聚类序列相似度 物种注释分类置信度 长江中游
摘 要:在基于宏条形码(meta-barcoding)的eDNA监测技术路径中,e DNA测序数据的分析和注释是决定监测结果判断和评估精准与否的基础,而参考数据库选择、指标阈值选择、目标数据准备是eDNA测序数据分析和注释中最为关键的3个技术环节。为弄清上述3个技术环节处理方案的影响,本研究以长江中游2组eDNA监测COI基因测序数据为分析对象,针对鱼类的检出做了3组实验来分别检验。1)不同参考数据库及物种注释算法对注释结果的影响,2)不同OTU聚类序列相似度和物种注释分类置信度(序列一致性和序列覆盖度)对注释结果的影响,3)目标数据中各物种不同序列丰富度对注释结果的影响。结果显示:1)Blast算法下,3个版本nt库注释出的物种基本一致(72%~78%),2个本地序列参考库注释出的物种也基本一致(91%~96%),这5个序列参考库注释出的物种52%~68%一致;nt库RDPClassifier算法注释出的物种覆盖95%以上Blast算法注释出的物种,并比Blast算法注释出的物种多151%~443%,多出的物种大都是错误注释,本地参考数据库RDP Classifier算法注释出的物种覆盖66%~85%的Blast算法注释出的物种,并存在数条只注释到科属的结果。2)OTU聚类序列相似度阈值,取值0.999比取值0.99获得的OTU多154%~209%,注释到鱼类的OTU多240%~490%;注释分类置信度阈值(Blast算法,序列一致性和序列覆盖度)从0.8到0.99注释获得的物种组成基本(94%以上)一致,OTU组成也基本(83%以上)一致,注释分类置信度阈值取0.7时注释获得的物种组成、OTU组成与取0.8及以上时注释获得的有较大差异。3)在OTU聚类序列相似度阈值为0.999、注释分类置信度阈值为0.9时,多序列数据注释所得鱼类物种数、OTU数最多、物种注释正确率最高(达81.49%),分别比单序列数据的多7%、215%和高5%。在具体eDNA测序数据的分析和注释中,可通过建立完善本地参考数据库、优化OTU聚类序列相似度和物种注释分类置信度(序列一致性和序列覆盖度)取值、增加目标数据的丰富度来提高注释结果的准确性,但受制于物种注释算法的局限性,物种注释错误和注释遗漏的问题可能将长期存在,物种注释正确率通常低于85%(基于COI基因的eDNA监测)。