咨询与建议

看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向天文大数据的变源识别与分类研究 收藏
面向天文大数据的变源识别与分类研究

面向天文大数据的变源识别与分类研究

作     者:乔佩云 

作者单位:广州大学 

学位级别:硕士

导师姓名:王锋

授予年度:2024年

学科分类:12[管理学] 1201[管理学-管理科学与工程(可授管理学、工学学位)] 07[理学] 070401[理学-天体物理] 0704[理学-天文学] 

主      题:机器学习 分布式计算 变源分类 数据处理 

摘      要:天文信息学是一个以计算和信息技术为基础,专注于处理、分析和理解天文学数据的交叉学科。近年来,随着天文观测项目的增加和观测设备数据采集能力的迅速提升,各个波段的天文数据量呈现爆炸性增长趋势。这使得天文信息学在“大数据时代崭露头角,成为备受关注的研究领域。在这个领域中,变源分类作为时域巡天观测的关键环节,受到广泛关注,然而,传统的人工分类方法在面对如此海量的天文数据时,已经无法满足高效处理的需求。 我国的大型科学装置,郭守敬望远镜(The Large Sky Area Multi-Object Fiber Spectroscopic Telescope,LAMOST),历经十一年的先导巡天和正式巡天,已经累积了大量低分辨率和部分中分辨率的光谱数据。然而,这些数据缺乏与变源相关的信息,制约了使用LAMOST数据进行科学研究。 本课题以LAMOST变源识别与分类为核心研究目标,基于分布式架构的数据处理方法和机器学习进行变源的识别和分类,主要工作包括以下几个方面: (1)构建可靠的变源分类样本集:机器学习模型的性能依赖于标注准确的数据集,本研究通过调研,首先将ZTF DR2周期性变源星表和ASAS-SN周期性变源星表进行交叉比对,保留相同标签的样本,以确保标签的准确性。然后和ZTF DR11交叉匹配获得这些变源的光变曲线数据并从中提取特征。光变曲线记录了天体亮度随时间变化的重要信息,对于变源分类至关重要。之后和GAIA,2MASS,ALLWISE等天文数据库交叉匹配获得精确的测光参数,并使用消光改正对测光参数进行改正,最终构建了一个包含35972个周期性变源的可靠样本集,涵盖了10个不同的变源类别。 (2)基于Slurm作业调度系统和Dask分布式并行框架加速海量天文数据处理:海量天文数据处理中,光变曲线的存储和特征计算对资源的需求极大,传统单机计算难以应对。为此,本研究结合了Slurm作业调度系统和Dask分布式并行框架。Slurm作为集群作业调度系统,动态分配和管理资源,确保计算任务顺利进行。Dask则提供了构建并行计算任务的便捷API,通过与Slurm的集成,Dask可以充分利用Slurm分配的计算资源,实现并行计算的高效执行。该集群采用负载均衡的调度策略,确保任务能够均匀分配到多个计算节点上并行执行,从而显著提升大规模数据处理和并行计算任务的效率。 (3)基于统计建模方法和机器学习进行变源的识别与分类研究:首先,运用统计建模方法对LAMOST DR9的变源进行初步识别。接着,采用GLS周期图筛选出具有显著周期性的变源,从而得到LAMOST DR9的周期性变源候选体。随后,结合随机森林、XGBoost和Light GBM三种机器学习模型,利用先前构建的变源分类样本集,搭建高效的变源分类模型。实验证明,Light GBM和XGBoost两种集成学习算法在分类任务中表现卓越,达到了94%的准确率。最后,将这两个模型应用于LAMOST恒星变源候选体星表的类别预测,并通过与已发表的周期性变源星表交叉匹配,验证了分类的准确性。最终,本研究成功为LAMOST DR9构建了一个包含176337个变源及其具体类型的星表,为后续的变源研究提供了可靠的数据支撑。总体而言,本研究成功搭建了一个可靠的变源识别和分类模型,并将其应用于LAMOST DR9数据集。由此得到的LAMOST周期性变源星表为后续数据分析和特殊天体搜寻提供了重要的数据支持。分布式计算框架的使用显著加速了数据处理过程,而机器学习方法的应用相较于传统人工识别,不仅大幅减少了人力投入,还从LAMOST中挖掘出了更多变源信息,为未来各类巡天项目中获得的大量变源数据提供了更为直接、高效的分类方式。

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分