海参养殖水质关键因子监测与预测研究
作者单位:大连海洋大学
学位级别:硕士
导师姓名:魏海峰
授予年度:2024年
学科分类:090801[农学-水产养殖] 0908[农学-水产] 09[农学]
摘 要:随着养殖技术的不断发展,各国对养殖水质环境的研究日益深入。养殖过程中水质的优劣直接关系到企业的产量和质量。其中,水质中的氨氮、亚硝酸盐和硝酸盐是最关键的三个参数。但由于三氮含量极低,实现在线精准测量十分困难。因此,如何利用易测参数辅助三氮的精准估算成为当前需要解决的难题。本文以海参循环水养殖水质中的三氮含量为研究对象,采用数据预处理、机器学习和集成学习等技术对其进行研究。针对获取养殖水质数据易丢失和不完备的问题,本课题组自主研发设计了基于可编程逻辑控制器(Programmable Logic Controller,PLC)与组态王软件的实验室养殖水质监测系统,以海参为养殖对象,设计了多传感器、多水箱的循环水养殖系统,实现了温度、盐度、p H等5个参数的数据采集,手动采集三氮数据。对采集到的水质数据进行因子分析,确定养殖水质参数之间存在强相关性,为预测模型的数据选择奠定了基础。针对养殖用水中氨氮、亚硝酸盐、硝酸盐含量呈现的非线性波动与多重因素共同作用的情况,本研究设计了一套混合型时间序列分析模型。该模型融合了无参数回归法与误差修正机制,应用广义加性模型(Generalized Additional Model,GAM)对养殖水质数据进行初步预测,随后利用长短期记忆网络(Long Short-Term Memory,LSTM)对初步预测值的偏差进行校正。为了提高预测模型的准确度,还对输入的水质数据应用了主成分分析技术进行降维。选择水温、盐度、p H值及溶解氧等环境变量作为模型的辅助输入,与实际测定的水中三氮数据相结合,以精准预测养殖水域内的三氮含量水平。结果表明:提出的PCA-GAM-LSTM相比单一模型和未经数据降维的模型,预测效果较好。在与BP神经网络、随机森林(Random Forest,RF)、门控神经网络(Gated Recurrent Unit,GRU)等其他模型的对比测试中,证实了本模型在预测效果上具有更为优越的表现。为了增强单一预测模型的准确性,采用了集成学习中的叠加算法(Stacking),并结合k-折交叉验证技术,对BP神经网络、随机森林(Random Forest,RF)、长短期记忆网络(Long Short-Term Memory,LSTM)以及门控循环单元(Gated Recurrent Unit,GRU)等不同算法进行整合作为模型的初级学习器,并通过比较两种算法:逻辑回归(Logistic Regression,LR)和岭回归(Ridge Regression,RR),以选择出一个最适合的次级学习器。结果表明:LR算法更适合作为Stacking集成模型的次级学习器,且Stacking-LR集成模型在预测养殖水质三氮上可有效降低误差,预测结果更加准确。为了验证海参养殖水质预测模型的可行性,本实验对大连某海参养殖企业近几年的养殖水质进行实地监测,并对苗室和外海养两个养殖点位所收集的数据进行分析和预测。结果表明:Stacking-LR集成模型的三项评价指标均方根误差(RMSE)、最大绝对误差(MAE)和平均绝对百分比误差(MAPE)均优于其他模型,进一步验证了所提Stacking-LR集成模型在预测时的有效性与精确性,且能对不同养殖环境中三氮浓度进行预测,水产养殖水体的监测和评估对于养殖活动具有重要的意义。