一种高可用集群的系统管理技术
System Management Techniques for a Highly-available Cluster System作者机构:海军驻杭州地区军事代表室杭州310012
出 版 物:《舰船电子工程》 (Ship Electronic Engineering)
年 卷 期:2010年第30卷第3期
页 面:23-26页
学科分类:08[工学] 081201[工学-计算机系统结构] 0812[工学-计算机科学与技术(可授工学、理学学位)]
摘 要:在并行和分布式计算环境中,随着系统规模的增长,系统出错的概率大大增加。为提高集群系统的可靠性和可用性,采用对称式Active/Active高可用模型的原理和组通信工具,实现了一种增强头节点作业服务可用性的高可用管理方案;针对并行计算环境的特点,利用LAM/Migration检查点迁移技术,实现了集群系统中计算节点的故障自探测、任务自恢复功能。