论文总字数:20957字
摘 要
分布式系统中,在不改变系统功能的情况下,对系统的内部结构重新调整,例如系统中节点的加入、退出以及节点上任务的启动、关闭、迁移等,导致系统物理结构或逻辑结构变化,这个过程称为系统重构。本文在深入了解和分析相关技术的基础上,设计一个重构管理系统,该系统基于数据分发服务DDS(Data Distribution Service,遵从OMG DDS规范的通信中间件)松耦合跨平台的通信方式,用于加固系统的可靠性,优化系统执行效率。该系统的重构管理过程包括三个阶段:1)资源整合阶段;2)任务部署调度阶段;3)监控容错阶段。
本文实现了一个重构管理原型系统,采用C/S架构。重构管理服务器端包括三个模块:资源感知模块、状态备份模块、重构调度管理模块;客户端包括两个模块:资源感知模块、状态备份模块。重构管理系统的服务器端和客户端之间使用数据分发服务(DDS)进行通信。本文进一步描述了重构管理过程三个阶段的实现策略,并给出一种示例性部署方案。在此方案上进行的功能和性能测试结果表明,重构管理原型系统达到了预期的设计目标。
关键词:数据分发服务,分布式系统,资源整合,任务部署调度,容错
Abstract
Without changing the functions of distributed system, re-adjusting a system's internal structure by e.g. adding, deleting nodes of the system or starting, closing, migrating tasks on nodes, will change the system physical structure or logical structure. This process is called system reconstruction. This thesis proposes a design of the Reconstruction Management System (RMS), which based on loosely-coupled cross-platform communication of DDS (Data Distribution Service, comply with OMG DDS standard communication middleware). The RMS provides the reconstruction management service for distributed system to reinforce reliability and optimize the efficiency of the system. Reconstruction process of the distributed system consists of three phases: 1) Resource integration phase; 2) Task deployment and scheduling phase; 3) System monitor and fault-tolerant phase.
This thesis introduces the implementation strategies of the three phases of RMS aforementioned and implements a RMS prototype, which using C/S architecture. The RMS server consists of three modules: resource-aware module, status-backup module, and reconstruction-management module. The RMS client consists of two modules: resource-aware module and status-backup module. The data transmission between client and server of RMS is based on DDS. Furthermore, an exemplary deployment scenario is given. The results of the functional and performance tests of the RMS in this scenario show that the RMS prototype can satisfy the desired requirements.
Keywords: DDS, Distributed system, Resource integration, Scheduling, Fault-tolerant
目 录
摘 要 I
Abstract III
目 录 V
第一章 绪论 1
1.1 引言 1
1.2 分布式系统重构管理研究现状 1
1.2.1 分布式任务调度的研究现状 1
1.2.2 分布式系统容错的研究现状 2
1.3 本文的工作 3
1.4 论文结构 3
第二章 重构管理系统技术概述 5
2.1 数据分发服务 5
2.1.1 发布订阅机制 5
2.1.2 数据分发服务架构 6
2.2 系统资源整合 6
2.3 任务部署调度 6
2.4 容错 7
2.4.1 节点容错 7
2.4.2 任务容错 7
第三章 重构管理系统设计方案 9
3.1 重构管理系统整体架构 9
3.2 资源感知模块设计 11
3.2.1 心跳包和任务信息发送频率和带宽占用比 12
3.2.2 n次未收到心跳包视为失效 12
3.3 状态备份模块设计 13
3.4 重构调度模块设计 14
3.4.1 任务部署调度模块 14
3.4.2 容错模块 15
第四章 示例性部署方案及测试结果 17
第五章 结束语 23
5.1 总结 23
5.2 展望 23
致 谢 25
参考文献 27
绪论
引言
二十一世纪以来,分布式系统由于其自治性、模块性、并行性、数据共享性以及容错性而快速发展起来,它在自动控制、国防等方面应用极为广泛[[1]],成为研究和开发的热点之一。分布式系统是由价格较低的PC机组成的集群,在成本上远低于大型机,却能在性能方面达到或超过超级计算机;但是成本低廉的PC服务器在硬件可靠性方面比大型机相去甚远,随着分布式系统规模的增大,其中节点发生失效的概率也将急剧增加,因此分布式系统需要软件来对硬件进行容错,通过软件来保证整体系统的高可靠性[[2]]。但是随着系统中各类异构资源的增加以及软件组件的扩展,分布式系统的规模不断扩大,如果只依靠系统中运行的各个软件来进行自我容错管理,由于每个软件都需要实现自身容错的功能,软件组件的功能相对冗余,各个软件组件之间功能有重叠,软件组件体积和实现难度变大,对软件开发人员的能力要求较高。另外,软件自我管理缺乏全局的视图,可能不会充分利用系统和网络资源,而且某些系统级功能无法实现。因此就迫切需要一个系统级分布式系统管理软件来解决上述难题。
系统级的管理因为存在以下优势一直受到人们的关注:1)资源整合优势。对于软件自管理而言,每个软件组件都需要保存一份系统资源列表,造成空间资源浪费,同时,资源变更时资源列表的同步更新对软件同步实现和网络等要求较高;而系统级管理软件能感知到系统中的资源,统一管理资源列表;在资源变更时能及时更新资源列表;2)调度优势。对于分布式系统中的多个处理节点,各个任务在节点上的分配方式很大程度上影响系统的性能,因为任务的调度方式不合适,可能会使系统真正的计算能力潜力未被开发出来,可能会因此抵消掉分布式带来的收益。系统管理软件能够依据配置的策略统一调度分配任务,最大化充分利用系统资源。3)容错优势。提供系统级容错方式,软件无需实现自我容错;容错方式多样,可以统一管理,对于不同的容错需求提供不同的容错方式。
剩余内容已隐藏,请支付后下载全文,论文总字数:20957字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;