手机站
网通分站
电信主站
密 码:
用户名:
当前位置 : 主页>网站运营>建站经验>列表

Linux高性能集群 - 资源管理和系统管理

来源:互联网 作者:west263.com 时间:2008-04-16
西部数码-全国虚拟主机10强!40余项虚拟主机管理功能,全国领先!双线多线虚拟主机南北访问畅通无阻!免费赠送企业邮局,.CN域名,自助建站480元起,免费试用7天,满意再付款! P4主机租用799元/月.月付免压金!

3.5 硬件控制

PC机上很简单的管理功能对于集群系统而言可能会很难做到。比如让一组结点重启,就很难手工完成。所以集群系统需要一些特别的硬件设备完成这些功能。下面是几个需要硬件支持特别管理功能:
远程电源管理:主要是远程关闭、打开和重启结点和查询结点电源状态。在IBM eServer Cluster 1300中采用ASM。
远程控制台:当远程结点出现问题或出现一些特别的软件需要时,需要直接登录到结点上完成操作。KVM Switch能够满足这种需求,但是当结点很多时,KVM Switch就会很复杂。而且KVM Switch需要手工转换,不能通过软件方法使用。Terminal Server克服了KVM Switch的缺点。Terminal Server和结点的串口相连,并把串口虚拟成管理结点上终端设备,当然这需要对结点的操作系统做些相应的配置。

3.6 系统安装

集群系统的安装主要是指在各个结点上安装操作系统、文档系统、并行程式运行库、作业管理软件和系统管理软件等。他是集群系统投入应用的前提,所以集群系统的安装是一件很重要的任务。一般集群系统由几十台,甚至上百上千台电脑组成,显然手工安装系统几乎是不可能的。一般集群系统的安装的机制是:
网络启动:配置需要的安装的结点网络启动,然后管理结点远程重启需要安装的结点。网络启动的结点启动后从启动服务器获得一个小的操作系统内核。网络启动一般采用Intel的PXE(Pre-Execution Environment)标准。 PXELinux是支持PXE的网络启动服务器。他能够在网络启动的结点启动一个小的Linux核心并运行指定的Init程式。由Init程式负责后续的安装。
网络安装:这个操作系统内核负责从安装服务器(通常是个文档服务器)上取得安装软件包或系统映像并在本地实施系统安装。有多种Linux工具能够完成基于网络的系统安装。这些工具中的典型代表是:KickStart、ALICE (Automatic Linux Installation and Configuration Environment)、SIS(System Install Suite)和PartImage。这些工具能够分为如下几类:
a. 基于Script的安装:这种安装方式中,安装过程由安装脚本(Script)控制,能够通过修改安装脚本来配置安装过程。这种安装方式中,安装服务器实际上是个文档服务器,他向结点提供要安装的软件包。除了软件包不是来自本地外,这种安装方法和本地安装并没有太大的区别,本地安装的各个步骤(配置硬件、安装软件包、配置系统等)他都要经过。KickStart属于这中安装方法。基于Script的安装比较灵活,但是他是操作系统依赖型的。象KickStart只支持Redhat Linux。
b. 基于Imaging的安装:和基于Script的安装不同,基于Imaging的安装并无需经过本地安装的各个步骤。他只需要把存储在文档服务上的需要安装的系统映象(Image)拷贝到本地的硬盘上。这个系统映象来源于一个已安装和配置好的样机。Imaging的安装方式是单独于操作系统,但是他依赖于网络启动的操作系统内核支持的文档系统。Imaging的很大缺点是很难提供单独于操作系统的配置方法。PartImage属于Imaging安装方法。而SIS是Script和Imaging混合型的安装方式。SIS利用Linux的chroot命令在安装服务器的一个文档目录下安装一个虚拟的操作系统映象。同时SIS支持用户提供Shell脚本完成安装后的配置。
c. 基于Cloning的安装:和Imaging安装方式相同的是,Cloning安装也采用系统映象。但是Cloning中的系统映象是样机上硬盘分区的Clone。因此,Cloning安装无需识别系统映像中的文档系统类型。所以他是单独于文档系统的,他只依赖于操作系统内核支持的硬盘设备类型(IDE或SCSI)。和Imaging相同,Cloning的很大缺点是很难提供单独于操作系统的配置方法。而且相对于Imaging而言,Cloning效率更低。您能够简单的用dd命令实现Clone。

下表归纳了几种安装工具的特点:
安装工具 安装方法 支持的系统 支持的网络协议
KickStart Script Redhat Linux NFS、FTP
SIS Script和Imaging混合 Redhat Linux
SuSE Linux
Turbo Linux
… rsync
PartImage Imaging EXT2、FAT、NTFS、HPFS… 私有协议

3.7 域管理

您能够简单的把集群系统的域管理理解为结点管理,他主要包括如下简单的功能:
加入、删除和列举集群系统中的结点
对集群中的结点分组

实际上,我们也把作业管理纳入集群系统管理的任务。但是相对于其他系统管理任务而言,作业管理在集群系统中具备更重要的作用,而且通常的集群系统管理软件也不直接实现作业管理功能。所以我们把作业管理作为集群系统一个重要的软件部分,而不是集群系统管理的一项任务。

4 几种集群系统管理软件

集群系统管理软件和集群系统相同形形色色、多种多样。下面简要介绍几种集群系统管理软件并比较他们实现的功能。

4.1 IBM CSM

IBM CSM(Cluster Systems Management )是IBM eServer Cluster 1300上的系统管理软件。IBM的Linux集群战略的一部分就是把运行在RS/6000 SP平台上的PSSP软件移植到基于xSeries的Linux集群系统上。CSM大部分功能来源于SP平台,但是他也整合了WebSM 2000、xSeries、开放源码工具和其他技术。CSM是一款功能很全面的管理工具,而且还在不断的发展中。

4.2 XCAT

XCAT是用于IBM eServer Cluster 1300上的系统管理软件。他由Egan Ford研发。他基本上是由shell脚本写成,相当简捷。但是他实现了集群系统管理大部分的内容,是个很出色的管理软件。

4.3 Mon

Mon在Linux平台上研发,但是也以运行在Solaris上而出名。Mon的服务器和客户都是基于perl研发的,所以很容易移植到其他UNIX和类UNIX平台。

下表比较了以上三种集群系统管理软件:
项目 CSM XCAT Mon
支持的集群系统 IBM eServer Cluster 1300 IBM eServer Cluster 1300 不特定于某个集群系统
支持的操作系统 Redhat、SuSE Redhat,结点能够采用Imaging和Cloning安装其他操作系统,甚至于Windows 在Linux上研发,但是以运行在Solaris而著名。很容易移植到其他Unix和非Unix操作系统上
资源管理 提供统一的、可扩展的,全面的资源管理,但是由于强大而使用起来很复杂。 基本没有 基本没有
事件服务 提供事件订阅发布机制,并预先定义了很多系统事件和对事件的响应 将来会于Mon集成以完成事件服务 支持
配置管理 支持 无 无
监控和诊断 支持分布式Shell(dsh)、支持SNMP 支持并发Shell(psh)、并发ping(pping) 支持SNMP
硬件控制 远程电源管理(rpower)远程控制台(rconsole) 远程电源管理(rpower) 远程控制台(rcon、wcon) 无
系统安装 支持KickStart和SIS 支持PXE 支持KickStart、Imaging和Cloning 支持PXE和etherboot 无
域管理 全面 基本没有 基本没有
集成性 除了必须的开放源码软件包,不和任何其他软件集成。但是底层资源管理和事件服务提供编程接口,集成很方便。上层能够通过命令调用集成。 自动安装PBS、Maui、Myrinet和MPI。将来会支持 SgridEngine Scheduler 基本没有,应该能够通过命令行集成
易用性 提供强大命令行工具和简单的GUI工具 命令行工具,将来会和Ganglia集成提供一定的GUI 提供命令行和基于Web的工具

文章整理:西部数码--专业提供域名注册虚拟主机服务
http://www.west263.com
以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!