
http://www.leftworld.net/wenzhang/show.php?id=541
Linux高性能集群 - 资源管理和系统管理 作者:金戈 来源: 类别:linux集群技术 日期:2004.03.24 今日/总浏览: 1/161 |
本文是Linux高性能集群系列文章的第五部分。这一部分首先介绍集群系统中的资源管理主要任务和系统管理主要任务,然后列举并比较了几种常用的资源管理软件和系统管理软件。
1 集群作业管理
从用户角度看,集群系统就似乎一台服务器或PC。很多用户能够同时使用这个系统。但是当太多的用户使用集群系统时,系统性能会变得很差。资源管理就是管理用户提交的作业,合理给各个作业分配资源从而确保充分利用集群系统计算能力并尽可能快的得到运算结果。简单的说,集群资源由实现如下几个部分: 资源管理器:为了确保分配给作业合适的资源,集群资源管理需要维护一个数据库。这个数据库记录了集群系统中各种资源的属性和状态、任何用户提交的请求和正在运行的作业。策略管理器根据这些数据和指定的调度策略生成优先级列表。资源管理器根据这个优先级列表调度作业。资源管理器还应该具备资源预留能力。这样不但能够保留强大的资源给需要的作业,而且能够预留一定的冗余资源以应付集群中的结点失效和突发的计算。 作业调度策略管理器:策略管理器根据资源管理器得到各个结点上的资源状况和系统的作业信息生成一个优先级列表。这个列表告诉资源管理器何时在哪些结点上运行哪个作业。策略管理器不但要提供一个复杂的参数集合去定义计算环境和作业,而且要为这个定义提供简捷灵活的表达方式以允许系统管理员实现策略驱动的资源调度。
2 Beowulf集群中的作业管理软件
有很多种选择去管理集群系统中的资源。其中PBS资源管理器和Maui作业调度器最适合集群系统。
2.1 PBS
PBS(Portable Batch System)是由NASA研发的灵活的批处理系统。他被用于集群系统、终极电脑和大规模并行系统。PBS主要有如下特征: 易用性:为任何的资源提供统一的接口,易于配置以满足不同系统的需求,灵活的作业调度器允许不同系统采用自己的调度策略。 移植性:符合POSIX 1003.2标准,能够用于shell和批处理等各种环境。 适配性:能够适配和各种管理策略,并提供可扩展的认证和安全模型。支持广域网上的负载的动态分发和建立在多个物理位置不同的实体上的虚拟组织。 灵活性:支持交互和批处理作业。
OpenPBS(http://www.OpenPBS.org/)是PBS的Open Source的实现。商业版本的PBS能够参照:http://www.pbspro.com/。
2.2 Maui
Maui是个高级的作业调度器。他采用积极的调度策略优化资源的利用和减少作业的响应时间。Maui的资源和负载管理允许高级的参数配置:作业优先级(Job Priority)、调度和分配(Scheduling and Allocation)、公平性和公平共享(Fairness and Fairshare)和预留策略(Reservation Policy)。Maui的QoS机制允许资源和服务的直接传递、策略解除(Policy Exemption)和指定特征的受限访问。Maui采用高级的资源预留架构能够确保精确控制资源何时、何地、被谁、怎样使用。Maui的预留架构完全支持非入侵式的元调度。
Maui的设计得益于世界最大的高性能计算中央的经验。Maui本身也提供测试工具和模拟器用于估计和调节系统性能。
Maui需要资源管理器和其配合使用。我们能够把Maui想象为PBS中的一个插入部件。
更多Maui的信息能够访问:http://www.supercluster.org
3 集群系统管理
从系统组成角度说,集群系统是由多台电脑组成的终极电脑。但是从最终用户看来,集群系统是一台电脑,也就是说,集群系统的构成对用户是透明的。所以集群系统的管理的目的就是让集群系统象一台电脑相同利于管理。归纳起来,集群系统管理一般完成如下任务:
3.1 资源管理
简单地说,资源管理就是分配系统的资源和监控系统资源的使用状态。这里的资源是个很广泛的概念,各种硬件设备、数据和程式都能够看成资源:如CPU、存储、网卡,甚至系统的事件和log。
3.2 事件服务
事件(Event)就是系统的状态的一次变化。如"CPU的利用率超过90%"就能够理解为一次事件。简单的说,事件服务就是事件通知服务,也就是当一次事件发生时,通知对这类事件感兴趣的个体这个事件发生了。事件服务能够分为Push(也称为Subscribe-Publish)和Pull方式。系统管理员还应该能够通过事件服务配置系统对事件的自动响应。
3.3 分布式命令和文档
分布式命令和文档是指让命令和文档操作同时在整个集群结点或指定的一组结点上并行执行。
分布式命令功能通常通过分布式的Shell来提供。这种Shell一般叫做dsh(distributed shell)或 psh ( parallel shell)。您能够通过rsh或ssh来实现分布式Shell。
分布式文档主要用于指集群中配置文档的同步。集群系统实际上是由多个结点组成,所以对集群系统的一个配置需要发布到每个结点(或一组结点)。比如,需要配置每个结点上的Apache都支持CGI,就需要把/etc/httpd下的配置文档发布到每个结点的/etc/httpd中。简单地说,集群系统地配置管理就是把一个或多个配置文档发布到指定的结点上。有很多开放源码的工具能够帮助完成集群系统的分布式文档功能,如rdist和cfengine。
3.4 监控和诊断
对持续运行的集群系统而言,当系统正常运行时,您需要一些工具监控系统各部分的运行状态,如系统进程、CPU利用率和内存利用率等。在普通的Unix系统上,您能够简单的用ps和top实现这些功能。但是在集群系统中,您确实需要一些特别工具,而且最好系统的监控能够支持多种网络管理协议,如SNMP和WBEM。当集群系统工作不正常时,您则需要另外一些工具来协助系统诊断。如当系统某个不服务时,您可能需要用ping诊断是不是网络出了问题。而当时多个结点服务时,您则需要并发的ping来诊断是不是网络错误。
文章整理:西部数码--专业提供域名注册、虚拟主机服务
http://www.west263.com
以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!
| | 版权所有 西部数码(www.west263.com)
CopyRight (c) 2002~2007 west263.com all right reserved.
公司地址:四川成都市万和路90号天象大厦4楼 邮编:610031
电话总机:028-86263408 86263960 86264018 86267838 86262244 86263408 售前咨询:总机转201 202 203 204 205 206 207 208 售后服务:总机转211
212 213 214 217 218 晚上0点以后拔分机225 |
| 财务咨询:总机转224
223 传真:028-86264041 财务QQ: 635483282
售前咨询QQ: 327314358 241975952 275026793 408235859 2182518 499513144 售后服务QQ: 634349278 809071471 307742704 512359778 287976517 363783715 在线咨询
《中华人民共和国增值电信业务经营许可证》编号:川B2-20030065号
|
|
|