摘要:当前,HPC已进入P级时代,正在向着E级时代进发。HPC系统的规模不断扩大,HPC硬件系统的建设是一个涉及众多方面的浩大工程。需要有一个有效的管理平台,对整个工程建设进行有效管理。本文根据PLM在企业产品管理中的实践,提出了将PLM引入HPC硬件项目管理的一种设想。
1 引言
随着2011年6月高性能计算机(HPC)Top500的发布,Top500的前13名的峰值性能全部达到P级,前10名的实测峰值性能全部达到P级。在Top10中,最少CPU核心数为73278个,最多为548352个。纵观Top500中HPC,随着性能的提升,其硬件资源规模也在不断增加。构建一套大规模的HPC硬件系统,需要由多个部门经过长时间的协同工作才能完成,是一个涉及多方面的系统工程。对于这个工程,必须采取更有效率和质量的管理方法,才能保证项目有序、按计划、保质量的完成。产品生命周期管理(Product Lifecycle Management,PLM)是在20世纪80年代提出的,它始于制造业,其应用从最初的产品保障方案,迅速扩展到质量管理控制领域,在实体制造业中取得良好的效果。基于PLM的实质,本文尝试将其思想和方法引入应用到HPC硬件项目管理中。
2 HPC项目管理中面临的问题
HPC系统的硬件资源规模巨大,种类繁多。构建HPC硬件系统是一个复杂的系统工程,涉及机房建设和布局、供电、冷却、机仓结构组装、印制板设计生产、网络布局布线、运算节点、网络节点、服务节点、维护系统、监控系统等多个方面。在HPC硬件系统的设计、生产、调试、组装、部署、联调等一系列过程中,需要多个部门按部就班地协同工作,共同管理,才能最终实现HPC硬件系统的构建。在整个过程中,如何整合、管理由多个部门建设的硬件资源,面临着一系列的管理问题。
1)不同部门之间的协调
一套HPC系统的构建,一般是以某一个研究机构为主体,多个相关单位和外协单位配合共同完成的。在主体研究机构中,也有多个部门参与到项目的建设中。在这些部门中,如何协调任务的划分、人员的安排、进度的检查、相互之间的接口协议、联合调试等,是一个系统性的管理工程。
2)工作流的管理
一套HPC系统从项目预研、需求分析、方案设计,到机房建设、硬件设计、器件采购、设备生产、硬件调试,再到批量生产、组装、联调,一般要经历2到5年。为了保证项目的顺利实施,必须制定一个详尽的工作计划和流程,设定重要的里程碑节点和检查节点。在这个漫长的过程中,可能面临多种变数导致项目计划更改,如设计问题、资金问题、器材问题、生产问题或设备和技术的更新换代问题等。如何在多个部门参与的情况下,对工作流进行统筹安排管理,也是一个系统难题。
3)硬件设备创建流程管理
在HPC系统构建过程中,需要设计制造多种设备,如结构框架定制、冷却设备定制、芯片流片和封装、印制板生产等。所有这些设备的创建流程可能包括实验、改进、定型、批量四个阶段,改进阶段可能为0次或多次。对硬件设备整个创建流程,也需要统一的管理。
4)设备和器材的管理
HPC项目中,需要购买大量的设备和器材,对设备和器材选型、供应商选定、申购流程、审批权限、到货周期、设备和器材检验、存放等问题,需要纳入统一的管理流程。
5)硬件资源运行时管理
HPC系统的硬件资源种类繁多,功能不一,在系统运行阶段发生故障的概率也不一样。在对硬件资源进行运行管理时,需要根据不同资源的故障情况和影响程序,采用不同的动态管理策略。比如结构框架定型安装后,基本不会发生故障,可不纳入动态管理范畴;而电源系统、冷却系统、运算系统、网络系统、服务节点、维护系统、机房环境等可能发生故障或影响系统运行的异常状态,需要实时监测、记录这些资源发生的异常状况。对于需要运行时管理的资源,不同资源的管理要求也不尽相同,比如电源机柜、空调、冷却设备等不易移动的资源,仅需管理发生故障的位置、时间、现象、解决方法等信息即可,而对于运算节点、计算网络等可更换位置的核心资源,需要管理发生故障的资源的身份、位置、时间、现象、现场、运行课题、解决方法等信息,确保不论这些资源位于什么位置,都能跟踪记录其整个运行周期内的生命状态。
6)软硬件资源的关联管理
构建HPC硬件资源是为了建立软件运行环境以而达到提供高性能并行计算能力的目的。软件系统的正确运行,首先必须明确哪些计算资源在位并且可用,其次明了这些可用的资源运行状态是否正确。因此,硬件资源管理必须为软件系统提供相关资源的状态。另外,软件使用过程中,可能会将出现故障的硬件资源从软件可用资源队列中剔除,硬件资源管理对这些故障资源需要及时定位、维修处理。对于庞大的HPC系统资源,为了实现资源管理的自动化,必须为软硬件资源管理建立密切的关联。
3 PLM理念在HPC硬件项目中的应用设想
3.1 PLM简介
PLM是一种将管理产品贯穿到其生命周期中的每一个操作过程中的信息的方法,是对从产品需求开始,到产品淘汰报废的过程管理。PLM是以产品数据集为基础在其生命周期内从产品规划、设计、制造到销售等过程的管理与协同研究。它实施一整套的业务解决方案,将人、过程和信息有效地集成在一起,作用于整个企业,遍历产品从概念到报废的全生命周期,支持与产品相关的协作研发、管理、分发和使用产品定义信息。PLM也是PDM(Product Data Management)的深化和发展,包括了PDM的全部内容,但PLM更强调对产品生命周期内跨越供应链的所有信息进行管理。
PLM的实现途径:需要一批工具和技术支持,并需要企业建立起一个信息基础框架来支持其实施和运行。目前比较成熟的PLM集成软件供应商,国外有Siemens PLM Software、PTC、UGS、IBM等,国内有英泰、XTPDM、CAXD、用友等。
据一些世界知名的咨询公司的分析报告显示,发达国家的制造业企业在IT应用系统上增长最快的是PLM。Aberdeen公司预测全球PLM市场将以每年10.9%的高速增长率,企业全面实施PLM后,可节省5%~10%的直接材料成本,提高库存流转率20%~40%,降低开发成本10%~20%,进入市场时间加快15%~50%,降低用于质量保证方面的费用15%~20%,降低制造成本10%,提高生产率25%~60%。
3.2 PLM在HPC硬件项目中应用设想
随着PLM在企业的应用推广,其提供的可满足产品生命周期具体需求的功能也越来越多,如配置管理、工程变更管理、文档管理等,现在都己成为PLM的标准功能。目前PLM在企业,特别是制造企业中取得了很多成功的案例,但在HPC项目管理上尚未见相关案例报道。经分析PLM实现的功能,应该同样适用于HPC硬件项目的开发管理,以解决HPC硬件项目管理上的难题。
1)项目管理和产品协同
项目管理功能可管理项目的计划、执行和控制等活动,以及与这些活动相关的资源,并将它们与产品数据和流程关联在一起,最终达到项目的进度、成本和质量的管理。
产品协同提供一类基于Internet/Intranet的软件和服务,能让产品价值链上每个环节的每个相关人员不论在任何时候、任何地点都能够协同地对产品进行开发、制造和管理。PLM的工作流管理可实现:
整个产品生命周期系统过程不同阶段任务的基本属性以及执行顺序的定义,并通过设定任务的类别以及各个任务执行的具体要求和己知条件,通过Mail、电话、短信等通知方式提供任务的流转提醒和控制。
实现产品整个生命周期的组织和人员的定义,包括过程、任务对应的相关组织和执行人员等。
提供协同过程的流程管理和任务监控的可视化平台。
以上功能不仅可以为分布在不同地区、不同部门的HPC设计相关人员提供一个协同工作环境,使产品协同工作过程真正落实在有序、高效、科学的管理轨道上;而且还提供了产品生命周期过程的组织、质量、进度、成本和产品等各种动态信息管理工具,可实现产品计划管理、硬件设备创建流程管理和设备及器材的管理。
2)工作台
将完成特定任务必须的所有功能和工具集成到一个界面下,使最终用户可以在一个统一的环境中完成诸如设计协同、数据样机、设计评阅和仿真等工作。此功能可用来统一管理HPC系统设计数据,联调各部门实现的不同分项任务,完成系统集成。
3)变更管理
使数据的修订过程可以被跟踪和管理,提供一个打包的方案来管理变更请求、变更通知、变更策略,最后到变更的执行和跟踪等一整套方案。此功能可跟踪记录HPC设计过程中一切计划、设计、器材、生产等一系列的变更情况。
4)文档管理
提供图档、文档、实体模型安全存取、版本发布、自动迁移、归档、签审过程中的格式转换、浏览、圈阅和标注,以及全文检索、打印、邮戳管理、网络发布等一套完整的管理方案,并提供多语言和多媒体的支持。本功能实现由HPC系统不同设计部门独立或联合撰写的方案、接口协议、程序等文档和资料的有效管理。
5)信息系统管理
PLM不仅可以有效地控制与产品相关的各项工作流程,还可以集成各种信息管理系统,实现信息共享和过程集成。在PLM平台下开展HPC硬件资源管理,不仅可以有效地控制系统硬件建设部署流程,还可以实现对HPC运行时的硬件资源管理、软硬件资源关联管理以及资源的维护管理,主要分以下四个环节实现:
在PLM平台下配置硬件资源管理环境;
建立基于产品结构树的系统硬件信息主模型;
自主研发的硬件资源管理工具与PLM平台的集成,以扩充现有PLM管理平台在HPC资源管理方面的功能;
基于PLM项目协同和工作流管理实现软硬件资源的关联管理和控制设备故障分析、维修流程。
4 结束语
本文简要描述了HPC硬件项目设计过程中面临的一些管理问题,根据PLM在企业产品全寿命周期管理中发挥的巨大作用,借鉴PLM的理念,提出了将PLM引入HPC硬件项目管理的设想。当然,由于HPC在一个国家经济、军事甚至是政治上的特殊地位以及PLM在企业的应用现状,现行的PLM实现方案可能无法完全解决HPC硬件建设过程中遇到的所有问题。一方面要灵活配置、运用PLM工具以适应HPC建设的运作流程,另一方面要开发出专用的管理工具与PLM平台集成,以完成综合的管理任务。
7/23/2012
|