CAE 即计算机辅助工程设计。目前在航空、航天、能源动力等工业领域,利用 CAE 进行反复设计、分析、优化已成为标准的必经步骤和手段。不同的 CAE 应用程序对硬件资源例如处理器、网络和存储的要求不尽相同,曙光公司 CAE 领域的专业工程师针对目前主流的两大类应用程序详细分析了其特点,并且和国内知名 ISV 进行了大量的联合测试,再结合广大曙光用户反馈的宝贵使用经验,推出了 CAE 高性能计算平台解决方案。
自二十世纪六十年代以来 CAE 技术得到飞速发展,其原动力是不断增长的工业需求,这其中航天航空、能源动力等领域是其发展的强大的推动力。如大型复杂飞行器结构的流-固耦合计算,涉及计算空气动力学、计算燃烧学、计算传热学、计算结构力学等众多学科,目前 CAE 已成为航空、航天、能源动力等工业领域不可或缺的研究手段。
CAE 的三个步骤
第一步是建模亦即前处理,通常在工作站上进行;
第二步是求解过程,这是至关重要的一步,需要占用大量的 CPU、内存资源以及存储空间,通常是在高性能计算机上完成。这个过程涉及到的软件有 Fluent、Ansys、Nastran、Ls-Dyna 等;
第三步是后处理过程,对计算结果进行处理分析,通常也是在工作站上完成。
基于上面的分析我们可以看出,CAE 计算的核心内容是高性能计算。为了使高性能计算机系统能够更好的满足 CAE 应用软件的需求,需要对主流 CAE 软件进行深入分析。
目前主流 CAE 软件
� Fluent (供应厂商:上海飞昂公司、北京海基公司) � CFX(供应厂商:上海飞昂公司、北京安世亚太公司)
� CFD-Fastran/ACE+(供应厂商:北京 ESI 公司)
� Ansys(供应厂商:北京安世亚太公司)
� ABAQUS(供应厂商:美国 Abaqus 公司北京代表处)
� MSC Nastran(供应厂商:北京 MSC 公司北京代表处)
� LS-Dyna(供应厂商:北京 MSC 公司北京代表处、北京安世亚太公司)
� 其他商业软件
� 自编并行软件
CAE 软件的分类
CAE 应用程序基本可以分成两大类,一类是共享内存应用程序,一类是分布式内存应用程序。
共享内存应用程序:以 Ansys,Abaqus 以及 Nastran 等结构分析软件为代表,其特点为:
� 线性度不好,加速比不高,随着 CPU 数量的增加,软件的计算时间并不是线性的缩短,CPU 数量超过一定值之后,性能曲线趋于平缓。
� 单个作业对内存的需求比较大且进程间内存占用不一致。
� 单个作业对存储 I/O 的需求量非常大,对于结构类应用程序,通常在计算过程中,会产生大量的本地交换文件(Scratch),这些文件是临时存放的,但是对性能的需求非常高,对于这一块的性能优化,可以起到事半功倍的效果,否则,用户所购买的昂贵的 cpu/内存的效能都将大打折扣。
分布式内存应用程序:以 Fluent、CFX、CFD-Fastran、ACE+等 CFD 软件和 Ls-Dyna、Pam- Crash 等显示结构分析软件为代表,其特点为:
� 并行效果好,部分应用软件的单个作业,可以并行超过 128cpu。
� 在运行集群系统构架中,通常每个节点配置 2 个 CPU,每个节点配置更多的 CPU 会导致成本的大幅度提升,性价比下降。
� 对内存的需求没有共享内存类型的应用程序大,通常 1 个 cpu 配置 1-2GB 内存即可以满足应用程序的需要。
� 对本地交换硬盘性能要求不高,一般采用 73GB 10krpm 转速的 SCSI/SAS 硬盘即可。
� 部分应用程序对互联设备要求比较高,以 Fluent 为例,8 个双路计算节点时采用Infiniband 互联设备的效果会比千兆以太网好 30%左右。
曙光 CAE 高性能计算平台设计方案 (图片)
曙光 CAE 高性能计算平台方案示意图 上图为曙光提供的一个 CAE 高性能计算平台参考方案。该方案包括 6 个部分:50 节点的TC2600 刀片机群、2 台 A950r-F SMP 小型机服务器、2 台 A620r-F IO 节点、SAN 存储网络、IPSAN 存储网络以及管理节点和图形工作站区域等。该方案具有以下特点:
TC2600 刀片+A950 SMP 完美组合,满足各类应用程序需求
曙光 TC2600 刀片服务器特别适合运行 Fluent、CFX、Ls-Dyna、Pam-Crash 等分布式内存应用程序,曙光 A950 SMP 小型机则特别适合运行 Ansys,Abaqus、Nastran 等共享内存应用程序。二者有机结合,几乎可以满足所有的应用需求。
曙光刀片式服务器TC2600是为了突破计算机系统规模增加而效能降低的计算机发展瓶颈而设计推出的。它采用超高密的刀片式服务器架构,内置高效网络交换系统,减少网络延迟;超强的系统处理器扩充能力,最大可支持 20 颗 AMD Opteron 双核处理器;优秀的散热设计,突破 1U 机架服务器空间设计极限,实现了 7U 10 片的超高密系统设计;通过系统的整体设计 ,减少不必要的功耗,有效降低整体系统功耗;同时引入了人性化的设计理念,处处体现以人为本的设计思想,是易管理、易维护、高可用的新一代服务器产品。TC2600 是曙光人在服务器领域长期致力计算机技术研究的又一成功技术结晶。
整合高速网络系统设计:曙光 TC2600 刀片式服务器内部集成 20Gb/s 高速 Infiniband 交换网络,整合了全线速以太网交换机。同时可选的 IOE 扩展系统可以使用户将工业标准部件如HBA 卡、Raid 卡以及 Infiniband 网络等集成到刀片服务器系统中,而不必像购买其他品牌刀片服务器时遇到的需要花费高额费用去购买硬件厂商的专用部件。
整合 KVM Over-On-IP 系统:为减少键盘、鼠标和显示器缆线管理的困扰,曙光将 KVMSwitch 技术整合进 TC2600 服务器系统,可使 10 个子系统共享一套设备,而系统与系统间可透过单一缆线连接,可使多套 TC2600 服务器仅以一条缆线共享一套 KVM 装置,并可以通过远程管理服务器系统。
高可靠的产品设计:曙光 TC2600 刀片式服务器采用全冗余结构设计,可以极大的保障电源系统、散热系统、存储系统等的高可用性,提高了整体系统的稳定性。同时 TC2600 还提供对所有部件监控的系统管理机制,如组件的状态是否正常,操作电压是否正常,系统散热是否正常,温度是否偏高等等。
优秀的管理软件:曙光 TC2600 配备了强大的管理软件系统,并支持基于 IPMI 的远程管理,用户可以通过 RJ45 网络管理端口连接到曙光 TC2600 刀片服务器系统。如下图所示,界面显示了每个 TC2600 刀片机箱的主要部件状态情况,通过点击图标便可以查询每个部件的详细信息。(图片)
曙光 TC2600 刀片管理界面 曙光A950 SMP小型机系统基于AMD双核皓龙TM处理器,全面支持SUN Solaris、LIUNX、Windows 操作系统。AMD 皓龙 TM处理器拥有创新的直连架构设计,处理器集成了内存控制器,采用为多核时代定制的超传输(HyperTransport)技术,同时处理器内置系统请求接口和交叉开关,在保证每颗双核芯片的高性能的同时使双核芯片之间更完美的沟通和协作,能够满足大负载应用下更高的内存带宽和更高的 I/O 带宽的要求,并且能够兼容 64 位应用和大量存在的 32 位应用。
曙光 A950 SMP 小型机是基于 X86 结构的服务器,它在继承传统小型机优势的同时,有效地解决了传统小型机无法克服的弊端:
传统小型机价格昂贵,可购买的 CPU 数量有限,无法用于大规模优化设计任务;
传统小型机为 RISC 结构,和 X86 结构集群服务器属异构平台,操作系统、应用软件都无法兼容;
传统小型机和 X86 结构集群服务器上运行的作业很难实现统一调度管理;
传统小型机和 X86 结构集群服务器数据分立存储,无法统一,形成数据孤岛。
综上所述,曙光 TC2600 刀片服务器+曙光 A950 SMP 服务器均采用 X86-64 平台,属同构系统,可共享软件资源和数据存储空间,资源调度简单,节点配比可灵活调整,适应各种应用需求,能够有效降低用户总体拥有成本。
高效冗余的 IO 设计,成功突破系统 IO 瓶颈
曙光针对分布式机群环境和 SMP 计算环境设计了一整套 SAN 存储网络和 IP SAN 存储网络解决方案。
IO 节点采用 2 台 A620r-F,配置 2 颗 2000 系列双核 AMD 处理器和 16GB DDR2 内 存 ,通过配置 4Gb/s 的光纤 HBA 卡连接到 SAN 存储网络提高 IO 性能。对于 TC2600 刀片机群系统,每个计算节点通过 NFS over SDP 方式挂载(mount)两个 IO 节点的存储空间;对于两个管理登陆节点,同样通过 NFS over SDP 方式挂载(mount)两个 IO 节点的磁盘分区,并将用户分成两类后把主目录放在共享分区中以减轻文件系统压力,同样的,应用软件也分成两类安装到两个共享分区中。
对于 SMP 计算节点,由于对存储性能要求较高,最好不要采用 NFS 文件系统,而是采用直接接入 SAN 网络的方式。Nastran 等结构类计算程序安装在两台 SMP 节点上,计算中间数据和结果数据存放在本地挂载的 SAN 空间,实际作业调度时应避免跨节点执行应用程序。此外,SMP 节点还需要挂载 IO 节点 NFS 数据继承用户主目录信息。
除了核心的纯光纤存储系统外,建议配置一套 SATA 的 IP SAN 存储系统来满足外围存储需求。可以选择博科的 ISCSI 网关设备将 SAN 中的 FC-SATA 磁盘阵列接入到以太网络。以太网内的所有工作站经过授权都可以访问 IP SAN 中的数据。SATA 存储阵列可以用来存储用户归档的计算数据,较本地存储而言具有更高的系统可靠性。(图片) 优化的网络系统设计,为高速计算提供有力保障
根据上面的分析,我们建议高性能计算平台采用 20Gb/s 的 Infiniband 网络来构建,并将管理 IO 节点连入高速网络,通过采用 NFS over Infiniband 实现全部计算节点的数据共享。
曙光公司与中科院某研究所对最新版Fluent的性能进行了测试,算例网格单元为90万左右,采用湍流双方程模型和PDF燃烧模型,测试硬件为8个双路AMD双核的节点,网络为千兆网和Infiniband网络。测试结果表明千兆网环境下16CPU核心内可以保持较好的性能加速,而32CPU核心时由于传递的消息量剧增至上万个每秒,千兆网络已经无法继续提升性能,而此时Infiniband网络则可以继续保持线性加速。
曙光公司和 Qlogic 公司进行了相关性能测试,测试结果表明基于 Infiniband 的 NFS 可以大幅提高 IO 能力,尤其是并发的 IO 能力,进而可以提高计算效率。下面是曙光公司与 Qlogic 合作的 NFS 性能测试结果,可以发现 NFS over SDP 方式下具有更好的并发 IO 能力。(图片) DCAS——界面友好,功能强大的管理系统
曙光公司开发了最新的 DCAS 软件来对集群系统进行统一管理。DCAS 是曙光专为百万亿次高性能计算机系统开发集群管理套件。它采用基于 IE 浏览器的图形化方式来实现对集群的统一管理,包括系统安装部署、网络配置、作业管理、安全配置、用户管理、进程以及服务管理和交互式并行命令执行系统等,配置简单、使用方便。
高性能计算中心是一个公用计算平台,因此一个优秀的集群管理软件系统尤其是作业管理系统就显得格外重要。目前很多国内高性能计算平台选择 PlatForm LSF HPC 以及 PBSPro 等商业作业管理软件,商业软件具有管理方便、使用简单、高可用性等特点,但价格同时也较为昂贵,并且通常按照 CPU 的数目收费,随着计算中心规模的增加,其投资也同比增加。
曙光的 DCAS 管理软件包含了新一代的作业调度系统——DCJM。和 LSF、PBSPro 等国外商用作业管理软件相比,DCJM 除了同样具有较高的可用性和可管理性,可以满足绝大部分应用场合的需要外,还具有中英文两种语言可选,更符合国人的使用习惯,以及高性价比的特点。(图片)
曙光 DCAS 操作界面 以上为曙光 CAE 高性能计算平台的一个参考解决方案。针对每一个用户,曙光公司将具体分析用户的实际需求,包括计算规模、用户数量、算例大小、模型特点以及上文提到的两类程序所占的比例等等信息,在该方案的基础上进行合理修改,并进行相关细节的设计,制定出最适合用户的优化方案。
8/25/2013
|