项目介绍
澳大利亚昆士兰医学研究院(QIMR)由昆士兰州政府出资,成立于1945年,是澳大利亚最大和最成功的医学研究机构之一,并且是全球公认的一流的科研机构。
QIMR有总计有700名科学家、学生和后勤人员,成立有50个独立的实验室,包含了6个大类的研究部门:生物学、细胞和分子生物学、遗传学和计算生物学、免疫学、人口健康以及联合方案。其研究人员调查了一系列的疾病,包括癌症、哮喘、艾滋病、疟疾、子宫内膜异位症、登革热的遗传和环境因素的影响。
挑战
就像所有的研究设备一样,QIMR的科学家们需要通过访问高性能计算(HPC)资源,实现突破性的创新成果。如果没有最先进的设施,QIMR将无法支持科学家们的尖端项目或吸引最优秀的研究人员。
QIMR的首席信息官Jonathan Davies说:“根据推动生物信息学和统计分析的要求,用户通常会开始要求更多的计算能力,研究人员需要访问高性能计算集群来同时处理大量数据集合。而且很快会出现越来越多的用户请求使用类似的资源。并且我们所谈论的是这里大多数的研究部门,而不仅仅是其中的一个两个。在整个QIMR,这就是我们的科学家科研所需要的工作。”
为了满足科研的需要,QIMR需要建立一个通过作业管理系统来管理作业调度和优化吞吐量的HPC集群来为所有实验室提供共享的计算服务。
“对于作业管理系统,最重要一点就是可靠性,我们希望有一个著名的、性能优异的支持系统,让我们可以依靠它来实现我们的需求。” (图片) 解决方案
在2010年底,QIMR购买了戴尔的多核服务器和存储构建了HPC集群,通过PBS Works以方便共享为核心服务服务,为研究所的实验室提供高效计算资源。该集群由戴尔PowerEdge R815服务器和Dell PowerEdge R710服务器构成。
在选择一个作业管理系统时,QIMR评估了许多商业和开源的系统,当然很多研究机构和研究型大学都有类似的经历。QIMR的IT团队对多个系统进行了细致的分析后,包括了大量的产品功能演示,最终选择了Altair PBS Works。
PBS Works是一套包含作业调度、按需计算、HPC作业管理和分析产品。该套件的旗舰产品,PBS Professional®,是业界使用最为广泛的HPC作业管理和调度系统。
Jonathan Davies说:“PBS Professional是我们了解的经过实践检验的商业级的系统,它性能可靠,特别是在复杂的环境中,可以为大量分散在许多不同实验室的研究者提供解决方案。我们也知道我们可以从Altair找到可靠的专家对我们进行支持。”
QIMR同时希望,确保他们的群集可以容易地为研究的扩大而扩展。 “PBS Professional是这个场景的理想方案,” Jonathan Davies说,“现在有很多可扩展的作业管理系统,PBS Professional是许多世界TOP500超级计算机在使用的可以扩展到数百数千个核心作业管理系统。”
“最初的集群使用了Torque资源管理系统,但我们发现,需要大量的工作才能支持我们的团队。”Jonathan Davies说,“因此为了这套系统我们投入了大量的资源进行了系统的维护和培训。”
IT团队在2011年安装了PBS Professional,为用户提供服务;在2012年,他们把HPC集群移到一个新的专用数据中心,新的HPC提供更多的资源扩展,增强了用户操作环境,提供了更灵活的电源管理。现在的集群系统,为所有六个部门的遍布世界各地的50名科学家提供服务。PBS Professional管理不同大小和类型的各种作业,为每个研究人员提供了平衡的作业负载并确保每个人所需要的HPC计算资源可用。
结论
“每个人都得益于该系统的使用。” Jonathan Davies说,“我们的科学家现在可以提供更快、更准确的科研成果——我们同时能够处理更多的数据,并且更加迅捷。研究人员还可以做很多以前无法完成的事情,比如多次运行计算作业或使用更大的数据集合,实现其他方式无法获得的结果。这套系统带给我们的价值显而易见。”
在一个例子中,遗传学研究工作者们致力于上千基因组项目,他们希望针对大量的基因组数据来进行计算。这种类型的工作以前根本无法完成。
QIMR的科学家们已经发现PBS Professional对于提交HPC作业来说是一个易于使用且功能强大的工具。Jonathan Davies的报告指出,一组以前从来没有用过类似PBS Professional产品的用户,能够非常快速的在不到1周的时间内开始运行自己的作业,就像QIMR的资深用户一样。
“使用PBS Professional系统是非常简单的。作为一个用户,我在开始使用HPC之前感到有些害怕, PBS Professional可以很容易地运行HPC作业,并给我一些指导,我现在发现通过集群运行作业是一件非常容易的事情。” 生物统计学家Leesa Wockner说,他在QIMR/ RBWH部门的统计部门工作。
“以前,我们的科学家们在各自的工作站上运行他们的计算进程,这样可能需要几个星期才能得到他们所需要的结果,” Jonathan Davies说,“现在作业的周转时间只需几个小时或几分钟。”
即使是遗传学和计算生物学部门,他们曾经自己维护着一套Condor的集群,目前也已经切换到了PBS Professional系统进行管理。
“中央集群的最大特点是速度更快,并且研究人员有更多的可用计算资源”统计遗传学实验室研究助理Yi Lu说。
QIMR的系统管理员喜欢的是PBS Professional易于管理的作业调度系统,提供了任务和资源管理的灵活控制。
随着越来越多的研究人员了解到这套共享系统的可用性和对用户的好处,QIMR计划扩大集群的规模。
在一个例子中,系统神经科学实验室的运行MATLAB作为其心理健康研究的一部分。 “MATLAB为我们提供了一个易于使用的界面包括了GPU计算和与PBS Professional的通讯使用,使我们能够便利地从台式机转到利用的机群的资源,而无需重新编写所有的代码。”在实验室的博士生Anton Lord说,“这为我们节省了时间和精力。”
部分计算需从中央集群扩展到多个节点,需要判断用户的需求,如NVIDIA特斯拉通过Altair的系统调用中央戴尔的系统。“战略上,我们选择一个支持GPU(图形处理器)的作业管理系统,” Jonathan Davies解释。
QIMR期望PBS Works成为他们的HPC增长所选平台,为医学研究提供全球顶级的计算环境。
7/18/2014
|