放大机

演讲实录案例分享联科CHESS助力中

发布时间:2022/6/14 13:27:28   

“以前建设的集群相对独立,采用开源软件管理比较分散。现在集群使用联科自主研发的集群管理软件CHESS,通过联科专业成熟的HPC产品及服务,调整集群架构,优化资源利用和调度,提升了用户感知度,提高集群整体利用率。”

----乔培欣中科合成油信息中心高级工程师

前言

在工业、工程领域,高性能计算在仿真模拟上的实际应用不仅可以降低物理原型的实验数量和成本,还可以提高设计质量和效率,提升企业解决复杂技术难题的手段和能力,最终缩短新产品上市时间、加快新产品推出种类,增强企业在相关行业内的国内国际竞争力水平。

3月22日,联科集团联合戴尔科技集团、中科合成油在线探讨高性能计算和CAE的结合之道,分享高性能计算在模拟仿真领域的落地指南。

现梳理本次直播的演讲实录供大家参考学习,以下为分享原文:

PART01

中科合成油公司概况

首先请允许我介绍一下中科合成油:

中科合成油成立于年,主要从事国家专项课题研发、煤制油技术研发、煤制油专有设备的研制和开发等业务,与中科院山西煤化所合建,拥有两个煤炭国家重点实验室。

中科合成油是一个产、学、研一体的技术型公司,既有基础研究、煤制油技术的开发,也有催化剂、精细化学品生产,同时又有工程化设计和技术支持能力,并与国外公司合作开发和技术推广。

中科合成油依托于中科院体系,在煤化工领域深耕多年,拥有扎实的基础理论研究和分析测试能力,通过不断升级煤制油开发技术,支持煤制油工厂和催化剂工厂生产,并为煤制油技术开发和工程研究不断进行知识储备和人才输送,探索出了一套技术集成创新体系。

PART02

中科合成油集群概况

中科合成油对基础理论研究非常重视,几乎每年都会在高性能计算上进行投入。

历经十年,公司共建设11套集群、余台高性能计算服务器,使用VASP、Lammps、CP2K、Ansys等应用软件,服务于公司的基础研究和工程开发研究。

集群从最初3万亿次的计算能力提升到了现在的万亿次计算能力,计算网络速率从40GB提升到现在的GB,为量化计算和流体力学提供了高效、稳定的计算环境。

以前建设的集群相对独立,采用开源软件,管理也比较分散。现在集群使用联科自主研发的CHESS系统,通过联科专业成熟的HPC产品及服务,调整集群架构,优化资源利用和调度,提升了用户感知度,提高集群整体利用率。

集群拓扑图

原有旧集群继续保持IB网络,新集群采用OPA组网方式及分布式存储,将各集群数据进行统一管理和存储,便于日后集群扩建。

通过联通管理网络用于信息数据统计,可以极大地方便用户对数据的管理、下载。

PART03

中科合成油的CHESS使用情况

资源管理:统一管理资源,实时动态利用资源

通过CHESS系统进行资源的统一管理,将用户申请、资源分配和资源监控很好地整合在一起,通过规范用户提交作业,减少由于参数输入错误而导致作业提交失败的几率,对于新用户熟悉集群起到很大的帮助。

当然了,老用户、熟悉集群的用户,大部分都使用脚本去提交作业,这是个人喜好。

用户可以准确选择适合自己计算的队列和节点数量,并可根据排队列表显示。

我们按照总结多年的集群使用规律,制定了调度管理规则。通过CHESS系统统计用户使用机时和提交作业数量,监控每项作业从开始到结束的时间及所占用的资源使用情况,为资源分配提供基础数据,最大限度地做到提交作业的每个用户都可以进行计算。超出的作业数量将会根据使用的权重分配资源。

CHESS系统的监控功能可以监测服务器的活跃情况,集群管理员能及时发现宕机问题,轻松定位故障服务器位置,方便运维人员及时排查、解决问题。

智能调度:建立调度规则,实现智能分配系统资源

集群使用率的高低体现在对作业调度规则的制定和优化。

我们将调度规则分成四个模块,分别是评分模块、策略模块、排队模块和服务模块。

评分模块是利用历史统计数据,根据多年来用户的提交作业习惯和作业类型总结得出的。将计算节点分成多个队列,按照业务赋予不同优先级。用户提交多个作业后,首先要保证有一道题能在集群上去算,再分析此用户近期使用资源情况,对当前用户作业进行评分,评分完的作业发送给排队模块,按照策略模块规定实现任务排队。

统计分析:完善评价体系,掌握集群使用情况

我们在使用CHESS系统过程中也提出了自己的一些想法,比如建议完善CHESS系统里的业务报表内容,增加系统利用率、作业数量、平均等待时间、平均响应时间等数据。

通过这几个数据来分析和调整集群调度策略。资源紧张时,采用收紧策略;作业提交量较少时,采用适当的放松策略,这样会使集群能够高效运转,保证集群利用率基本保持在百分之八十左右。

同时在CHESS系统上也实现了这几项数据的查询和下载功能。

统计数据

每个月我们都会汇总这些数据形成报表,交给课题组负责人,使他们都能够了解各自专业的集群使用情况。当然在使用过程中,用户也可以通过CHESS系统Web端直观地、方便地随时查看集群使用情况。

三维可视化远程监控

同时,CHESS也配置和调试了远程桌面软件NiceDCV,整合异构化的高性能计算资源,提高了图形处理资源的利用效率及工作的便捷性。

CHESS系统可以监控作业资源动态使用情况,便于诊断异常,为工程设计、模拟计算程序的调试和计算资源回收提供有效依据。

以上就是CHESS系统在合成油集群实际应用中的几点总结。

PART04

成果展示

量化计算

量化计算是中科合成油基础理论研究的主要领域之一。

近年来,理论计算相关文章在Nature等国内外核心刊物发表了余篇,申请专利8件,软件著作权2件,理论研究工作得到业界认可。

作为基础支撑部分,获得年中国石油和化学工业企业联合会技术发明一等奖、年中国煤炭工业科学技术奖二等奖,以及年度中国科学十大进展等奖励。

流体力学计算

工程开发领域主要针对的是流体力学计算,通过数值模拟研究工业浆态床反应器内部复杂的多相湍动流场,考察各内构件模块的性能,实现基于计算流体力学的虚拟超大型浆态床F-T合成反应器模型的建立;指导工业浆态床反应器放大和内构件技术开发,为研发和设计人员提供工业实验无法取得的高时空分辨率的多相流场信息,缩短开发设计周期,降低开发风险。

煤制油技术的开发研究要输入高质量的科研成果,而提高科研能力离不开高性能计算。

在此要感谢联科技术人员对我们工作的支持,他们具有非常高的职业素养和技术能力。也希望联科公司的技术人员能够继续升级、优化CHESS系统,助力高性能计算的发展。

我的演讲就到此。

谢谢大家。

点击文末“阅读原文”可回看演讲视频、下载演讲PPT

相关阅读:

演讲实录

如何构建面向CAE模拟仿真的高性能计算架构?

预览时标签不可点收录于话题#个上一篇下一篇
转载请注明:http://www.aideyishus.com/lkgx/590.html
------分隔线----------------------------

热点文章

  • 没有热点文章

推荐文章

  • 没有推荐文章