摘要:
容器是否能够运行HPC作业,或者说Kubernetes是否能够运行HPC作业?虽然还没有结论,但探索早已开始!
现状
容器流行之初,微服务一直是各个社区、平台 (e.g. k8s, mesos, swarm) 的主要应用场景;但随着容器技术的逐渐成熟,越来越多的用户希望将容器应用到其它领域。
特别是在Kubernetes成为主流以后,AI与大数据分别开始以Kubernetes为基础平台构建服务,例如 kubeflow, spark,并已经有多个成功的生产案例;HPC 用户也
开始了相应的探索。而且针对这些领域的系统,例如 Volcano,也得到了各个领域的广泛关注。
CERN
在2018和2019年欧洲KubeCon的Keynote上,Ricardo Rocha介绍了Kuberntes在CERN的应用情况,Ricardo更是在2019年的KubeCon现场演示70TB的数据处理;
该平台以Kubernetes为基础,构建了一个典型的批处理平台:
在社区惊呼CERN提升了Keynotes现场演示门槛的同时,CERN也向社区展示了使用Kubernetes运行HPC作业的可能性。但CERN现在的解决方案仍需改进;
该解决方案通过Kubernetes Federation扩展了Kubernetes集群的规模,但是调度层面还是依赖了传统的批处理系统 HTCondor。
在线下的交流中,CERN也表示希望可以在Kubernetes上直接运行,以减少多个平台的运维成本。
欧洲核子研究组织(法语:Conseil Européenn pour la Recherche Nucléaire;英语:European Organization for Nuclear Research,1954年9月29日- ),
通常被简称为CERN,是世界上最大型的粒子物理学实验室,也是万维网的发源地。它的内部深藏着一个升降机,整个机构位于瑞士日内瓦西部接壤法国的边境。
它成立于1954年9月29日,为科学家提供必要的工具。他们在那里研究物质如何构成和物质之间的力量。最初,欧洲核子研究组织的签字发起人只有12位,会员增加到21名成员国。
以色列是第一个也是唯一一个非欧洲成员国。《百度百科》
University of Michigan
由于时间的问题,CERN没有在Keynote中展示更多的细节。但在同一届的KubeCon上,来自密歇根大学的Bob Killen和布鲁克大学的Lindsey Tulloch分别介绍了
基于Kubernetes构建的科研平台。Lindsey Tulloch介绍了Compute Canada在使用Kubernetes的一些经验,并表示Compute Canada和CERN都希望使用
Kubernetes做为批处理系统。Bob介绍了密歇根大学的科研平台,除了传统的HPC作业之外,还包含了AI和大数据等作业;同时也希望以Kubernetes为基础构建
科研平台,用以支持 HPC, AI 和 大数据作业。
CNCF Research User Group
2018年以后,越来越多科研领域的用户希望基于Kubernetes构建统一的科研平台,因此在多轮线下讨论过后,大家建议在CNCF下创建一个面向科研领域的用户组;
用以帮助科研用户更快的使用云原生技术,例如 Kuberntes, Volcano。目前,有来自 华为,G-Research, CERN,密歇根大学等多个企业和组织参与到
CNCF Research User Group的工作中,帮助科研用户更快的使用云原生技术。
VHPC
VHPC是与ISC(International Supercomputing Conference)一起举办的workshop,旨在推广虚拟化技术在HPC领域的应用;目前已经举办14届了。
在今年(2020)的第15届会议中,加入了 Kubernetes 相关的议题。这也意味着Kubernetes也开始被HPC领域的用户接受,用于构建新一代的HPC平台。
The ISC High Performance, formerly known as the International Supercomputing Conference is a yearly conference on
supercomputing which has been held in Europe since 1986. It stands as the oldest supercomputing conference in the world.
《wikipedia》
与往年一样,今年的 VPHC 同样包含了多个议题;但今年值得注意的是新加了关于Kubernetes的多个议题,包含 HPC Orchestration (Kubernetes) 和 Kubernetes Batch。
在Kubernetes Batch中包含了以下几个关注点:
- Scheduling, job management: 作业调度与作业管理,例如 gang-scheduling, backfill, reservation等
- Execution paradigm - workflow: 面向HPC作业的工作流,例如 作业依赖
- Data management: 数据管理,例如,数据位置,缓存等
- Deployment paradigm: HPC 场景下 Kubernetes 的部署及配置
- Multi-cluster/scalability: 多集群和集群规模提升;例如,CERN对集群规模有比较高的要求
- Performance improvement: 针对HPC作业的性能提升
目前,CFP已经开放,几个关键时间点如下;可以访问 http://vhpc.org 获取详细信息,并提交议题:
- Apr 5th, 2020 - Paper submission deadline (Springer LNCS)
- Apr 26th, 2020 - Acceptance notification
- June 25th, 2020 - Workshop Day
- July 10th, 2020 - Camera-ready version due
参考
comments powered by