智猩猩公开课预告:智算中心 AI Scale-Up 网络技术
11月28日19:30,「智猩猩智算集群公开课」第4期将开讲,由益思芯科技解决方案副总裁唐杰主讲,主题为《智算中心 AI Scale-Up 网络技术》。
智算集群的规模越来越大,从最初的千卡、万卡到今天的十万卡。智算集群规模飞速增长的同时,大家也开始关注如何保证超大规模的卡间高效协同,是充分发挥集群计算性能的关键。这使得人们进一步认识到,对超大规模智算集群的构建来说,智算网络已经成为与计算芯片同等甚至更重要的关键技术之一。
Scale-Out、Scale-Up是目前广受关注的两大智算网络技术。Scale-Out通过以太网或Infiniband,实现GPU之间的RDMA功能,即所谓的前端网络。Scale-Up则用于GPU之间高速互连,可以实现跨GPU的内存读写,也称后端网络。从本质上来看,Scale-Out、Scale-Up都是为了实现GPU之间内存方面的数据传输,那么二者的本质区别是什么?为什么不能将二者合而为一呢?
本次公开课,唐杰老师首先会阐述AI智算网络为何要有Scale-Up/Out之分,之后会着重讲解益思芯StarLink互联技术要解决的问题,以及StarLink实现的技术特点和在智算中心实现StarLink互联的技术路径。
关于益思芯科技
益思芯科技(上海)有限公司(简称:益思芯科技)成立于2020年7月,总部位于上海漕河泾新兴技术开发区。团队由国内外网络、存储、交换领域的核心专业人员组成,致力于为数据中心、运营商、企业及家庭提供高带宽、低延迟的互联互通的网络芯片产品,旨在成为一家具有国际竞争力,以创新引领行业发展,参与制定行业标准的高科技公司。