近日,北京大学-腾讯协同创新实验室(以下简称:实验室)宣布,北京大学与腾讯大数据团队将联合共建Angel4.0——新一代分布式深度学习平台,面向拥有海量训练数据、超大模型参数的深度学习训练场景,为产业界带来新的大规模深度学习破局之策。
实验室成立于2017年,主要在人工智能、大数据等科研领域展开前沿探索和人才培养,由北京大学计算机系副主任崔斌教授担任实验室主任,腾讯公司副总裁、数据平台部总经理蒋杰出任副主任。
实验室打造的Angel分布式机器学习平台(https://github.com/Angel-ML),于2017年对外开源1.0版本;2018年发布2.0版本,同时正式宣布加入LF AI基金会;2019年,Angel发布3.0版本,升级为覆盖机器学习全流程的全栈平台。其后不久,Angel顺利从LF AI基金会毕业,成为国内首个从该基金会毕业的顶级开源项目。
在深度学习领域,分布式训练已成为趋势。但分布式系统设计复杂,而且目前业界常用的深度学习框架在分布式训练方面存在不足,例如混合并行扩展性不灵活、领域类模型库不丰富等,这为从业者带来了不可忽视的挑战。为此,实验室将对Angel平台进行升级,通过扩展其深度学习能力,构建能够充分兼容现有生态、具备业界领先性能、同时提供丰富功能支持的工业级分布式深度学习平台,助力AI产业化发展,推动AI普适应用。
值得提出的是,实验室自主研发了河图(Hetu)深度学习引擎,解决超大模型训练时的自动并行问题,并具备通用、高效、敏捷、灵活和可扩展等特性。
现有的分布式深