火山引擎发布大模型训练云平台

海外网 2023-04-18 14:51:34

4月18日，火山引擎在其举办的“原动力大会”上发布自研DPU等系列云产品，并推出新版机器学习平台，持万卡级大模型训练、微秒级延迟网络，让大模型训练更稳更快。火山引擎总裁谭待表示，AI大模型有巨大潜力和创新空间，火山引擎会服务客户做好大模型，共同推动各行业的智能化升级。

“国内有数十家做大模型的企业，大多已经在火山引擎云上”，谭待认为，大模型不会一家独大。与其他云厂商力推自家大模型不同的是，火山引擎将接入多家大模型深度合作，为企业和消费者提供更丰富的AI应用。

基于内外统一的云原生基础架构，抖音等业务的空闲计算资源可极速调度给火山引擎客户使用，离线业务资源分钟级调度10万核CPU，在线业务资源也可潮汐复用，弹性计算抢占式实例的价格最高可优惠80%以上。

据悉，火山引擎机器学习平台经过抖音等海量用户业务长期打磨，支持单任务万卡级别的超大规模分布式并行训练场景。GPU弹性计算实例可灵活调度资源，随用随取，最高可以为客户节省70%的算力成本。

字节跳动副总裁杨震原表示，业务创新需要试错，试错要大胆、敏捷，但试错也一定要控制成本。通过潮汐、混部等方式，火山引擎实现资源的高利用率和极低成本。以抖音推荐系统为例，工程师用15个月的样本训练某个模型，5小时就能完成训练，成本只有5000元。火爆全网的抖音“AI绘画”特效，从启动到上线只用一周多时间，模型由一名算法工程师完成训练。

图片1.png

字节跳动副总裁杨震原

此次原动力大会上，火山引擎发布了新一代自研DPU，实现计算、存储、网络的全组件卸载，释放更多资源给业务负载。火山引擎尽管是“最年轻”的云厂商，其自研DPU已达到业界领先水平，网络性能高达5000万pps转发能力、延迟低至20us。基于自研DPU的各类计算实例性能也有显著提升，例如适用于大模型分布式并行训练场景的GPU实例，相较上一代实例集群性能最高提升3倍以上。

图片2.png

火山引擎总裁谭待

杨震原进一步表示，火山引擎对内对外提供统一的产品，抖音、今日头条等APP开屏都加上了“火山引擎提供计算服务”。杨震原说：“数字化时代，机器学习可以智能、高效地围绕目标解决问题。数字化的下一步是智能化，我们在机器学习方面的技术积累和经验，都会通过火山引擎提供给外部客户，帮助更多企业做好智能化”。

责编：姚凯红、刘素素