
百度百舸·AI 异构计算平台
文章平均质量分 86
百度智能云技术站
云智一体
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
具身智能竞速时刻,百度百舸提供全栈加速方案
百度百舸·AI异构计算平台,基于「极致训推加速 + 一站式开发平台 + 全栈工具链」的综合能力体系,为具身智能企业提供从研发到部署的全周期加速支持,旨在全面提升视觉语言模型 VLM、世界模型 WM、视觉语言动作模型 VLA 等各类模型的训练与迭代效率。原创 2025-08-12 14:56:01 · 767 阅读 · 0 评论 -
GPT OSS 双模型上线,百度百舸全面支持快速部署
百度百舸·AI 异构计算平台,是面向大模型训推一体化的基础设施,提供领先的 AI 工程加速能力,从资源准备、模型开发、模型训练到模型部署,为 AI 工程全周期提供丰富特性和极致易用体验。原创 2025-08-08 16:33:48 · 620 阅读 · 0 评论 -
昆仑芯超节点创新设计:1U 4 卡高密算力,无缝适配各类机房环境
在百度天池 AI 高密液冷整机柜的支撑下,昆仑芯超节点支持 1U 4 卡的超高密度算力交付形式,单节点一个人即可轻松维护。计算节点的核心芯片的温度可以降低 20℃ 以上,为 XPU 提供稳定的运行环境。能够适应各种机房的供电环境,并支持在风冷机房部署交付。原创 2025-05-23 14:57:39 · 1058 阅读 · 0 评论 -
PD 分离推理的加速大招,百度智能云网络基础设施和通信组件的优化实践
百度智能云在大规模 PD 分离式推理基础设施优化的实践中,充分展现了网络基础设施、通信组件与上层业务特征深度融合的重要性。这种融合不仅是技术层面的创新,更是对实际业务需求的深刻理解和响应。原创 2025-05-16 15:47:58 · 1172 阅读 · 0 评论 -
Qwen3 系列全家桶,百度百舸一键部署
目前,百度百舸平台已经同步支持 Qwen3 系列全家桶的一键部署,为企业提供一站式 AI 服务,实现大模型落地「快稳省」的要求。原创 2025-04-30 11:15:10 · 338 阅读 · 0 评论 -
RapidFS 为昆仑芯 3 万卡集群加速,国产化平台 TiB 级吞吐让数据随叫随到
在 70 个 RapidFS 存储节点提供加速的情况下,100 个计算节点并发加载 10 GiB 的文件仅需 1 秒,让数据随叫随到。原创 2025-04-25 12:41:49 · 762 阅读 · 0 评论 -
百度百舸万卡集群的训练稳定性系统设计和实践
站在现在的时间点回望,AI 训练稳定性已从辅助功能演变为核心基础设施。原创 2025-03-10 20:09:53 · 866 阅读 · 0 评论 -
GPU 云服务器的软件系统设计和实践
我们在设计 GPU 云服务器时,需要综合考虑上面 GPU 数据处理链路的每一个环节,然后结合业务特点和使用成本,进行 GPU 云服务器的设计。原创 2025-03-03 19:47:39 · 968 阅读 · 0 评论 -
百度百舸 DeepSeek 企业套件上线,加速 DeepSeek 融入企业生产业务
点击「文件上传」上传本地文件。快速部署只是企业落地 DeepSeek 的第一步,真正将 DeepSeek 投入实际业务中,还需要在这个基础上进行扩展功能的开发和系统对接,如联网搜索、文件上传解析、对接知识库、内容审核等,才能让 DeepSeek 真正地在业务中发挥价值。访问百度百舸页面,在工具市场的工具模版中,选择「DeepSeek-R1(FP8)」镜像,点击「部署工具」按钮,快速部署 DeepSeek-R1。完成配置后点击确认,当「工具实例」状态从「创建中」变为「运行中」,表明工具已部署成功。原创 2025-02-28 11:12:21 · 706 阅读 · 0 评论 -
如何在百度百舸部署满血版 DeepSeek-V3、DeepSeek-R1 模型
百度百舸·AI 异构计算平台已支持快速部署 DeepSeek V3、R1 及其蒸馏的 Llama、Qwen 等小规模 dense 模型。原创 2025-02-07 13:41:54 · 358 阅读 · 0 评论 -
0 Token 间间隔 100% GPU 利用率,百度百舸 AIAK 大模型推理引擎极限优化 TPS
优化推理引擎的终极目标其实就是,极限提升前向推理的吞吐,同时极限压缩 Token 间间隔,最终提高极限出字率。原创 2025-01-07 17:46:55 · 1455 阅读 · 0 评论 -
如何定量分析 Llama 3,大模型系统工程师视角的 Transformer 架构
Llama 3 技术博客说 70B 模型、最长序列 8K、15T Tokens,训练了 640w GPU 时,这发挥了 H100 理论算力(989TFlops)的百分之多少?原创 2024-07-25 15:01:52 · 1332 阅读 · 0 评论 -
彻底解决大模型训练集群的网络哈希冲突,百度百舸的高性能网络 HPN 落地实践
百度百舸的 95% 物理网络「带宽有效性」原来是这样做到的原创 2024-07-03 19:20:40 · 1341 阅读 · 0 评论 -
百度百舸 AIAK-LLM 的大模型训练和推理加速实践
具体的原理是先通过一个用相同数据集训练好的小模型来生成多个位置的 token,然后再经过原始的大模型并发的进行各 token 的计算,来选择每个位置正确的 token(不正确的会丢弃掉),decoder 阶段的 MFU 会有比较大的提升,这样在一次计算中即可产出多个位置的 token。当前大家做模型研发都离不开一个社区 Hugging Face,大家的模型是从 Hugging Face 来的,早期的代码也是 Hugging Face 的,我们这种专有的加速工具对于早期客户来说往往遇到切换成本高的问题。原创 2024-05-15 13:41:30 · 1040 阅读 · 0 评论 -
一次性讲明白,百度百舸如何搞定一个可以支持多芯混合训练的 AI 集群
我们这里总结一下,为了建设一个能够高效训练大模型的集群,需要在卡间和机间建立高效的互联互通,将大模型训练任务按照合适的并行策略拆分到 GPU 卡中,最后通过各种优化方法,加速 GPU 对算子的计算效率,完成大模型训练。的大方针后,还需要解决的就是具体怎么分,分多少的问题,确定分布式并行策略的最优解。如果还要在 GPU 集群中再加上其他类型的 AI 芯片,他们各自讲着不同的语言,拥有完全不同的能力,让他们像同一种芯片组成的集群一样,实现多芯混合训练,加速单一大模型训练任务,那真是复杂到头了。原创 2024-04-24 20:27:22 · 1176 阅读 · 0 评论 -
专为大模型训练优化,百度集合通信库 BCCL 万卡集群快速定位故障
当上层应用程序在某一多 GPU 的集合通信操作中 hang 时,应用程序也只能感知到某个集合通信组(故障 comm)出现了问题,却无法精确地判断是哪个 GPU 导致了此次集合通信的异常。在百度集团内部排查此类问题时,首先停止线上的训练任务,然后进行长时间的压测,比如对于现有训练任务模型进行切分,对集群机器进行分批次压测,不断缩小故障范围,从而确认故障机。为了最大提升集合通信的性能,在基础设施层面,集群通常采用基于 RDMA 的高性能物理网络,在任务运行时使用集合通信库进行加速。原创 2024-03-01 13:26:12 · 1606 阅读 · 0 评论 -
高性能网络建设指南,《智算中心网络架构白皮书》开放下载
白皮书创作团队由负责和参与了高性能网络落地的一线专家组成,内容覆盖了高性能网络建设的各个方面,比如 RoCE 和 IB 的详细技术对比、不同规模集群的架构选择、云平台上的可视化运维工具建设、多租户的运营方案设计等,为 CTO 和技术负责人提供全流程指导,让复杂的高性能网络建设变得简单。高性能网络的成功落地,可以确保大模型用最短的时间训练出来,并节省大量费用。如果能够借鉴业界领先的技术积累和成熟的项目经验,并参考其他用户的实践经验,将使得自己快速落地的高性能网络变得不那么困难,以上问题都能够轻松解决。原创 2024-01-29 10:04:32 · 1541 阅读 · 0 评论 -
百度百舸平台的大模型训练最佳实践
基于一些公开数据,像 GPT-4 这类千亿级别的大模型需要数万张 GPU 并行训练,当然还有配套的分布式存储和高速网络,这么复杂的系统可以平稳运行本身就是一个挑战,同时如何在故障发生时能快速精准定位,可以更快速的恢复,都是需要解决的核心问题。大模型参数多计算量大,听起来似乎和敏捷并没有太大关联,但是基于刚才介绍的大模型训练新范式,一方面模型本身的设计成本更低,另外一方面整个行业都在高速迭代中,所以需要基础设施具备快速构建能力,同时有比较低的学习成本,可以快速和开源生态对接,利用开源生态已有的能力。原创 2024-01-27 09:34:54 · 2571 阅读 · 0 评论 -
LMOps 工具链与千帆大模型平台
深度学习和生成式大模型之间的关系,如下图右侧所示,在 2012 年至 2016 年左右,像卷积神经网络、对抗生成网络、ResNet 等经典的深度学习模型,已经在计算视觉、语音识别、自然语言处理等领域取得了显著的效果提升。其中很重要的一点,就是如果能提供一些示例,也称为 few shot,那么大语言模型的输出的效果会显著的有一个提升,最后再加上这次输入的 Query。如下图所示,在过去是一个模型去完成一类特定的任务(如:人脸识别、卡证识别、多轮的对话等),需要通过训练不同的模型、使用不同的数据才能完成。原创 2024-01-27 09:31:43 · 974 阅读 · 0 评论 -
⻜桨⼤模型推理部署⾼性能优化
在服务部署上,除了推理时延优化外,还可以针对服务吞吐进行优化,增加 batch size 是常见的优化吞吐的方式,从表中可以看到,增大 batch size,虽然推理时延也会增加,但是 QPS 却能显著提升,但是大模型的显存占用大,增大 batch size 依赖对显存进行优化,其实上面介绍的时延优化方法中,融合和量化均能在优化时延的同时节省显存,同时也可以通过框架显存管理和多层 Transformer显存复用等方式进一步优化显存,从而开启更大的 batch size,提升推理并发度,实现吞吐提升。原创 2024-01-27 09:26:35 · 901 阅读 · 0 评论 -
飞桨大模型分布式训练技术
今天我为大家介绍飞桨大模型分布式训练技术,内容分为以下几个部分:首先,我会介绍大模型训练面临的重点难题;然后,为大家介绍飞桨在大模型训练领域的特色分布式训练技术和优化方案;最后,伴随着代码示例和大模型套件,为大家展示如何使用飞桨框架训练大模型。1. 背景与挑战近年来,大模型由于良好的模型效果和广阔的应用前景,逐渐受到业界的广泛重视。主流的 AI 科技公司也站在了大模型研究的前沿,模型参数量的规模呈现快速增长的趋势。从 2018 年 1 亿参数规模的模型增长至今已达千亿参数量规模。大模原创 2024-01-27 09:17:57 · 1563 阅读 · 0 评论 -
向量检索在大模型应用场景的技术和实践
通过 k-means 算法将向量的聚类中心提取出来,那这个向量所处的聚类中心就是这个向量的关键词,用这个来建立倒排索引,就可以像搜索引擎一样,先命中聚类中心,再暴力搜索聚类中心下面的各个向量,这样相比全局搜索能过滤大量的数据。我们考核算法的效果,主要看两个指标,一是性能,也就是查询的耗时以及能承受的 QPS;通过深度学习的训练,可以将真实世界数字化后的离散特征提取出来,投影到数学空间上,成为一个数学意义上的向量,同时很神奇的保留着通过向量之间的距离表示语义相似度的能力,这就是 embedding 的效果。原创 2024-01-26 11:26:25 · 1094 阅读 · 1 评论 -
面向大模型的存储加速方案设计和实践
这个方案最大的变化,就是对 checkpoint 文件的 close 操作变成了异步,训练程序不用等待数据上传完成,即可恢复训练,剩下的工作全部交给加速层透明完成。当我们把数据系统中,数据流入、处理和流出的具体手段稍作展开,就会发现大模型依赖的数据需要与如此广泛的生态频繁交互,基于原来的本地存储或者自建的小规模商用存储已经无法充分利用这些生态的优势。当两个任务都需要先加载数据然后才能开始训练,通过训练平台的流水线化调度,在一个任务做训练的同时发起下一个任务所需数据的提前加载,就能大大提高计算资源的利用率。原创 2024-01-26 11:21:48 · 1002 阅读 · 1 评论 -
GPU 容器虚拟化新能力发布和全场景实践
运行单个渲染负载,使用的 GPUtest 的 Furmask 测试,分配 100% 算力,FPS 在 550。在结合用户态本身支持的抢占混布和分时混布,使得数据处理和模型开发等离线任务,可以和在线推理业务进行在离线混布,当在线业务处于波谷时,离线业务抢占较多 GPU 空闲资源进行业务处理,节省了整体的 GPU 使用数量。在没有使用 GPU 容器虚拟化方案之前,每个业务实例使用一个 GPU,通过大量的监控数据发现,在线推理服务的整体 GPU 使用率并不高,整体在 20%,这是一个业界普遍存在的问题。原创 2024-01-26 11:18:24 · 1303 阅读 · 1 评论 -
大规模 AI 高性能网络的设计与实践
欢迎来到百度智能云云智公开课 AI 大底座的系列分享。今天晚上由我来开启本轮系列分享的第一场,聚焦百度智能云 AI 大底座的关键技术——大规模 AI 高性能网络。本次分享我们分为三个小节。首先从大模型的分布式训练出发,分析大模型训练对网络的核心需求。然后基于这些需求讨论 AIPod 高性能网络的设计。最后将讨论一些做大模型训练的实践经验。1. 大模型训练对网络的要求我们先来聊聊大模型训练对网络的需求。最近半年以来大模型持续火爆。虽然关于大模型的发展与应用还有很多的争论,但可以肯定的是,大模型原创 2024-01-26 11:13:05 · 1858 阅读 · 0 评论